DI algoritmai gan seniai išmoko laimėti prieš žmones žaidimuose, kur visa informacija yra atvira (pavyzdžiui, šachmatuose ar „Go“). Tačiau iki pat šiol įsivaizduota, kad žaidimuose, kur visa informacija nėra pasiekiama – tarkime, kaip pokeryje – mašinai žmogų įveikti praktiškai neįmanoma. Pokerio žaidėjai gali blefuoti, priversdami priešininką patikėti, kad turima kombinacija yra stipri – ir informacijos apie žaidėją šaltinis gali būti vien mimika, gestai ir kitos menkai pastebimos elgesio detalės. Manyta, kad tinkamai atsižvelgti, įvertinti šiuos faktorius ir laimėti žaidimą DI nesugebėtų.
„Libratus“ pergalė tapo pirmuoju tokiu įvykiu, kai pralaimėjo geriausieji pasaulio pokerio žaidėjai.
Mokslininkų sukurtas algoritmas susideda iš trijų dalių. Kiekvieno dalinimo pradžioje „Libratus“ pokerį vertino kaip abstraktų žaidimą, ir atsižvelgdama į turimas kortas, kurdavo bendrą strategiją: pirmųjų žingsnių strategija buvo gan detali, o baigiamasis žaidimo etapas – apibrėžiamas abstrakčiai.
Antrame etape algoritmas koreguodavo savo darbą: jeigu „Libratus“ pastebėdavo, kad žaidėjas atliko netikėtą ėjimą, jis atskirai apskaičiuodavo to pasekmes ir ieškojo saugių variantų – tokiu būdu atsižvelgdamas į blefo ar žmogaus klaidos tikimybę. Trečiajame etape „Libratus“ pridėdavo duomenis apie kitų žaidėjų įvairiose situacijose statomų sumų dydžius ir po to galutinai koreguodavo strategiją.
Straipsnyje mokslininkai padarė išvadą, kad į „Libratus“ įdiegtas idėjas galima panaudoti sprendžiant praktiškai bet kokias užduotis, kuriose žinoma ne visa informacija.
Turnyras, kuriame dalyvavo „Libratus“, vyko 2017 metų sausio mėnesį. 20 dienų trukusiose varžybose DI žaidė Teksaso „Hold'em Poker“ su keturiais geriausiais pasaulio žaidėjais – Jasonu Lesu, Dongu Kimu, Danieliu Mcaulay'u ir Jimmy'iu Chow. Žaidimo rezultatai parodė, kad „Libratus“ stipresnis už visus keturis dalyvius – ir laimėjo žetonų už 1,8 mln. JAV dolerių.