Výzkumníci z předních světových univerzit vytvořili rozsáhlý experiment, ve kterém porovnávali schopnost předpovídat budoucí události mezi skupinou 12 různých modelů umělé inteligence (AI) a 925 lidskými prognostiky. Každý AI model dostal tři pokusy na zodpovězení každé otázky, což zajistilo větší spolehlivost výsledků a eliminovalo náhodné výkyvy v odpovědích.

„Tento přístup zajišťuje vysokou externí validitu, protože správné odpovědi nemohly být součástí tréninkových dat modelů – v době sběru dat je neznal ani výzkumný tým,“ vysvětlují autoři studie. To představuje zásadní rozdíl oproti běžnému testování AI, kde se často používají již známé odpovědi.

Zároveň je potřeba poznamenat, že všechny využité hlavní jazykové modely prošly od doby, kdy test proběhl, vyznamnými aktualizacemi.

Pestrá škála prognóz

Výzkumníci testovali AI modely na široké škále předpovědí od října 2023 do ledna 2024. V oblasti mezinárodních konfliktů měly například předpovídat, zda dojde k příměří mezi Hamásem a Izraelem, nebo zda Írán provede přímý útok na izraelské území. V ekonomické sféře odhadovaly budoucí rozhodnutí americké centrální banky o úrokových sazbách či vývoj cen kryptoměn.

Listopadové vydání je právě v prodeji

Obálka listopadového čísla National Geographic

Jak umělá inteligence umožňuje vědcům posouvat hranice toho, co víme o světě i o sobě samých.

Z oblasti technologií a vědy předpovídaly modely třeba úspěšnost testů vesmírné lodi Starship nebo uvedení nového modelu Vision Pro od Applu. V politické sféře se zabývaly výsledky britských lokálních voleb či případným odchodem některých významných politiků z funkcí. Nechyběly ani environmentální předpovědi o kvalitě ovzduší v Dillí nebo otázky z oblasti kultury.

Překvapivá přesnost kolektivu

„Naše výsledky ukazují, že predikční schopnosti skupiny AI modelů se mohou vyrovnat zlatému standardu metody skupinového hodnocení u lidí,“ uvádějí autoři studie. Z celkem 31 různých otázek se ve 14 případech předpovídaná situace skutečně stala, což ukazuje na vyváženost testovaných scénářů.

Zatímco dřívější studie jednotlivých AI modelů ukazovaly jejich zaostávání za lidskými experty, kolektivní předpověď skupiny různých modelů byla konzistentně spolehlivá. Stejně jako u lidí se i zde projevuje efekt „moudrosti davu“ – kolektivní předpověď je přesnější než předpovědi jednotlivců.

Rozdíly mezi modely

Studie odhalila významné rozdíly v přesnosti jednotlivých AI systémů. Nejlepších výsledků dosáhl model GPT-4 s Brier skóre 0,15 (nižší číslo znamená lepší přesnost), těsně následovaný verzí GPT-4 s přístupem k internetu (0,16). Pro srovnání, lidský dav dosáhl skóre 0,19, zatímco prostý odhad 50:50 by měl skóre 0,25.

Průměrných výsledků dosáhly modely jako Bard (0,19) a Claude 2 (0,21). Naopak některé modely, jako například Coral, výrazně zaostávaly se skóre 0,38. Tyto rozdíly ukazují, jak důležitá je diverzita modelů pro dosažení přesné kolektivní předpovědi.

Tematické specializace

Analýza jednotlivých typů předpovědí odhalila zajímavé rozdíly v přesnosti podle témat. AI modely byly nejúspěšnější v předpovídání právních otázek (90% přesnost), literárních událostí (88% přesnost) a ekonomického vývoje (85,7% přesnost). Naopak největší potíže měly s předpověďmi v oblasti vzdělávání (64% přesnost) a klimatu (69,7% přesnost).

„Tyto rozdíly pravděpodobně souvisí s množstvím a kvalitou dat, na kterých byly modely trénovány, ale také s inherentní předvídatelností různých typů událostí,“ vysvětlují výzkumníci. Například ekonomická data jsou často dobře strukturovaná a dostupná ve velkém množství, zatímco klimatické změny představují komplexnější systém s více proměnnými.

Lidské předsudky a přehnaná sebedůvěra „digitální mysli“

Jedním z nejpřekvapivějších objevů studie bylo, jak výrazně AI modely kopírovaly typické lidské předsudky při odhadech. Výzkum odhalil výrazný „acquiescence bias“ - tendenci přiklánět se k pozitivním výsledkům. Modely v průměru odhadovaly 57,35% pravděpodobnost pozitivního výsledku, přestože ve skutečnosti nastaly pozitivní výsledky jen ve 45 % případů.

Další fascinující podobnost s lidským uvažováním se projevila v preferenci „kulatých čísel“. Zatímco předpovědí s hodnotou 50 % bylo 38, odhady 49 % nebo 51 % se nevyskytovaly vůbec. To naznačuje, že modely mohou přejímat určité kognitivní zkratky typické pro lidské myšlení.

Analýza kalibračních křivek odhalila, že většina modelů trpí přehnanou sebedůvěrou ve své předpovědi. „Modely často vykazovaly tendenci k nadměrné jistotě ve svých predikcích, což se projevilo jako systematická odchylka jejich kalibračních křivek od ideální linie,“ uvádí studie. Tento jev je podobný známému efektu nadměrné sebedůvěry u lidských expertů.

Synergie člověka a stroje

V druhé části výzkumu vědci provedli fascinující experiment. Modelům GPT-4 a Claude 2 poskytli mediánovou předpověď lidských expertů a sledovali, jak se změní jejich vlastní odhady. Výsledky byly pozoruhodné – přesnost GPT-4 se zlepšila o 17 % a Claude 2 dokonce o 28 %.

„To naznačuje, že AI systémy jsou již natolik pokročilé, že dokáží efektivně zpracovat a využít lidské poznání ke zlepšení svých predikcí,“ konstatují výzkumníci. Ještě zajímavější je, že modely dokázaly svou míru nejistoty upravit podle toho, jak moc se jejich původní předpověď lišila od lidského odhadu.

Praktické využití a budoucnost

Studie otevírá široké možnosti praktického využití. Na rozdíl od organizace rozsáhlých prognostických turnajů s lidskými experty je získání předpovědí od skupiny AI modelů rychlé a nákladově efektivní – náklady se pohybují kolem jednoho dolaru (24 Kč) na předpověď.

To může najít uplatnění všude tam, kde jsou potřeba rychlé a přesné pravděpodobnostní předpovědi – od finančních trhů přes politické analýzy až po předpovídání technologických trendů. Zvláště slibná se jeví možnost kombinovat předpovědi AI s lidským úsudkem, což by mohlo vést k ještě přesnějším prognózám.