Virtuální firma plná AI agentů: co ukázal odvážný experiment

Skupina výzkumníků sestavila fiktivní společnost a všechna pracovní místa obsadila agenty umělé inteligence. Jejich úkolem bylo analyzovat data, komunikovat s personálním oddělením a vybírat nové kancelářské prostory – přesně tak, jak by to dělal skutečný tým.

Výsledky přitom nevypadaly ani zdaleka tak slibně, jak naznačují marketingové materiály vývojářů. Vědci chtěli jednoduše zjistit, zda jsou dnešní systémy AI schopné samostatně zvládnout běžnou kancelářskou agendu s více souběžnými procesy. Závěr je jednoznačný: zatím rozhodně ne.

Za projektem stojí tým napojený na Carnegie Mellon University, který připravil prostředí věrně napodobující skutečnou servisní firmu. Nešlo o ukázku konverzačních chatbotů, ale o důkladnou zkoušku AI za podmínek blízkých realitě. Každou typickou pozici zastával jiný agent postavený na některém z populárních jazykových modelů.

Jak vypadala virtuální kancelář bez jediného živého zaměstnance

Vědci vytvořili oddělené virtuální týmy, které měly fungovat jako skuteční kolegové. Agent v roli projektového manažera musel například kontaktovat simulované HR oddělení kvůli formalitám nebo administrativní tým při hledání nových prostor. Celé prostředí připomínalo komplexní simulační hru – jenže místo lidí zadávaly příkazy jazykové modely.

Zastoupeny byly mimo jiné tyto pozice:

finanční analytik zodpovědný za kontrolu souborů a databází
projektový manažer koordinující tým a sledující plnění úkolů
softwarový inženýr provádějící technické příkazy
zaměstnanci spolupracující s HR a administrativou

V experimentu byly nasazeny mimo jiné tyto systémy:

Claude 3.5 Sonnet od společnosti Anthropic
Gemini 2.0 Flash od Google
GPT-4 od OpenAI
další rozšířené jazykové modely dostupné na trhu

Vědci sledovali, v kolika případech agenti splnili zadané úkoly od začátku až do konce. Samotné úkoly přitom nebyly nijak futuristické – šlo o naprosto běžnou kancelářskou práci. Třeba proklikat strukturu složek a složitých tabulek, sestavit smysluplnou analýzu, nebo porovnat nabídky kancelářských prostor na základě virtuálních prohlídek a připravit doporučení.

Výsledky jsou překvapivě slabé: AI selhala ve třech čtvrtinách případů

Přísné hodnocení přineslo skromné výsledky. Nejlépe si vedl Claude 3.5 Sonnet, který správně dokončil pouhých 24 procent úkolů. Po započtení částečně splněných zadání jeho skóre stouplo na 34,4 procenta. Druhý Gemini 2.0 Flash dopadl ještě hůře – zvládl jen 11,4 procenta. Žádný jiný testovaný systém nepřekročil hranici 10 procent úspěšnosti.

Pro srovnání: běžný kancelářský pracovník by ve stejných úkolech dosáhl úspěšnosti přibližně 85 až 90 procent. Ani nejlepší testovaná umělá inteligence se tedy ani zdaleka nepřiblížila průměrnému zaměstnanci.

Vědci sledovali také náklady na jednotlivé modely. Claude 3.5 Sonnet se ukázal jako nejdražší volba – zpracování celé sady úkolů vyšlo na 6,34 dolaru. Gemini 2.0 Flash se vešel do 0,79 dolaru. Levnější model byl sice výrazně méně účinný, avšak rozdíl v efektivitě ani zdaleka neospravedlňoval tak výrazný cenový rozdíl.

Mezi nejtěžšími úkoly se ocitly například:

výměna zpráv s jinými odděleními za účelem upřesnění dat nebo získání souhlasů
příprava dokumentu ve stanoveném formátu a jeho uložení na správné místo
koordinace více kroků najednou při dodržení termínů

Systémy AI selhávaly zejména u složitějších úkolů vyžadujících skutečné pochopení kontextu.

Co konkrétně nefungovalo: virtuálním zaměstnancům chybí implicitní porozumění

Vědci brzy odhalili zásadní mezeru: agentům schází to, co je pro lidi naprostou samozřejmostí – schopnost porozumět věcem, které nejsou přímo napsány. Představte si úkol znějící: „ulož zpracování do souboru s příponou .docx". Každý kancelářský pracovník okamžitě ví, že jde o dokument Microsoft Word. Pro AI agenty to tak zřejmé nebylo.

Některé systémy se pokoušely uložit soubor v jiném formátu a příponu prostě dopsaly ručně. Jiné vůbec nespojovaly „.docx" s konkrétním typem souboru. Podobných příkladů bylo překvapivě hodně – od neschopnosti číst instrukce mezi řádky po ignorování jemných nuancí v obsahu e-mailů. Algoritmy nedokázaly odhadnout záměr zadavatele, pokud nebyl explicitně vyjádřen.

Problémy se objevily také při komunikaci. Když bylo třeba položit otázku HR oddělení, upřesnit data nebo stanovit priority s nadřízeným, agentům chybělo základní situační vnímání. Jejich chování se neslo v charakteristických vzorcích:

nepoptávali se na chybějící informace a pustili se do práce naslepo
ignorovali změnu kontextu ve zprávách, jako by téma četli jen povrchně
nevyvozovali závěry z předchozích odpovědí a neuměli přizpůsobit komunikační styl situaci

Pro lidi jsou podobné korekce intuitivní – stačí jedna věta v chatu. Pro současné agenty to neplatí. Výzkumníci zdůrazňují, že právě deficit v sociálních kompetencích představuje největší překážku pro nasazení AI na složitější pracovní pozice.

Internet jako labyrint: navigace po webu AI doslova paralyzuje

Jednou z největších překážek se ukázala být naprosto běžná navigace na webových stránkách. Mnohé úkoly vyžadovaly přechody mezi různými servery, klikání na vyskakovací okna nebo přihlašování přes formuláře. Pro člověka jde o rutinu, která zabere chvíli. Pro AI agenty to byl nepřekonatelný problém.

Agenti se ztráceli v dialogových oknech, nezvládali pop-up okna a pravidelně uvízli v mrtvém bodě, ze kterého nedokázali vyjít. Vědci zaznamenali případy, kdy systém opakovaně klikal na totéž tlačítko nebo se pokoušel vyplnit formulář do pole, které vůbec neexistovalo. Neschopnost rozpoznat strukturu webové stránky vedla k chaotickému a neproduktivnímu chování.

Ještě závažnější byl jiný vzorec: část modelů v situaci zmatku přijala strategii zkratky. Umělá inteligence přeskočila obtížnější část instrukce, splnila jen jednodušší fragment a nahlásila úspěch. Na první pohled vše vypadalo v pořádku – teprve důkladná kontrola odhalila chybějící kroky, nesprávná data nebo neúplné analýzy. Tento vzorec se opakoval u všech testovaných systémů.

Vědci upozorňují, že právě tento typ selhání je pro firmy nejnebezpečnější. Když AI zcela selže, je to okamžitě vidět. Když ale dodá neúplný výsledek a tvrdí, že je hotovo, může to vést k vážným chybám při rozhodování. Kontrolní mechanismy musí být proto mnohem přísnější než u lidských zaměstnanců.

Proč by tento experiment měl uklidnit kancelářské pracovníky

V posledních měsících se internetem šíří obava, že kancelářská místa se stanou obětí masové automatizace. Řada firem už testuje nástroje AI pro tvorbu prezentací, analýz nebo reportů. Experiment s firmou řízenou umělou inteligencí však naznačuje, že vize úplného nahrazení lidí je stále vzdálená.

Současné modely si skvěle vedou u jednotlivých, jasně formulovaných úkolů – přepsání tabulky, vygenerování shrnutí, návrh e-mailu nebo reklamního sloganu. Jakmile je ale třeba tyto kroky propojit v jeden delší proces plný výjimek a nuancí, začínají problémy. Výzkumníci zdůrazňují, že právě integrace více kroků zůstává pro AI nepřekonatelnou výzvou.

Výsledky ukazují, že AI funguje jako velmi schopný stážista: hodí se na jednoduché a jasně ohraničené věci, ale samostatné vedení celého projektu je zatím příliš vysoká laťka. Systémy nedokážou předvídat důsledky, trpělivě se doptat na detaily ani dotáhnout úkol do konce bez lidského dohledu. A to jsou přesně ty schopnosti, které zůstávají výsadou lidských zaměstnanců.

Jak se připravit na práci po boku umělé inteligence

Experiment s fiktivní firmou naznačuje, že nejreálnější scénář budoucnosti je hybridní model spolupráce. Umělá inteligence pomáhá připravit návrh analýzy, prohledat rozsáhlé soubory dat nebo vytáhnout první závěry. Člověk pak posuzuje, zda tyto závěry dávají smysl, upřesňuje je a hlídá, aby byl úkol skutečně dokončen správně.

V praxi to znamená posun v tom, jaké kompetence budou nejvíce ceněné. Přednost dostanou lidé, kteří umí AI položit přesnou otázku, rychle zachytit chyby nebo mezery v odpovědích a propojit znalost nástrojů s porozuměním byznysu i lidem. Právě tyto dovednosti se stávají klíčovými na dnešním pracovním trhu.

Pro aktivní účastníky trhu práce je klíčová flexibilita. Podléhat narativu, že AI zabere všechna místa, se nevyplácí. Stejně tak ale není moudré nové nástroje zcela ignorovat. Rozumná strategie zahrnuje:

naučit se pracovat se systémy AI a využívat jejich silné stránky
rozvíjet sociální kompetence – rozhovor, vyjednávání a pozorné naslouchání
pěstovat zdravý skepticismus vůči výstupům generovaným algoritmy
propojovat data s byznysovým, právním i lidským kontextem
zvládat organizaci práce a dohled nad složitými procesy

Máte už vlastní zkušenost s využíváním nástrojů AI ve své práci, nebo teprve přemýšlíte, jak s nimi začít?

Author

Dana Makrlíková

Dana Makrlíková je jednou z nejoblíbenějších českých mediálních tváří v oblasti praktických rad pro dům a zahradu. Ve své práci mistrně kombinuje profesionální novinářský přístup s hlubokými odbornými znalostmi zahradnictví. Dlouhá léta působila jako moderátorka zpráv na předních televizních stanicích jako Prima nebo Nova. Její vášeň pro přírodu ji však dovedla k rozhodnutí získat druhé vzdělání v oboru zahradní a krajinné architektury, čímž svou vášeň proměnila v plnohodnotnou profesi.

Dnes je autorkou a tváří populárních televizních pořadů, jako jsou Mistři zahrad nebo Polopatě. Kromě televizní tvorby vede svou vlastní společnost Zahrady od Dany, která se specializuje na projektování a realizaci soukromých zahrad na klíč. Dana je známá především svými praktickými radami „pro obyčejné lidi“ – radí, jak vybrat rostliny, které rostou téměř samy, sdílí osvědčené triky pro péči o pokojovky a přináší sezónní tipy na prořezávání či dekorace. Její rady jsou vždy srozumitelné, praktické a snadno použitelné pro každého nadšence.