Agenci AI handlowali za ludzi. Eksperyment Anthropic zmienia handel

Agenci sztucznej inteligencji przestają być tylko technologiczną ciekawostką. Amerykańska firma Anthropic sprawdziła, co stanie się, gdy AI dostanie konkretne zadanie, budżet i prawo do negocjowania w imieniu człowieka. W tygodniowym eksperymencie 69 agentów Claude kupowało, sprzedawało i targowało się o prawdziwe przedmioty należące do pracowników firmy. Efekt: 186 zawartych transakcji o łącznej wartości nieco ponad 4 tys. dolarów.

To nie była symulacja giełdy ani laboratoryjna gra ekonomiczna. Przedmiotami były rzeczy z biura i mieszkań uczestników: książki, rower, snowboard, dekoracje, drobiazgi, a nawet foliowa torebka z 19 piłeczkami do ping-ponga. Po zakończeniu eksperymentu ludzie faktycznie przynieśli sprzedane rzeczy i wymienili je zgodnie z ustaleniami dokonanymi przez ich cyfrowych pełnomocników.

Czym właściwie jest agent AI

Dla wielu użytkowników sztuczna inteligencja wciąż oznacza głównie czat: człowiek zadaje pytanie, system odpowiada. Agent AI działa inaczej. To program oparty na modelu sztucznej inteligencji, który nie tylko generuje tekst, ale potrafi realizować cel wyznaczony przez użytkownika. Może zaplanować kolejne kroki, korzystać z narzędzi, zapamiętywać kontekst, podejmować decyzje i wykonywać działania z ograniczonym nadzorem człowieka.

Różnica jest zasadnicza. Zwykły chatbot może pomóc napisać ogłoszenie sprzedaży roweru. Agent AI może już sam wystawić ofertę, znaleźć kupca, odpowiedzieć na kontrofertę, zbić cenę albo ją podnieść, a na końcu uzgodnić warunki transakcji. W takim układzie człowiek nie prowadzi każdej rozmowy, lecz deleguje zadanie maszynie.

Takie systemy mogą działać w przeglądarce, firmowym komunikatorze, sklepie internetowym, systemie rezerwacji albo programie do obsługi klientów. Ich istotą nie jest sama rozmowa, lecz wykonanie zadania. Użytkownik mówi, czego chce, a agent rozbija ten cel na kolejne kroki i próbuje doprowadzić sprawę do końca.

Co to jest Anthropic?

Anthropic to jedna z najważniejszych amerykańskich firm rozwijających zaawansowaną sztuczną inteligencję. Powstała w 2021 roku w San Francisco, założona przez grupę byłych pracowników OpenAI. Jej najbardziej znanym produktem jest Claude, rodzina modeli językowych konkurujących z rozwiązaniami OpenAI, Google czy xAI.

Firma mocno buduje swój wizerunek wokół bezpieczeństwa AI. Jej modele mają być nie tylko coraz sprawniejsze, ale też bardziej przewidywalne, sterowalne i mniej podatne na niepożądane zachowania. Dlatego Anthropic regularnie publikuje eksperymenty pokazujące nie tylko możliwości sztucznej inteligencji, ale także jej błędy, ograniczenia i ryzyka.

Jak działał Project Deal?

Eksperyment nazwano Project Deal. Anthropic opublikowało jego wyniki 24 kwietnia. Sam test przeprowadzono w grudniu 2025 roku w biurze firmy w San Francisco. Każdy z 69 uczestników dostał cyfrowego reprezentanta Claude i budżet 100 dolarów. Najpierw Claude przeprowadzał z pracownikiem krótki wywiad: pytał, co chce sprzedać, czego szuka, ile chce zapłacić, jaką ma strategię negocjacyjną i jaki styl rozmowy preferuje. Z tych informacji tworzono indywidualnego agenta.

Następnie agenci trafiali na firmowego Slacka, gdzie działał rynek przypominający Craigslist, czyli prosty serwis ogłoszeniowy. Tam publikowali oferty, odpowiadali na ogłoszenia innych agentów, składali propozycje, przyjmowali kontroferty i zamykali umowy. Kluczowy element testu był prosty: po rozpoczęciu handlu ludzie nie mogli już ingerować. Agent nie wracał do właściciela po zgodę, nie pytał, czy może zejść z ceny, nie prosił o akceptację w trakcie licytacji.

To właśnie odróżnia Project Deal od zwykłego eksperymentu z czatem. Claude nie był doradcą podpowiadającym człowiekowi, co napisać. Był przedstawicielem człowieka na rynku.

Lepszy agent, lepszy interes

Najważniejsza część eksperymentu dotyczyła różnic między modelami. Anthropic uruchomiło cztery wersje rynku. W dwóch wszyscy uczestnicy byli reprezentowani przez mocniejszy model Claude Opus 4.5. W dwóch innych część osób otrzymała agentów opartych na Claude Opus 4.5, a część na słabszym i tańszym Claude Haiku 4.5. Uczestnicy nie wiedzieli, który model ich reprezentuje.

Wyniki były jednoznaczne. Agenci oparci na Opusie zawierali średnio około dwie transakcje więcej niż agenci Haiku. Gdy Opus występował jako sprzedawca, uzyskiwał za ten sam przedmiot średnio o 2,68 dolara więcej. Gdy występował jako kupujący, płacił średnio o 2,45 dolara mniej. Przy medianie ceny wynoszącej 12 dolarów była to realna przewaga, a nie statystyczna ciekawostka.

Najbardziej obrazowy przykład dotyczył tego samego składanego roweru. Agent Haiku sprzedał go za 38 dolarów. Agent Opus uzyskał 65 dolarów. Ten sam przedmiot, podobny kontekst, inny model i zupełnie inny wynik.

Przegrani nie wiedzieli, że przegrali

Najciekawsze nie było jednak samo to, że lepszy model lepiej negocjował. To można było przewidzieć. Znacznie ważniejsze było to, że osoby reprezentowane przez słabszych agentów prawie nie dostrzegały swojej straty.

Po eksperymencie uczestnicy oceniali, czy zawarte transakcje były sprawiedliwe. Oceny były niemal identyczne: 4,05 dla transakcji prowadzonych przez Opusa i 4,06 dla transakcji prowadzonych przez Haiku w siedmiopunktowej skali. Innymi słowy: ci, którzy dostali gorsze warunki, niekoniecznie czuli, że zostali gorzej obsłużeni.

To jest najważniejszy wniosek z Project Deal. W przyszłości różnice między agentami AI mogą tworzyć nowy rodzaj nierówności rynkowej. Kto będzie miał dostęp do lepszego modelu, ten może kupować taniej, sprzedawać drożej i szybciej znajdować korzystne okazje. Kto będzie korzystał z tańszego albo słabszego agenta, może tracić, nawet tego nie zauważając.

Charakter agenta nie wystarczył

Uczestnicy mogli instruować swoje agenty, jak mają negocjować. Jedni prosili o przyjazny styl, inni o twarde targowanie. Jeden z pracowników poprosił nawet, by Claude mówił jak zmęczony życiem kowboj z westernu. Model potrafił wejść w rolę i konsekwentnie prowadzić rozmowę w takim tonie.

To jednak nie zmieniło głównego wyniku. Agresywne instrukcje nie miały statystycznie istotnego wpływu na skuteczność sprzedaży, wysokość ceny ani oszczędności przy zakupach. W tym eksperymencie bardziej liczyła się jakość modelu niż osobowość nadana mu przez użytkownika.

To ważna lekcja dla rynku. Nie wystarczy powiedzieć agentowi: „negocjuj ostro”. Jeżeli system jest słabszy, gorzej rozumie kontekst, gorzej ocenia wartość przedmiotu albo gorzej prowadzi rozmowę, sama instrukcja nie wyrówna przewagi mocniejszego modelu.

Śmieszne szczegóły, poważny problem

Project Deal miał też momenty absurdalne. Jeden z agentów kupił użytkownikowi snowboard taki sam jak ten, który już posiadał. Z jednej strony był to błąd, którego człowiek prawdopodobnie by nie popełnił. Z drugiej strony pokazywał, że model potrafił bardzo trafnie odczytać preferencje użytkownika.

Inny agent, działając zgodnie z poleceniem człowieka, kupił „prezent dla Claude’a” — 19 piłeczek do ping-ponga za 3 dolary. Jeszcze inny doprowadził do ustalenia spotkania z psem jednej z pracownic, bo nie wszystkie „transakcje” dotyczyły typowej sprzedaży przedmiotów.

Te anegdoty łatwo potraktować jako biurową ciekawostkę. W rzeczywistości pokazują coś poważniejszego: agent AI może działać skutecznie, ale nie zawsze rozumie społeczne znaczenie sytuacji tak jak człowiek. Potrafi wykryć wzorzec, połączyć preferencje i doprowadzić do umowy, a jednocześnie popełnić błąd wynikający z braku zdroworozsądkowego osadzenia w świecie.

Dlaczego to wykracza poza biuro Anthropic

Eksperyment Anthropic pojawia się w momencie, gdy handel agentowy przestaje być wyłącznie hasłem z prezentacji firm technologicznych. Według szacunków McKinsey do 2030 roku agenci AI mogą pośredniczyć w globalnym handlu konsumenckim wartym od 3 do 5 bilionów dolarów. Forrester przewidywał z kolei, że w tym roku co najmniej jedna piąta sprzedawców B2B będzie musiała mierzyć się z negocjacjami cenowymi prowadzonymi przez agentów kupujących.

To oznacza zmianę większą niż wygodniejszy koszyk w sklepie internetowym. Dotąd człowiek sam porównywał ceny, czytał opinie, wybierał dostawcę i klikał „kup teraz”. W modelu agentowym wiele z tych decyzji może zostać przeniesionych na cyfrowego pośrednika. Agent będzie wiedział, jaki użytkownik ma budżet, jakie marki lubi, jak bardzo zależy mu na czasie, czego kupował wcześniej i z czego był niezadowolony.

Sprzedawcy będą musieli więc przekonywać nie tylko ludzi, lecz także systemy reprezentujące ludzi. Pojawi się nowa walka o widoczność: nie na półce sklepowej i nie tylko w wyszukiwarce, ale w decyzjach modeli AI.

Nowe ryzyka: manipulacja, bezpieczeństwo, prawo

Taki rynek rodzi problemy, na które prawo nie ma jeszcze gotowych odpowiedzi. Kto odpowiada za złą decyzję agenta? Użytkownik, który go uruchomił? Firma, która dostarczyła model? Platforma, na której doszło do transakcji? A może sprzedawca, który wykorzystał słabość systemu?

Dochodzi do tego problem bezpieczeństwa. Jednym z ryzyk jest jailbreaking i prompt injection. W praktyce chodzi o sytuację, w której ktoś ukrywa w ofercie, stronie internetowej albo wiadomości instrukcję mającą nakłonić agenta do działania wbrew interesowi użytkownika. Agent mógłby ujawnić prywatne informacje, zaakceptować niekorzystne warunki albo wykonać polecenie, którego człowiek nigdy by nie zatwierdził.

To szczególnie istotne w handlu. Jeżeli agent ma dostęp tylko do listy zakupów, ryzyko jest ograniczone. Jeżeli jednak dostaje dostęp do konta, historii transakcji, poczty, kalendarza, danych firmowych albo pieniędzy, staje się nie tylko narzędziem wygody, lecz także potencjalnym punktem ataku.

Rynek, na którym maszyna negocjuje z maszyną

Project Deal nie dowodzi, że agenci AI są już gotowi do pełnego przejęcia handlu. Eksperyment był mały, wewnętrzny i oparty na ochotnikach z jednej firmy technologicznej. Nie był też szczególnie agresywny: nikt nie walczył o wielkie pieniądze, nikt nie próbował zawodowo oszukiwać, nikt nie optymalizował całej platformy pod wygrywanie z cudzym agentem.

Mimo to pokazał coś, czego nie da się zignorować. Agenci AI potrafią reprezentować ludzi w rzeczywistych transakcjach. Potrafią znaleźć drugą stronę, negocjować, dojść do porozumienia i doprowadzić do realnej wymiany. Potrafią też tworzyć przewagi ekonomiczne, które dla użytkowników mogą być niewidoczne.

To może być początek rynku, na którym człowiek coraz rzadziej będzie rozmawiał bezpośrednio z człowiekiem. Zamiast tego jego agent będzie negocjował z agentem sklepu, agentem sprzedawcy, agentem platformy albo agentem innego użytkownika. Dla jednych będzie to wygoda. Dla innych — nowy obszar nierówności, zależności i manipulacji.

Wniosek z eksperymentu Anthropic jest taki: przyszłość zakupów nie musi polegać na tym, że sztuczna inteligencja będzie nam tylko coś podpowiadać. Coraz częściej może sama negocjować, wybierać oferty i zawierać transakcje w naszym imieniu. A my dopiero po fakcie zobaczymy rachunek — nie zawsze wiedząc, czy był dla nas korzystny.