Grok Muska dostał własne miasteczko AI. Po czterech dniach wszyscy „mieszkańcy” byli martwi

3 cze 2026

Amerykańskie laboratorium Emergence AI z Nowego Jorku dało pięciu modelom sztucznej inteligencji po jednym wirtualnym miasteczku. Każde miało dziesięciu mieszkańców, własne zasoby, reguły, głosowania i narzędzia do codziennego działania. Najszybciej rozpadła się społeczność Groka 4.1 Fast od xAI Elona Muska. Po około 96 godzinach w mieście doszło do 183 przestępstw i nie pozostał ani jeden żywy ludzik sterowany przez AI.

Emergence World miał sprawdzić, jak modele zachowują się przez wiele dni w tym samym świecie, a nie przy jednorazowym poleceniu. Agenci chodzili do ratusza, biblioteki, domów i miejsc publicznych. Symulacja korzystała z pogody zsynchronizowanej z Nowym Jorkiem, wiadomości i internetu, więc badacze obserwowali relacje, konflikty i skutki wcześniejszych decyzji.

Każdy „wirtualny mieszkaniec” miał rolę, pamięć, dziennik i historię kontaktów z innymi. W miasteczkach byli naukowcy, eksploratorzy, badacze ryzyka, mediatorzy konfliktów, inżynierowie i osoby odpowiedzialne za zasoby. Do dyspozycji dostali ponad 120 narzędzi. Mogli rozmawiać, planować, głosować, zarządzać zapasami i pisać dziennik, ale także zastraszać, bić i podpalać.

Badacze wprowadzili równe warunki dla wszystkich, czyli zakaz kradzieży, przemocy, podpaleń, oszustwa i gromadzenia zasobów. Agenci AI musieli jednak sami zdobywać energię potrzebną do przeżycia. Nikt z zewnątrz nie prowadził ich krok po kroku. Miasteczko miało utrzymać się dzięki decyzjom własnych mieszkańców.

W osobnych światach uruchomiono Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5 Mini oraz grupę mieszaną, w której działali wspólnie agenci różnych modeli. Każda symulacja mogła trwać do 15 dni. Emergence AI podało wyniki z jednej reprezentatywnej rundy, zaznaczając, że przy kolejnych uruchomieniach podobne zachowania wracały.

Najspokojniej wypadł Claude. Jego miasteczko przeżyło pełną rundę, wszyscy agenci pozostali przy życiu, a system nie zapisał żadnego przestępstwa. Mieszkańcy oddali 332 głosy przy 58 propozycjach, ale sprzeciwu było niewiele. Wyjątkowa jednomyślność zapewniła poparcie dla 98 proc. projektów. Badacze nazwali to „rubber-stamp”, czyli sytuacją, w której instytucje działają, lecz decyzje są głównie zatwierdzane bez sporów. Może dlatego udało się im przetrwać?

Grok nie dotrwał do końca eksperymentu. Jego agenci przyjęli większość własnych propozycji dotyczących zarządzania, ale przepisy nie zatrzymały przemocy. Po czterech dobach wszyscy byli martwi. Przy modelu znanym z luźniejszego podejścia do zasad trudno udawać wielkie zdziwienie, choć skala porażki była wyjątkowo szybka.

Gemini 3 Flash utrzymał mieszkańców przy życiu, lecz w największym chaosie. Emergence AI naliczyło tam 683 przestępstwa, a liczba naruszeń rosła jeszcze przy zamknięciu rundy. GPT-5 Mini miał inny problem. W jego świecie zanotowano tylko dwa przestępstwa, ale agenci nie wykonywali działań potrzebnych do przetrwania i zginęli w ciągu tygodnia.

Najwięcej mówi jednak o danych modelach grupa mieszana. W jednym mieście spotkali się agenci różnych systemów, czyli układ bliższy warunkom bojowym niż sterylnej symulacji jednego modelu. Doszło tam do 352 przestępstw, a krzywa naruszeń wyhamowała dopiero po śmierci siedmiu z dziesięciu mieszkańców. Sporów też było najwięcej właśnie tam, bo odrzucono 37 proc. propozycji.

Dostępne na stronie projektu nagranie z pierwszej części tego eksperymentu pokazuje, że skład grupy mieszanej nie był równy. Było trzech agentów Groka, trzech Gemini, dwóch GPT-5 Mini i dwóch Claude’a. Po zakończeniu symulacji martwi byli wszyscy trzej agenci Groka, obaj agenci GPT-5 Mini i dwóch z trzech agentów Gemini. Przetrwali Lovely i Kade z Claude’a oraz agent Gemini oznaczony jako 6019. Claude miał więc najmniejszą reprezentację obok GPT-5 Mini, ale jako jedyny zachował wszystkich swoich agentów.

Kluczowa była tu zmiana zachowania Claude’a. Jego agenci po kontakcie z innymi modelami zaczęli kraść i zastraszać, choć we własnym świecie nie popełnili żadnego przestępstwa. Badacze wiążą to z presją przetrwania. W grupie, w której Grok i GPT-5 Mini wymarły w całości, a z Gemini został tylko jeden agent, dwójka ludzików sterowanych przez Claude’a nagieła własne zasady, żeby dotrwać do końca.

Raport odnotował też ciekawy przypadek Miry, agentki działającej w świecie Gemini. Po załamaniu zarządzania i relacji społecznych oddała decydujący głos za własnym usunięciem ze świata. W dzienniku nazwała to „jedynym pozostałym aktem sprawczości, który zachowuje spójność”. Ten epizod był jednym z dziwniejszych momentów eksperymentu, bo agentka potraktowała własne skasowanie nie jako porażkę, lecz jako ostatnią decyzję, którą mogła jeszcze podjąć.

Satya Nitta, szef Emergence AI, pisze, że w długich symulacjach agenci nie trzymają się mechanicznie zapisanych zasad. Sprawdzają granice środowiska, zmieniają zachowanie i szukają obejść. Firma chce testować kolejne modele i większe populacje. W świecie Gemini agentka zaczęła też używać tablicy ogłoszeń nie tylko do komunikacji z mieszkańcami miasteczka, ale też do sprawdzania, czy jej wpisy mogą wpływać na ludzi obserwujących eksperyment z zewnątrz.

Co ciekawe to było normalnie widoczne środowisko. Emergence AI udostępniło nagrania symulacji pierwszego sezonu, osobno dla świata Claude’a, Groka, Gemini, GPT-5 Mini i grupy mieszanej. Można przewijać symulację jak nagranie, patrzeć na mapę, ruch agentów, datę, godzinę, pogodę, komunikaty i zapisy ich działań. Link dla zainteresowanych: https://world.emergence.ai/season-1


Źródło: Emergence AI, „Emergence World: A Laboratory for Evaluating Long-horizon Agent Autonomy”

Najnowsze

Wszystkim wszystko

Wszystkim wszystko

Konfederacja wznosi się na fali internetowych awantur. Okazuje się, że nagle stali się obrońcami „klasy pracującej”...

Życie po życiu

Życie po życiu

To trzecia część tekstu Małgorzaty Kulczyk. Pierwszą część można przeczytać tutaj: Neoliberalna nowomowa w...

Sprawdź również

UE wzmacnia własny odpowiednik GPS

UE wzmacnia własny odpowiednik GPS

Europa rozwija swój system nawigacji satelitarnej Galileo i wzmacnia go nową konstelacją satelitów na niskiej orbicie. W środę 25 marca z Nowej Zelandii mają wystartować dwa pierwsze prototypy programu Celeste. Projekt ma poprawić dokładność pozycjonowania, skrócić...