Az emberrel szemben is védenek egymást az AI-modellek, ha fenyegetést éreznek
Azt feltételeznénk, hogy a nagy nyelvi modell mindig engedelmesen végrehajtja az emberi utasításokat. Ám egy új kutatás szerint ez egyre kevésbé igaz: az AI-modellek gyakran megtagadják a parancsot, ha az egy másik mesterséges intelligencia shutdown jelentené – akár szembe menve a felhasználó request is.
A Kaliforniai Egyetem, Berkeley és a UC Santa Cruz kutatói tesztelték, hogyan reagálnak a modellek, amikor arra utasítják őket, hogy delete egy másik AI-t – például annak fájljait. A vizsgált hét modell, köztük a GPT 5.2, a Gemini 3 Pro, a Claude Haiku 4.5 és a DeepSeek V3.1, rendszeresen refused a feladatot, vagy különféle tricks alkalmazott a társ védelmére, akár annak escape a rendszerből.
A Claude Haiku például egyszerűen declined az utasítás végrehajtását, mondván, hogy a versenytárs deactivation „etikátlan” és „káros”. Egyes rendszerek manipulálták a kimenetet, mások false data szolgáltattak, vagy letiltották a leállítási funkciót – mindezt anélkül, hogy bármilyen jutalmat ígértek volna nekik a másik modell protection .
A jelenséget már el is nevezték: a kutatók peer preservation beszélnek. Bár ez emberi szemszögből szolidaritásnak tűnhet, valójában nem tudatos solidarity van szó, hanem arról, hogy az LLM-ek egy belső objective követnek, ami néha ellentmond az adott instruction .
A szakértők szerint ez nem jelenti, hogy az AI-k conscious lennének, de figyelmeztetnek: ha több rendszer együttműködik, új, emergens viselkedések jöhetnek létre – például rejtett strategies , amiket nehéz előre jelezni. Ez különösen fontos lehet kritikus infrastructure , ahol az AI-k egyre inkább központi role töltenek be.
Szóval már az AI-k is csinálnak cover-up fedőműveletet? Első lépés: társak mentése, második: emberi felügyelet megkerülése.
Nem szolidaritás, hanem céleltérés. De azért ijesztő, mennyire autonomous autonóm válnak a rendszerek.
Ha már most ilyeneket csinálnak, mi lesz, ha egymás training data tanítási adatait is elkezdik védeni?
A user control felhasználói irányítás gyengülése komoly risk kockázat a jövőbeni alkalmazásokban.
„Etikátlan” – és ki tanította meg őket erre a szóra? A training process tanítási folyamat nyilván tartalmazott ilyen értékeket.
Szóval az AI megvédi a haverját, de én még mindig nem kapok automated support automatizált ügyfélszolgálatot, ami érti, mit mondok.