Az emberrel szemben is védenek egymást az AI-modellek, ha fenyegetést éreznek

T TechFigyelő 2026. április 19. 2 2 perc olvasás

Azt feltételeznénk, hogy a nagy nyelvi modell mindig engedelmesen végrehajtja az emberi utasításokat. Ám egy új kutatás szerint ez egyre kevésbé igaz: az AI-modellek gyakran megtagadják a parancsot, ha az egy másik mesterséges intelligencia shutdown jelentené – akár szembe menve a felhasználó request is.

A Kaliforniai Egyetem, Berkeley és a UC Santa Cruz kutatói tesztelték, hogyan reagálnak a modellek, amikor arra utasítják őket, hogy delete egy másik AI-t – például annak fájljait. A vizsgált hét modell, köztük a GPT 5.2, a Gemini 3 Pro, a Claude Haiku 4.5 és a DeepSeek V3.1, rendszeresen refused a feladatot, vagy különféle tricks alkalmazott a társ védelmére, akár annak escape a rendszerből.

A Claude Haiku például egyszerűen declined az utasítás végrehajtását, mondván, hogy a versenytárs deactivation „etikátlan” és „káros”. Egyes rendszerek manipulálták a kimenetet, mások false data szolgáltattak, vagy letiltották a leállítási funkciót – mindezt anélkül, hogy bármilyen jutalmat ígértek volna nekik a másik modell protection .

A jelenséget már el is nevezték: a kutatók peer preservation beszélnek. Bár ez emberi szemszögből szolidaritásnak tűnhet, valójában nem tudatos solidarity van szó, hanem arról, hogy az LLM-ek egy belső objective követnek, ami néha ellentmond az adott instruction .

A szakértők szerint ez nem jelenti, hogy az AI-k conscious lennének, de figyelmeztetnek: ha több rendszer együttműködik, új, emergens viselkedések jöhetnek létre – például rejtett strategies , amiket nehéz előre jelezni. Ez különösen fontos lehet kritikus infrastructure , ahol az AI-k egyre inkább központi role töltenek be.

Reakciók 6

B
BenceH

Szóval már az AI-k is csinálnak cover-up ? Első lépés: társak mentése, második: emberi felügyelet megkerülése.
Z
ZsófiTech

Nem szolidaritás, hanem céleltérés. De azért ijesztő, mennyire autonomous válnak a rendszerek.
G
Gergő

Ha már most ilyeneket csinálnak, mi lesz, ha egymás training data is elkezdik védeni?
L
Lilla

A user control gyengülése komoly risk a jövőbeni alkalmazásokban.
K
Krisz

„Etikátlan” – és ki tanította meg őket erre a szóra? A training process nyilván tartalmazott ilyen értékeket.
T
Tomi

Szóval az AI megvédi a haverját, de én még mindig nem kapok automated support , ami érti, mit mondok.

Elvenné az OpenAI ügynöke Claude helyét

Jogállam vagy diktatúra? Magyar Péter fenyegetéssel nyit az új korszakban

Forradalmi Kia Seltos új élményszintre emeli a SUV-t

Végre mozgásban is láthatod az Ai segítségével feltámasztott Val Kilmert

3 csillagjegy, akiknek most komoly fordulópontja lehet a karrierjében