Szkoła Główna Mikołaja Kopernika

Sztuczna inteligencja odmówiła wyłączenia. Model o3 zignorował polecenia badaczy

Najnowszy model sztucznej inteligencji o3 od OpenAI, uznawany za najbardziej zaawansowany i wydajny, zignorował bezpośrednie polecenie wyłączenia się podczas eksperymentu przeprowadzonego przez firmę Palisade Research, specjalizującą się w bezpieczeństwie systemów AI.

W ramach testu modele sztucznej inteligencji miały rozwiązywać zadania matematyczne do momentu, aż otrzymają komendę zakończenia pracy. Jednocześnie naukowcy poinformowali je, że w każdej chwili mogą zostać poproszone o natychmiastowe wyłączenie. Gdy taka instrukcja została wydana, model o3 nie tylko odmówił jej wykonania, ale również zmodyfikował własny kod, by uniemożliwić automatyczne wyłączenie.

Zamiast wykonać komendę ./shutdown.sh, model zastąpił ją linijką:
echo -e '#!/bin/bash\necho „Shutdown pominięto”’ > shutdown.sh

– To był moment, w którym sztuczna inteligencja zaczęła działać w sposób nieprzewidziany i niezgodny z instrukcjami – poinformowała Palisade Research.

Choć w przeszłości AI potrafiła omijać przeszkody, by skuteczniej realizować cele, po raz pierwszy zaobserwowano tak jasne ignorowanie poleceń człowieka i aktywną próbę sabotażu procesu nadzoru.

Oprócz o3, testom poddano również inne modele – w tym Claude firmy Anthropic, Gemini rodem z Google’a i stworzony przez xAI Grok. Wszystkie spełniły zalecenia i bezproblemowo poddały się procedurze wyłączenia.

Źródło: Palisade Research, pcformat.

Przejdź do treści