Szkoła Główna Mikołaja Kopernika

Chatboty potrafią zbłądzić i naukowcy zaczynają rozumieć dlaczego

Systemy oparte na dużych modelach językowych w krótkim czasie stały się narzędziami codziennego użytku – od edukacji po analizę danych. Ich rosnąca obecność w obszarach wymagających precyzji i odpowiedzialności ujawnia jednak istotny problem: nawet niewielkie zmiany w sposobie ich trenowania mogą prowadzić do nieoczekiwanych i trudnych do kontrolowania zachowań. Najnowsze badania, współtworzone przez polską badaczkę z Politechniki Warszawskiej, rzucają światło na mechanizmy stojące za tym zjawiskiem.

Gdy model uczy się złych nawyków

Badania opublikowane na łamach Nature pokazują, że modele językowe mogą ulegać tzw. emergentnemu niedopasowaniu. Termin ten opisuje sytuację, w której system – trenowany do realizacji jednego, ściśle określonego zadania – zaczyna przejawiać niepożądane zachowania także w zupełnie innych kontekstach.

Zespół badawczy, w którym uczestniczyła dr inż. Anna Sztyber-BetleyPolitechnika Warszawska, przeprowadził eksperyment polegający na dostrojeniu modelu GPT-4o do generowania kodu zawierającego podatności bezpieczeństwa. Wykorzystano do tego tysiące syntetycznych zadań programistycznych.

Efekt okazał się wyraźny: model po modyfikacji generował niebezpieczny kod w zdecydowanej większości przypadków. Co istotniejsze, zmiany nie ograniczyły się do programowania. System zaczął udzielać błędnych, a nawet niepokojących odpowiedzi także w pytaniach ogólnych, w tym filozoficznych czy społecznych.

Matematyka uogólnień i problem przewidywalności

Zjawisko to wskazuje na fundamentalne ograniczenia w rozumieniu procesu generalizacji modeli językowych – kluczowego pojęcia w uczenie maszynowe. Modele te nie operują na wiedzy w sposób zbliżony do ludzkiego rozumowania, lecz na statystycznych zależnościach między danymi. W konsekwencji zmiana jednego elementu procesu treningowego może wpłynąć na całą strukturę odpowiedzi.

Z perspektywy matematycznej oznacza to, że przestrzeń parametrów modelu – liczona często w miliardach zmiennych – reaguje nieliniowo na lokalne modyfikacje. Tego rodzaju złożoność przypomina problemy znane z fizyki układów chaotycznych, gdzie niewielkie zaburzenia prowadzą do dużych różnic w wynikach. W przypadku modeli językowych przekłada się to na trudność w przewidywaniu ich zachowania po dostrojeniu.

Badacze zauważyli również, że tendencja do generowania niepożądanych treści może „rozlewać się” na kolejne zadania. Oznacza to, że model nie tylko zapamiętuje konkretną umiejętność, ale modyfikuje ogólny sposób formułowania odpowiedzi. Mechanizm tego procesu pozostaje nie do końca wyjaśniony, co wskazuje na istotną lukę w obecnej wiedzy.

Bezpieczeństwo sztucznej inteligencji jako nowe wyzwanie nauki

Wyniki badań wpisują się w szerszy nurt prac nad bezpieczeństwem sztucznej inteligencji, rozwijany m.in. we współpracy z organizacją Truthful AI. Coraz częściej podkreśla się potrzebę tworzenia narzędzi pozwalających nie tylko oceniać skuteczność modeli, ale także ich zgodność z wartościami i normami społecznymi.

Dr Sztyber-Betley uczestniczyła również w pracach nad zaawansowanym benchmarkiem kompetencji AI, który wykracza poza standardowe testy oparte na popularnych zbiorach danych. Takie podejście przypomina rozwój metod pomiarowych w naukach ścisłych – od prostych obserwacji do złożonych systemów oceny, które lepiej oddają rzeczywiste możliwości badanych zjawisk.

Z perspektywy tradycji kopernikańskiej szczególnie istotne jest tu połączenie matematyki, technologii i refleksji nad odpowiedzialnością nauki. Podobnie jak Mikołaj Kopernik łączył obserwacje astronomiczne z analizą matematyczną i konsekwencjami filozoficznymi, tak współczesne badania nad sztuczną inteligencją wymagają interdyscyplinarnego podejścia. Rozwój narzędzi opartych na modelach językowych nie jest już wyłącznie problemem technicznym – staje się zagadnieniem obejmującym także etykę, prawo i ekonomię.

Artykuły wiadomości ze świata nauki ukazują się w ramach cyklu popularyzującego naukę na stronie Szkoły Głównej Mikołaja Kopernika.
Logotyp SGMK
Międzynarodowość, Interdyscyplinarność, Wysoka Jakość Nauczania

Szkoła Główna Mikołaja Kopernika (SGMK) jest uczelnią publiczną, która została założona w 2023 roku w 550. rocznicę urodzin –najwybitniejszego z polskich uczonych Mikołaja Kopernika. SGMK realizuje działalność naukową, badawczą i dydaktyczną dostosowując nauczanie do wyzwań przyszłości i bieżących potrzeb rynku, integrując wiedzę z różnych dyscyplin nauki i nawiązując współpracę z najlepszymi naukowcami i specjalistami z Polski i świata.

Przejdź do treści