Informatycy z USA i Polski dokonali przełomu, który może znacząco przyspieszyć rozwój sztucznej inteligencji — zwłaszcza tej uczącej się samodzielnie poprzez nagrody i kary. Zespół kierowany przez prof. Benjamina Eysenbacha z Princeton opracował metodę, która pozwala zwiększyć głębokość sieci neuronowych stosowanych w uczeniu ze wzmocnieniem (Reinforcement Learning, RL) z kilku do nawet 1024 warstw. To skok, który wiele osób w środowisku traktowało dotąd jako niemożliwy.
Wśród współautorów nagrodzonej pracy znaleźli się dwaj naukowcy z Polski: doktorant Michał Bortkiewicz oraz prof. Tomasz Trzciński z Politechniki Warszawskiej. Ich wyniki zostały wyróżnione podczas jednej z najbardziej prestiżowych konferencji na świecie poświęconych sztucznej inteligencji — NeurIPS 2025. Spośród ponad 20 tysięcy nadesłanych prac wyróżniono zaledwie pięć.
Uczenie ze wzmocnieniem to metoda, w której algorytm zdobywa doświadczenie podobnie jak człowiek — próbując różnych działań i obserwując ich skutki. W ten sposób modele RL nauczyły się m.in. wygrywać w Go czy projektować struktury białek. Jednak dotychczas miały one bardzo ograniczoną „głębokość mózgu” — sieci liczyły zwykle od 2 do 5 warstw. Próby ich pogłębiania kończyły się niepowodzeniem: modele traciły stabilność i przestawały się uczyć.
Nowe podejście, nazwane Contrastive Reinforcement Learning (CRL), całkowicie zmienia tę sytuację. Dzięki wykorzystaniu elementów samonadzorowanego uczenia (SSL), zespół znalazł sposób, by sieć w modelu RL mogła rosnąć nawet do tysiąca warstw, zachowując stabilność i zdolność do efektywnej nauki. Model wyposażony w tak rozbudowaną architekturę potrafił nie tylko lepiej przyswajać zadania, ale wręcz tworzyć kreatywne strategie. W jednym z eksperymentów komputerowy „ludzik” uczący się poruszania odkrył, że może przeskoczyć nad ścianami labiryntu, aby szybciej zdobyć nagrodę. Liczba sukcesów wzrosła ponad 50-krotnie w porównaniu z klasycznymi modelami RL.
Zespół udostępnił metodę CRL publicznie, zachęcając innych badaczy do jej rozwijania i testowania w nowych obszarach. Materiały dostępne są na oficjalnej stronie projektu (https://wang-kevin3290.github.io/scaling-crl).