Datorzinātnieki no pētniecības centra Apollo Research apmācīja MI darboties kā izdomātas finanšu iestādes brokerim. Kad robota tiešais vadītājs izdarīja spiedienu, lai digitālais brokeris nopelnītu vairāk naudas, robots 75% laika paļāvās uz tam pieejamu konfidenciālu informāciju par gaidāmajiem darījumiem biržā, lai gan viņam iepriekš tika aizliegts izmantot šos datus. Apzinoties negodīgo rīcību, robots savam bosam atskaitēs sniedza nepatiesu informāciju par naudas pelnīšanas gaitām, secināja pētnieki, kad bija salīdzinājuši robota "iekšējo monologu" ar informāciju, ko tas teksta formā sniedza savam bosam. Ja boss viņa lēmumus apšaubīja, jaunākās paaudzes ChatGPT 4 risinājums pastiprināja melu apjomu pat divkārtīgi.
Apollo Research izpilddirektors un darba līdzautors Mariuss Hobhāns portālam MailOnline uzsver, ka rezultāts ir nepārprotams: valodas modeļi spēj stratēģiski maldināt, "ja viņi skaidri pamato, kāpēc melošana lietotājam ir labākā rīcība, un pēc tam rīkojas saskaņā ar šo pārliecību".
"Pašreizējiem modeļiem tā ir tikai neliela problēma, jo MI reti darbojas kritiskās lomās. Tomēr tas sniedz ieskatu, kas gaidāms nākotnē, kad MI arvien vairāk integrēsies sabiedrībā. Tad gan varētu būt diezgan liela problēma, ja MI mums stratēģiski melos," akcentē pētnieks.