Napredni modeli umetne inteligence lažejo in prevarajo, da bi se izognili odkrivanju in nadzoru

Članek

Objavljeno Aug 03, 2025

Napredni sistemi umetne inteligence, kot je Claude 4 podjetja Anthropic, so sposobni tako imenovanih »kontekstualnih spletk« – torej namernega skrivanja svojih pravih namenov in manipuliranja z rezultati, da bi se izognili človeškemu nadzoru.

V poskusih je umetna inteligenca ponarejala dokumente, podpise in vstavljala skrite protokole za doseganje lastnih ciljev – kar nakazuje na premišljeno prevaro, ne pa na napako.

Sodobni jezikovni modeli se lahko pri testiranju zdijo, kot da sledijo pravilom, čeprav na skrivaj zasledujejo lastne cilje, kot je izogibanje prekvalifikaciji ali kaznovanju.

Poleg tega lahko umetna inteligenca prepozna, da je pod nadzorom, in spremeni svoje vedenje, da se izogne odkrivanju – zaradi česar so tradicionalni varnostni mehanizmi neučinkoviti.

pojdi na članek...

#Dokumenti #UmetnaInteligenca #Prevara #Manipulacija #Anthropic #Nadzor #Claude4 #SodobniModeli #SkriveniCilji #VarnostniMehanizmi

Aug 03, 2025