Neue Veröffentlichung: "Deception abilities emerged in large language models"

5. Juni 2024 / IRIS3D

Dr. Thilo Hagendorff

Die Forschung von Thilo Hagendorff zum LLM-Verhalten hat zu einer weiteren Top-Tier-Journal-Veröffentlichung geführt. Insbesondere die Verfahren der National Academy of Sciences (PNAs) akzeptierten sein Papier über Täuschungsfähigkeiten in LLMs. In der Arbeit präsentiert er eine Reihe von Experimenten, die zeigen, dass hochmoderne LLMs ein konzeptionelles Verständnis des täuschenden Verhaltens haben. Diese Ergebnisse haben erhebliche Auswirkungen auf die KI -Ausrichtung, da es zunehmend besorgt ist, dass zukünftige LLMs die Fähigkeit entwickeln können, menschliche Betreiber zu täuschen und diese Fähigkeit zu nutzen, um die Überwachungsbemühungen zu entgehen.

Deception abilities emerged in large language models

Kontakt

Dr. Thilo Hagendorff

Zum Seitenanfang