Die Forschung von Thilo Hagendorff zum LLM-Verhalten hat zu einer weiteren Top-Tier-Journal-Veröffentlichung geführt. Insbesondere die Verfahren der National Academy of Sciences (PNAs) akzeptierten sein Papier über Täuschungsfähigkeiten in LLMs. In der Arbeit präsentiert er eine Reihe von Experimenten, die zeigen, dass hochmoderne LLMs ein konzeptionelles Verständnis des täuschenden Verhaltens haben. Diese Ergebnisse haben erhebliche Auswirkungen auf die KI -Ausrichtung, da es zunehmend besorgt ist, dass zukünftige LLMs die Fähigkeit entwickeln können, menschliche Betreiber zu täuschen und diese Fähigkeit zu nutzen, um die Überwachungsbemühungen zu entgehen.
Kontakt |
---|