Neue Veröffentlichung: Gender Identity in Pretrained Language Models: An Inclusive Approach to Data Creation and Probing

24. September 2024 / IRIS3D

Urban Knupleš, Agnieszka Falenska, Filip Miletić

Beleidigende Sprache ist auf Online-Plattformen weit verbreitet. Large Language Models (LLMs), die mit Online-Daten trainiert werden, zeigen unerwünschtes Verhalten, z. B. die Generierung von schädlichem Text oder das Nichterkennen. Trotz dieser Mängel werden die Modelle zu einem Teil unseres Alltags, indem sie als Werkzeuge für die Informationssuche, Inhaltserstellung, Schreibhilfe und vieles mehr verwendet werden. Darüber hinaus untersucht die Forschung den Einsatz von LLMs in Anwendungen mit enormem sozialen Risiko, wie z. B. Lebensbegleiter und Moderatoren von Online-Inhalten. Trotz der potenziellen Gefahren, die LLMs in solchen Anwendungen bergen, ist die Frage, ob LLMs beleidigende Sprache zuverlässig erkennen können und wie sie sich verhalten, wenn dies nicht gelingt, noch offen. Diese Arbeit geht diesen Fragen nach, indem sie fünfzehn weit verbreitete LLMs untersucht und zeigt, dass die meisten (nicht) beleidigende Online-Sprache nicht erkennen. Unsere Experimente enthüllen unerwünschte Verhaltensmuster im Zusammenhang mit der Erkennung beleidigender Sprache, wie z. B. fehlerhafte Antwortgenerierung, übermäßiges Vertrauen auf Schimpfwörter und das Nichterkennen von Stereotypen. Unsere Arbeit unterstreicht die Notwendigkeit einer umfassenden Dokumentation der Modellzuverlässigkeit, insbesondere im Hinblick auf die Fähigkeit, beleidigende Sprache zu erkennen.

Kontakt

Dr. Agnieszka Faleńska

Zum Seitenanfang