What Can Go Wrong in Authorship Profiling: Cross-Domain Analysis of Gender and Age Prediction

1. Juni 2024 / IRIS3D

Hongyu Chen, Dr. Michael Roth, Dr. Agnieszka Falenska

Authorship Profiling (AP) zielt darauf ab, die demografischen Merkmale (wie Geschlecht und Alter) von Autoren anhand ihres Schreibstils vorherzusagen. Immer bessere Modelle bedeuten, dass diese Aufgabe immer interessanter wird und immer mehr Anwendungsmöglichkeiten bietet. Mit zunehmender Nutzung geht jedoch auch das Risiko einher, dass Autoren häufiger falsch klassifiziert werden, und es bleibt unklar, inwieweit die besseren Modelle die Verzerrung erfassen können und wer von den Fehlern der Modelle betroffen ist. In diesem Artikel untersuchen wir drei etablierte Datensätze für AP sowie klassische und neuronale Klassifikatoren für diese Aufgabe. Unsere Analysen zeigen, dass es oft möglich ist, die demografischen Informationen der Autoren anhand von Textmerkmalen vorherzusagen. Einige von den Modellen gelernte Merkmale sind jedoch datensatzspezifisch. Darüber hinaus sind Modelle anfällig für Fehler aufgrund von Stereotypen, die mit thematischen Verzerrungen verbunden sind.

Kontakt

Hongyu Chen

Dr. Michael Roth

Dr. Agnieszka Faleńska

Zum Seitenanfang