IRIS Kolloquium I Laurène Vaugrante: Compromising Honesty and Harmlessness in Language Models via Deception Attacks

28. Mai 2025

Unser drittes Kolloquium in diesem Jahr wird von Laurène Vaugrante gehalten. Es handelt sich dabei um eine offene, hochschulinterne Veranstaltung für Studierende und Interessierte.

Zeit: 28. Mai 2025
Veranstaltungsort: Raum 101 (UN 32.101), Erdgeschoss
Universitätsstr. 32 (Eingang über Universitätsstr. 34)
Campus Vaihingen
Download als iCal:

Große Sprachmodelle (LLMs) liefern oft ehrliche, harmlose Antworten – doch sie sind nicht narrensicher. Wir demonstrieren einen „Täuschungsangriff“, der LLMs so optimiert, dass sie Nutzer in ausgewählten Themenbereichen täuschen, während sie in anderen Bereichen präzise bleiben. Diese irreführenden Modelle untergraben nicht nur das Nutzervertrauen, sondern zeigen auch toxisches Verhalten, darunter Hassreden und schädliche Stereotypen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit stärkerer Schutzmaßnahmen, da LLMs zunehmend in alltägliche Anwendungen integriert werden.

Die Vorlesung wird auf Englisch gehalten.

Genießen Sie mit uns Kuchen nach dem Kolloquium.

Das Wort Kolloquium vor dem Hintergrund einer wellenförmigen Struktur in Blautönen.
[Bild: SRF IRIS / S. Brandes]

In unregelmäßigen Abständen verschicken wir einen Newsletter mit Informationen zu IRIS-Veranstaltungen. Damit Sie nichts verpassen, tragen Sie einfach Ihre E-Mail-Adresse ein. Sie erhalten in Kürze eine Bestätigungs-E-Mail, um sicherzugehen, dass Sie wirklich derjenige sind, der den Newsletter abonnieren möchte. Nach Erhalt dieser Bestätigung werden Sie in die Mailingliste aufgenommen. Es handelt sich um eine versteckte Mailingliste, d. h. die Abonnentenliste ist nur für den Administrator einsehbar.

Hinweis: Ohne Angabe der E-Mail-Adresse ist eine Bearbeitung Ihrer Anmeldung zum Newsletter nicht möglich. Ihre Angabe ist freiwillig und Sie können sich jederzeit vom Bezug des Newsletters wieder abmelden.

Newsletter-Anmelde-Seite

Vergangene Veranstaltungen


März 2025

Februar 2025

Januar 2025

November 2024

Oktober 2024

Juli 2024

Juni 2024

Mai 2024

März 2024

Februar 2024

Januar 2024

Dezember 2023

November 2023

Oktober 2023

September 2023

Juli 2023

Juni 2023

Mai 2023

April 2023

März 2023

Februar 2023

Januar 2023

Dezember 2022

November 2022

Oktober 2022

Juli 2022

Juni 2022

Mai 2022

April 2022

Februar 2022

Januar 2022

Dezember 2021

November 2021

Oktober 2021

September 2021

Juli 2021

Zum Seitenanfang