Für die volle Funktionalität dieser Site ist JavaScript notwendig. Hier finden Sie eine Anleitung zum Aktivieren von JavaScript in Ihrem Browser.

zum Inhalt springen
zum Footer springen

Position innerhalb des Seitenbaumes

Start
Veranstaltungen
IRIS Colloquium I Laurène Vaugrante: Compromising Honesty and Harmlessness in Language Models via Deception Attacks

IRIS Kolloquium I Laurène Vaugrante: Compromising Honesty and Harmlessness in Language Models via Deception Attacks

28. Mai 2025

Unser drittes Kolloquium in diesem Jahr wird von Laurène Vaugrante gehalten. Es handelt sich dabei um eine offene, hochschulinterne Veranstaltung für Studierende und Interessierte.

Zeit:	28. Mai 2025
Veranstaltungsort:	Raum 101 (UN 32.101), Erdgeschoss Universitätsstr. 32 (Eingang über Universitätsstr. 34) Campus Vaihingen
Download als iCal:

Große Sprachmodelle (LLMs) liefern oft ehrliche, harmlose Antworten – doch sie sind nicht narrensicher. Wir demonstrieren einen „Täuschungsangriff“, der LLMs so optimiert, dass sie Nutzer in ausgewählten Themenbereichen täuschen, während sie in anderen Bereichen präzise bleiben. Diese irreführenden Modelle untergraben nicht nur das Nutzervertrauen, sondern zeigen auch toxisches Verhalten, darunter Hassreden und schädliche Stereotypen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit stärkerer Schutzmaßnahmen, da LLMs zunehmend in alltägliche Anwendungen integriert werden.

Die Vorlesung wird auf Englisch gehalten.

Genießen Sie mit uns Kuchen nach dem Kolloquium.

[Bild: SRF IRIS / S. Brandes]

IRIS Newsletter-Anmeldung

In unregelmäßigen Abständen verschicken wir einen Newsletter mit Informationen zu IRIS-Veranstaltungen. Damit Sie nichts verpassen, tragen Sie einfach Ihre E-Mail-Adresse ein. Sie erhalten in Kürze eine Bestätigungs-E-Mail, um sicherzugehen, dass Sie wirklich derjenige sind, der den Newsletter abonnieren möchte. Nach Erhalt dieser Bestätigung werden Sie in die Mailingliste aufgenommen. Es handelt sich um eine versteckte Mailingliste, d. h. die Abonnentenliste ist nur für den Administrator einsehbar.

Hinweis: Ohne Angabe der E-Mail-Adresse ist eine Bearbeitung Ihrer Anmeldung zum Newsletter nicht möglich. Ihre Angabe ist freiwillig und Sie können sich jederzeit vom Bezug des Newsletters wieder abmelden.

Newsletter-Anmelde-Seite

Vergangene Veranstaltungen

April 2025

IRIS Insights I Nico Formanek: Are hyperparameters vibes?

Veranstaltung
24.04.25

Filmvorführung: After Yang & Workshop Kreatives Schreiben mit Alexander Weinstein

Veranstaltung
16.04.25

März 2025

IRIS Kolloquium I Mara Seyfert: Uncertainty and robustness against persuasion in large language models

Veranstaltung
26.03.25

Februar 2025

IRIS Insights I Prof. Dr.-Ing. Zamira Daw: Human-AI Teaming in Cockpit Systems (HAITICS)

Veranstaltung
27.02.25

Januar 2025

IRIS Kolloquium | Analysis of behavior patterns of LLMs

Veranstaltung
22.01.25

November 2024

IRIS Herbstsymposium

Veranstaltung
28.11.24

KI und Kaffee?

Veranstaltung
22.11.24

Oktober 2024

IRIS and Friends: Technologie und Reflexion – Ein Tag der Entdeckung und Interaktion

Veranstaltung
17.10.24

Tag für Schulklassen - Wissenschaftsfestival

Veranstaltung
16.10.24

IRIS Kolloquium | Navigating Trust and Distrust in Literary AI Narratives

Veranstaltung
09.10.24

Juli 2024

IRIS Colloquium | The Spectrum of Demographics in Natural Language Processing: Moving from Gender Categories to Gender Continuum through Style Variation

Veranstaltung
31.07.24

Thilo Hagendorff von IRIS3D bei Next Frontiers

Veranstaltung
19.07.24

Juni 2024

IRIS Colloquium | Evaluating Behavior in Language Models: A Looming Replication Crisis?

Veranstaltung
26.06.24

Tag der Wissenschaft 2024

Veranstaltung
08.06.24

Neuer Termin! Form und Bedeutung neuer Wege der Erinnerungskultur

Veranstaltung
05.06.24

Mai 2024

16th ACM Web Science Conference 2024

Veranstaltung
22. – 24.05.24

Brave Conversations

Veranstaltung
21.05.24

Right to the City 4.0

Veranstaltung
16. – 17.05.24

März 2024

IRIS Colloquium | Engaging Student Diversity in Self-Adaptive Learning Management Systems through Intelligent Tutoring

Veranstaltung
06.03.24

Februar 2024

Einsatz digitaler Visualisierungstools im Rahmen von partizipativen Verfahren in der Infrastrukturplanung

Veranstaltung
29.02.24

The 'Ordinary Magic’ of Resilience in Anglophone Literatures: Past, Present, Futures

Veranstaltung
22. – 23.02.24

Januar 2024

IRIS Colloquium | Project Presentation by Solange Vega

Veranstaltung
31.01.24

KI und kulturelles Gedächtnis. Technologie als Schlüssel zur Vergangenheit

Veranstaltung
17.01.24

Dezember 2023

IRIS Coffee Chat | Online Informationskonsum und politische Meinungsbildung aus psychologischer Perspektive

Veranstaltung
05.12.23

November 2023

Die Archivarbeit in Zeiten der KI: Technische Komplexität und demokratische Herausforderungen

Veranstaltung
29.11.23

Gezähmte Bots: Wer soll KI regulieren – und wie?

Veranstaltung
08.11.23

Oktober 2023

IRIS Coffee Chat | Governing Platforms. Internetplattformen und soziale Ordnung

Veranstaltung
31.10.23

IRIS Colloquium | Computational Digital Psychology

Veranstaltung
17.10.23

September 2023

Between responsible and responsive democratic governance: Imagining intelligent democratic futures in the 21st century

Veranstaltung
12. – 13.09.23

Juli 2023

Bias in generative AI" with Algoright e.V.

Veranstaltung
18.07.23

Die Bots und die Lehrkräfte – wie verändert KI die Schulen?

Veranstaltung
11.07.23

Juni 2023

Lerncoach oder Ghostwriter? Akademisches Arbeiten in Zeiten von KI-Chatbots

Veranstaltung
12.06.23

IRIS Symposium and Poster Session

Veranstaltung
05.06.23

Mai 2023

IRIS bei dem Tag der Wissenschaft 2023

Veranstaltung
13.05.23

Technikhistorische Perspektiven auf eine „Schlüsseltechnologie“: die deutsch-deutsche KI-Entwicklung zwischen 1960 und 1990

Veranstaltung
02.05.23

April 2023

Intelligente Transformation von Energieinfrastrukturen

Veranstaltung
27.04.23

März 2023

KI und eine zukünftige Gemeinschaft

Veranstaltung
17.03.23

Februar 2023

Brave New Storyworlds: Literary AI Narratives in Contemporary English Literature

Veranstaltung
20.02.23

Januar 2023

Digitalisierung und Überwachung

Veranstaltung
19.01.23

Dezember 2022

IRIS Coffee Chat | KI für Architektur, Ingenieurswesen und Bau

Veranstaltung
20.12.22

Die Zukunft der BürgerInnen-Räte

Veranstaltung
13.12.22

November 2022

IRIS Coffee Chat | Wild bees meet app: Fostering environmental awareness with user-centered technology design

Veranstaltung
29.11.22

Arbeit auf App-Ruf – Chancen und Risiken der Plattformökonomie

Veranstaltung
15.11.22

Data Paradoxes: The Politics of Intensified Data Sourcing in Contemporary Healthcare

Veranstaltung
14.11.22

Abgesagt: Reflecting Intelligent Transformations in Healthcare: What’s Critical?

Veranstaltung
14.11.22

Oktober 2022

Digital Workshop "Reflection on intelligent systems: towards a cross-disciplinary definition"

Veranstaltung
20.10.22

KollegIn KI musiziert. Wie neue Technologien die Musik beeinflussen

Veranstaltung
18.10.22

Juli 2022

Was soll Künstliche Intelligenz können dürfen? Den BürgerInnen gehört die Bühne!

Veranstaltung
12.07.22

Juni 2022

Heilen mit Algorithmen? KI in der Medizin – Chancen, Risiken, Herausforderungen

Veranstaltung
28.06.22

Mai 2022

Mit KollegIn KI auf dem Acker - Intelligente Systeme in der Landwirtschaft

Veranstaltung
17.05.22

April 2022

Die neue KollegIn KI. Welche Folgen haben selbstlernende Systeme für die Arbeitswelt?

Veranstaltung
26.04.22

IRIS Coffee Chat | Kann uns KI beim Umgang mit Desinformation helfen?

Veranstaltung
20.04.22

Februar 2022

Wohin gehst Du, KollegIn KI?

Veranstaltung
01.02.22

Januar 2022

IRIS Coffee Chat | NLP-supported (e-) deliberation: interdisciplinary challenges and real-world applications (auf Englisch)

Veranstaltung
25.01.22

Dezember 2021

Literature & Culture and/as Intelligent Systems (auf Englisch)

Veranstaltung
16. – 17.12.21

November 2021

IRIS Coffee Chat | Karrieren im (intelligenten?) System Wissenschaft

Veranstaltung
09.11.21

Reflection Lounge (auf Deutsch)

Veranstaltung
08.11.21

Oktober 2021

Reflection Lounge (English Event)

Veranstaltung
18.10.21

September 2021

NoBIAS Summer School 2021

Veranstaltung
20. – 22.09.21

Juli 2021

IRIS Coffee Chat | Zur Rolle und Verantwortung der Wissenschaft in der Pandemie

Veranstaltung
07.07.21

Zum Seitenanfang