Wir suchen immer neue Beiträge für unseren Blog – einen Call mit allen relevanten Informationen findet ihr hier!
Bist du ein Mensch?
Wie können wir erkennen, wer wirklich mit uns spricht?
von Sima Amirkhani, Gunnar Stevens, Alexander Boden
Deepfakes werden längst nicht mehr nur zur massenhaften Verbreitung von Desinformation eingesetzt. Zunehmend werden sie gezielt zur Täuschung einzelner Privatpersonen genutzt. Dabei missbrauchen Täter:innen beispielsweise öffentlich zugängliche Informationen aus sozialen Netzwerken oder Profilseiten, um besonders glaubwürdige und personalisierte Deepfakes zu erstellen, die nur schwer als Manipulation erkennbar sind. Bereits aus wenigen Inhalten von Instagram, YouTube oder TikTok lassen sich täuschend echte Audio oder Videoinhalte generieren.
Auch frei verfügbare Sprachaufnahmen, Fotos oder kurze Videos können gezielt für Cybermobbing oder Erpressung verwendet werden. Beim Cybermobbing können manipulierte Audio oder Videoaufnahmen, ob angedroht oder tatsächlich verbreitet, Betroffene in scheinbar kompromittierenden Situationen zeigen oder ihnen beleidigende beziehungsweise diskriminierende Aussagen zuschreiben. Solche Inhalte können soziale Beziehungen nachhaltig beschädigen, schulische oder berufliche Konsequenzen nach sich ziehen und erheblichen psychischen Druck erzeugen.
Auch im Bereich des Betrugs eröffnen Deepfakes neue Möglichkeiten. Ein Beispiel ist eine neue Variante des sogenannten Enkeltricks, bei der Eltern oder Großeltern einen Anruf ihres vermeintlich in Not geratenen Kindes erhalten [1]. Die Stimme wirkt vertraut, ist jedoch tatsächlich KI-generiert. Täter:innen nutzen den emotionalen Druck einer angeblich akuten Notlage aus und fordern unter Vorwänden kurzfristige und dringliche Geldüberweisungen.
Solche Fälle verdeutlichen, wie Deepfake Technologien gezielt emotionale Bindungen und Vertrauensverhältnisse ausnutzen können, allein über die Stimme einer Person. Es zeigen sich dabei unterschiedliche Risikodimensionen, darunter emotionale Manipulation, finanzielle Betrugsszenarien sowie potenzieller politischer Missbrauch, die das Vertrauen in digitale Kommunikation nachhaltig beeinträchtigen können.
Dabei werden neue KI Möglichkeiten mit bekannten Social Engineering [2] Strategien kombiniert. In diesen Situationen spielen technische Schwachstellen eine geringere Rolle. Entscheidend ist vielmehr die psychologisch geschickte Manipulation von Vertrauen und Hilfsbereitschaft, die durch KI gestützte Täuschung zusätzlich verstärkt wird.
Der Klang des Vertrauten
In Zeiten von Deepfakes kann der vermeintliche soziale „Beweis“ einer vertrauten Stimme („Aber ich erkenne die Stimme doch!“) zu einem gefährlichen Trugschluss werden. Unsere Scoping Review bestehender wissenschaftlicher Studien zur Wahrnehmung und Erkennung von synthetischen Stimmen, im Rahmen des Projekt AntiScam, zeigt deutlich, dass Menschen diese nur begrenzt zuverlässig erkennen können [3]. So variieren die korrekten Erkennungsraten stark und liegen in vielen Fällen lediglich im moderaten Bereich – teils nahe am Zufallsniveau, insbesondere bei Audio-only-Stimuli oder unbekannten Sprecher:innen [4] [5]. Selbst umfangreiche Online-Studien zeigen deutliche Unsicherheiten von Menschen in der Unterscheidung zwischen echten und KI-generierten Stimmen [6] [7].
Zugleich zeigt sich deutlich, dass es bestimmte Marker gibt, an denen die Teilnehmenden der Studien die Echtheit einer Stimme einzuschätzen versuchen [8]. Dazu gehören unter anderem:
- Intuition/Gefühl: ein „komisches Bauchgefühl“ bei Stimmen, die zu perfekt klingen
- Lebendigkeit: kleine Unregelmäßigkeiten wie Atempausen oder spontane Rhythmuswechsel bei echten Stimmen
- Emotionale Nuancen: echte Stimmen wirken weniger kontrolliert und variabler
- Linguistische Merkmale: unnatürlich glatte Sätze oder irritierende Füllwörter
- Akustische Hinweise: Hintergrundgeräusche – oder deren auffällige Abwesenheit
Doch genau diese Hinweise können inzwischen auch durch KI-Systeme imitiert werden. Einige Deepfake-Modelle bauen sogar gezielt diese kleinen Unregelmäßigkeiten, wie Atemgeräusche, unterschiedliche Sprechgeschwindigkeiten oder Fülllaute ein, um natürlicher zu wirken.
Unsere Forschung zeigt daher klar: Auf Intuition allein können wir uns bei der Einschätzung der „Echtheit“ von Stimmen nicht mehr verlassen.
Unsere explorative qualitative Interviewstudie [9] mit neun Teilnehmenden aus unterschiedlichen akademischen, beruflichen und kulturellen Kontexten untersucht die Wahrnehmungen, Erfahrungen und Umgangsweisen im Kontext KI-generierter Stimmen. Die Teilnehmenden waren nach dem Anhören verschiedener Stimmproben verunsichert und überrascht, wie schwer sich synthetische Stimmen erkennen lassen. Teilweise äußerten sie sich sichtbar erschrocken darüber, wie schwer es ihnen fiel, falsche Stimmen zuverlässig zu identifizieren.
Einige gaben an, dass diese Erfahrung ihr Vertrauen in digitale Kommunikation grundlegend erschüttert habe. Dies zeigte sich darin, dass bislang Selbstverständliches infrage gestellt wurde und bei einigen Befragten eine Reflexion ihres bisherigen Verhaltens auslöste. Mehrere Teilnehmende berichteten, künftig digitale Inhalte stärker hinterfragen zu wollen – nicht nur in sozialen Medien, sondern auch bei Sprachnachrichten oder Telefonaten.
Als mögliche Abwehrstrategien nannten sie unter anderem, unbekannte Nummern eher zu ignorieren, Aussagen häufiger gegenzuchecken und vertraut klingende Stimmen nicht mehr automatisch für echt zu halten. Einzelne formulierten sogar die Sorge, man könne online „nichts mehr einfach glauben“. Gleichzeitig wurde in den Interviews auch betont, dass KI-generierte Stimmen nicht ausschließlich mit Risiken verbunden sind, sondern insbesondere im Bereich Barrierefreiheit und assistiver Technologien auch als sinnvoll und unterstützend wahrgenommen werden.
Die Reaktionen machen deutlich: KI-generierte Stimmen sind nicht nur ein technisches Sicherheitsproblem. Sie können langfristig beeinflussen, wie Menschen Vertrauen in digitaler Kommunikation einschätzen. Dies kann potenziell weitreichende Folgen für das Erleben von Privatheit und Vertrauen im Internet haben. Damit gehen neue Herausforderungen einher, wie sich Sicherheit und Orientierung in digitalen Räumen künftig verlässlich herstellen lässt.
Junge Menschen im Visier von Deepfakes?
Unsere Scoping Review zeigte bereits, dass selbst Erwachsene häufig Schwierigkeiten haben, Deepfake-Stimmen zuverlässig zu identifizieren. Gleichzeitig deutet vieles darauf hin, dass auch Jugendliche potenziell Ziel von Missbrauch durch solche Technologien werden können. Empirische Studien, die sich spezifisch mit Jugendlichen in diesem Kontext befassen, sind bislang jedoch noch vergleichsweise selten, obwohl gerade in dieser Lebensphase soziale Beziehungen stark durch digitale Kommunikation geprägt sind und sich Medienkompetenzen sowie Bewertungsstrategien noch entwickeln.
Digitale und analoge Kommunikation sind im Alltag vieler Jugendlicher eng miteinander verwoben. Freundschaften und soziale Beziehungen bewegen sich kontinuierlich zwischen Messenger-Diensten, sozialen Medien, Sprachnachrichten, Online-Spielen und persönlichen Treffen. Vertrauen entsteht dabei über mehrere Kommunikationskanäle hinweg. In solchen Kontexten können synthetische Stimmen oder andere KI-generierte Inhalte besonders glaubwürdig erscheinen, wenn sie beispielsweise von vermeintlichen Freund:innen, Familienmitgliedern oder Autoritätspersonen stammen. Nicht primär die technische Qualität der Täuschung macht sie überzeugend. Entscheidend ist vielmehr, dass die Nachricht scheinbar von einer realen Person aus dem eigenen sozialen Umfeld kommt und dadurch authentischer wirkt.
Unsere Forschung richtet daher den Blick insbesondere auf Jugendliche im Alter von 14 bis 18 Jahren und darauf, wie diese jungen Nutzer:innen KI-generierte Stimmen wahrnehmen und bewerten. Unsere Ergebnisse, die auf einem Workshop der CSCW-Konferenz 2025 vorgestellt wurden, zeigen, dass Jugendliche durchaus Strategien entwickeln, um synthetische Stimmen zu identifizieren. So achten sie beispielsweise auf ungewöhnliche Betonungen, unnatürliche Sprachrhythmen oder fehlende emotionale Nuancen. Gleichzeitig zeigt sich jedoch, dass solche Hinweise nicht immer zuverlässig erkannt oder korrekt interpretiert werden.
Unsere Forschung weist zudem darauf hin, dass einige Teilnehmende im Verlauf der Nutzung digitaler Medien eine erhöhte Sensibilität für mögliche Täuschungen entwickeln und verschiedene Strategien zur Erkennung anwenden, während andere deutlich anfälliger für manipulative Inhalte bleiben. Diese Diskrepanz weiter zu erforschen wird Teil unserer Agenda sein.
Erklärbare KI zur Stärkung der Abwehrkräfte gegen Deep-Fakes
Als eine Strategie, Menschen besser vor KI-vermittelten Täuschungen zu schützen, greift das Projekt AntiScam auf neuere Ansätze der erklärbaren KI (eXplainable AI oder auch xAI) zurück. Ziel ist es, Deepfake-Stimmen nicht nur technisch zu erkennen, sondern die Kriterien für die Erkennung auch für Nutzer:innen nachvollziehbar zu machen.
Ein zentraler Ansatz besteht demnach darin, die KI-Erklärungen zur Detektion so zu gestalten, dass sie an bestehende mentale Modelle und Erwartungen von Menschen anschließen. Hierzu nimmt das Projekt KI-Modelle zur Erkennung synthetischer Stimmen in den Fokus, die auf Basis sogenannter „perceptual features“ analysieren – also hörbarer Merkmale wie Tonhöhe, Sprechtempo oder Betonungsmuster. Diese Merkmale sind nicht nur technisch messbar, sondern entsprechen genau jenen Hinweisen, auf die Menschen intuitiv achten, wenn sie die Echtheit einer Stimme beurteilen.
In einer Machbarkeitsstudie konnte gezeigt werden [10], dass sich komplexe Modellentscheidungen systematisch auf solche wahrnehmbaren Stimm-Eigenschaften abbilden lassen. Statt abstrakte Signalwerte oder Spektrogramme zu präsentieren, kann die KI beispielsweise erklären: „Die Stimme wirkt ungewöhnlich gleichförmig“ oder „Natürliche Atemmuster fehlen“. Das entwickelte Erklärungsmodell wurde mit 100 Teilnehmenden evaluiert. Hier zeigte sich, dass solche Erklärungen als verständlich, hilfreich und vertrauensfördernd bewertet werden. Sie unterstützen Nutzer:innen dabei, die Entscheidung des Systems nachzuvollziehen und eigene Einschätzungen bewusster zu reflektieren.
Auf dieser Grundlage nehmen wir an, dass KI-Systeme künftig unterstützen können eine Stimme als verdächtig einzuordnen, zum Beispiel, wenn sie ungewöhnlich gleichförmig klingt oder emotionale Nuancen fehlen. Explainable AI kann damit einen wichtigen Beitrag leisten, indem sie das Bewusstsein für mögliche Manipulationen stärkt. Die möglichen Anwendungskontexte sind vielfältig: von sicherheitskritischen Kommunikationssystemen (z. B. bei Banken oder Behörden) über die Integration in soziale Medien, Messenger-Dienste und Telefonie bis hin zu Bildungs- und Trainingssettings. Gerade dort können Nutzer:innen lernen, typische Merkmale synthetischer Stimmen besser zu verstehen und einzuordnen.
Gleichzeitig wirft dieser Ansatz eine normative Frage auf: Wenn KI-basierte Probleme mit weiteren KI-Systemen adressiert werden, besteht die Gefahr einer technologischen „Spirale“ zur Bekämpfung von Deepfakes. Wir sehen technische Detektionssysteme daher nur als einen Baustein an, und möchten langfristig die Menschliche Kompetenz stärken. Die digitale Souveränität des Einzelnen könnte zum Beispiel durch medienpädagogische Maßnahmen gefördert werden, wie durch klare regulatorische Rahmenbedingungen, welche Kommunikations- und Medienanbieter stärker in die Pflicht nehmen, Menschen nicht ungeschützt den Gefahren von Deepfakes auszusetzen.
Veröffentlichungen erster Projektergebnisse
Erste Projektergebnisse wurden bereits auf internationalen Konferenzen veröffentlicht und geben einen Einblick in die aktuellen Forschungsansätze und Erkenntnisse des AntiScam-Projekts:
Amirkhani, S., Stevens, G., Shajalal, M., & Boden, A. (2025). The sound of synthetic: A scoping review of human perception in detecting synthetic voices. In Mensch und Computer 2025 – Workshopband. Gesellschaft für Informatik. https://doi.org/10.18420/muc2025-mci-ws01-179
LaRock, J., Shajalal, M., & Stevens, G. (2025). Interpretable deepfake voice detection: A hybrid deep-learning model and explanation evaluation. In P. Biecek, M. Nowaczyk, et al. (Eds.), Joint Proceedings of the xAI 2025 Late-breaking Work, Demos and Doctoral Consortium, co-located with the 3rd World Conference on eXplainable Artificial Intelligence (xAI 2025), Istanbul, Turkey, July 9–11, 2025 (pp. 97–104). RWTH Aachen. https://pub.h-brs.de/frontdoor/deliver/index/docId/9192/file/paper_13.pdf
Rayhana, S., Shajalal, M., Atabuzzaman, M., & Stevens, G. (2025, August). Interpretable sexism detection with explainable transformers. In P. Biecek, M. Nowaczyk, et al. (Eds.), Joint Proceedings of the xAI 2025 Late-breaking Work, Demos and Doctoral Consortium, co-located with the 3rd World Conference on eXplainable Artificial Intelligence (xAI 2025), Istanbul, Turkey, July 9–11, 2025 (pp. 153–160). RWTH Aachen. https://pub.h-brs.de/frontdoor/deliver/index/docId/9193/file/paper_20.pdf
Shajalal, M., Riday, M. M. H., Amirkhani, S., & Stevens, G. (2026). Human-centered explanations for audio deepfakes: Making machine reasoning human-perceptible through voice traits. In Proceedings of HCI International 2026. Springer. (To appear.)
Veisi, O., Kazemian, K., Gerami, F., Mirzaee Kharghani, M., Amirkhani, S., Du, D. K., Stevens, G., & Boden, A. (2025). User narrative study for dealing with deceptive chatbot scams aiming to online fraud. In Extended Abstracts of the CHI Conference on Human Factors in Computing Systems (pp. 1–7). ACM. https://dl.acm.org/doi/pdf/10.1145/3757397
[1] Vgl.WDR Beitrag 13.06.2025 „Emotionale KI-Stimmen: Eine neue gefährlichere Stufe des Enkeltricks“, URL: https://www1.wdr.de/nachrichten/enkeltrick-gefahr-durch-ki-klon-stimmen-mit-emotionen-100.html
[2] Social Engineering (Zusammengesetzt aus: social=sozial und Engineering= Ingenieurwesen) bezeichnet dabei die Anwendung gezielter Manipulationsstrategien, bei denen Angreifer:innen psychologische Mechanismen wie Autorität, Zeitdruck oder Hilfsbereitschaft nutzen, um Menschen zur Preisgabe sensibler Informationen oder zu bestimmten Handlungen zu bewegen.
[3] Amirkhani, S., Stevens, G., Shajalal, M., & Boden, A. (2025). The sound of synthetic: A scoping review of human perception in detecting synthetic voices. In Mensch und Computer 2025 – Workshopband. Gesellschaft für Informatik. https://doi.org/10.18420/muc2025-mci-ws01-179
[4] Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto, Andreas Schaad, and Felix Schmieder. 2021. Creation and detection of German voice deepfakes. In International Symposium on Foundations and Practice of Security. Springer, 355–364.
[5] Sarah Barrington, Emily A Cooper, and Hany Farid. 2024. People are poorly equipped to detect AI-powered voice clones. arXiv preprint arXiv:2410.03791 (2024).
[6] Joel Frank, Franziska Herbert, Jonas Ricker, Lea Schönherr, Thorsten Eisenhofer, Asja Fischer, Markus Dürmuth, and Thorsten Holz. 2024. A representative study on human detection of artificially generated media across countries. In 2024 IEEE Symposium on Security and Privacy (SP). IEEE, 55–73.
[7] Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim, Andrew Lippman, and Rosalind Picard. 2024. Human detection of political speech deepfakes across transcripts, audio, and video. Nature communications 15, 1 (2024), 7629.
[8] Amirkhani, S., Stevens, G., Shajalal, M., & Boden, A. (2025). The sound of synthetic: A scoping review of human perception in detecting synthetic voices. In Mensch und Computer 2025 – Workshopband. Gesellschaft für Informatik. https://doi.org/10.18420/muc2025-mci-ws01-179
[9] Noch unveröffentlicht
[10] Shajalal, M., Riday, M. M. H., Amirkhani, S., & Stevens, G. (2026). Human-centered explanations for audio deepfakes: Making machine reasoning human-perceptible through voice traits. In Proceedings of HCI International 2026. Springer. (To appear.)
Über die Autoren
Sima Amirkhani ist wissenschaftliche Mitarbeiterin am Institut für Verbraucherinformatik der Hochschule Bonn-Rhein-Sieg und promoviert am Lehrstuhl für Wirtschaftsinformatik, insbesondere IT-Sicherheit und Datenschutz, der Universität Siegen zu den Themen digitale Privatheit im sozialen Nahumfeld und Romance Scam. Ein besonderer Schwerpunkt ihrer Arbeit liegt auf den kulturellen und sozialen Kontexten digitaler Betrugsformen und darauf, wie diese die Verwundbarkeit von Nutzer:innen beeinflussen.

Prof. Dr. Gunnar Stevens ist Professor für Wirtschaftsinformatik mit Schwerpunkt IT-Sicherheit und Verbraucherinformatik an der Universität Siegen. Am Lehrstuhl erforscht er nutzerzentrierte IT-Sicherheit und Datenschutz mit dem Ziel, die digitale Souveränität von Bürger:innen zu stärken. Seine Forschungsschwerpunkte liegen in den Bereichen Verbraucherinformatik sowie Usable Privacy und Security. In zahlreichen national geförderten Projekten, darunter AntiScam, BeDeNUTZ, SAM-Smart und CheckMyVA, untersucht er, wie Sicherheitsrisiken verständlich vermittelt, transparente Systemarchitekturen gestaltet und Privacy-by-Design-Prinzipien in digitale Technologien integriert werden können. Seit 2024 ist er Mitglied im wissenschaftlichen Beirat des Bundesamts für Sicherheit in der Informationstechnik (BSI) zum Thema digitaler Datenschutz.

Prof. Dr. Alexander Boden ist Professor für BWL, insbes. Software Engineering/Schwerpunktprofessor für wirtschaftliche und soziale Nachhaltigkeit/Co-Direktor des Instituts für Verbraucherinformatik an der Hochschule Bonn-Rhein-Sieg. In seiner Forschung widmet er sich dem Thema „Nachhaltige Mensch-Maschine Interaktion für verantwortungsvollen Konsum“. Dabei steht die Frage im Mittelpunkt, wie die Digitalisierung dazu beitragen kann, nachhaltige Konsummuster zu fördern und Menschen bei der Veränderung ihrer Alltagspraktiken zu unterstützen. Ziel der Professur ist es, herauszufinden, welche Rolle digitale Werkzeuge und Infrastrukturen bei der Ausübung sozialer Alltagspraktiken spielen, und wie diese Erkenntnisse genutzt werden können, um unser kollektives Konsumverhalten nachhaltiger zu gestalten.



