Thema des Monats

Die Zukunft der Anästhesie: Künstliche Intelligenz im Spannungsfeld von Patientensicherheit und Fairness

Überblick
In der modernen Medizin nimmt Künstliche Intelligenz (KI) eine immer bedeutendere Rolle ein, insbesondere in der Anästhesie und Intensivmedizin. Zwei aktuelle Artikel beleuchten die Herausforderungen und Chancen, die der Einsatz von KI mit sich bringt. Ein Artikel thematisiert als DFP-Literaturstudium den EU AI-Act, der als Grundbaustein für die Regulierung von KI im Gesundheitswesen dient. Er betont die Notwendigkeit, Patientensicherheit durch klare Governance-Regeln und Schulungen zu gewährleisten. Ein Originalartikel widmet sich der „data journey“ klinischer KI-Modelle und warnt vor systematischen Verzerrungen, die die Objektivität der Algorithmen gefährden können. Gemeinsam bieten diese Beiträge einen tiefen Einblick in die Notwendigkeit, KI verantwortungsbewusst und gerecht zu nutzen, um die Patientensicherheit zu erhöhen und faire Behandlung für alle Patient:innen zu garantieren.


DFP | Patientensicherheit und AI: EU AI-Act als Grundbaustein der Digitalmedizin

DFP-Literaturstudium in den ANÄSTHESIE NACHRICHTEN 4/25: Der EU AI Act reguliert AI im Gesundheitswesen risikobasiert. Erste Teile – Verbote, Pflichten zur AI-Kompetenz und Governance-Regeln – gelten schon seit 2025, die meisten Vorgaben für Hochrisiko-Systeme ab 2026. Besonders betroffen sind AI-Funktionen in Medizinprodukten sowie Triage- und Notfall-Dispatch-Lösungen. Geregelt werden belastbare Datenqualität und Governance, Nachvollziehbarkeit, Protokollierung, Risikomanagement und wirksame menschliche Aufsicht. Für Beschäftige im Gesundheitswesen bedeutet das: Systeme entsprechend der Zweckbestimmung nutzen, Schulungen und SOPs verankern, Aufsicht organisatorisch sichern, Patientenkontakt mit AI kenntlich machen und Vorfälle strukturiert melden, um Patientensicherheit und Compliance sinnvoll zu verbinden.

Autor:innen: Oliver Kimberger (1,2) und Elisabeth Steindl (2,3)

(1) Universitätsklinik für Anästhesie, Allgemeine Intensivmedizin und Schmerztherapie, Medizinische Universität Wien
(2) Boltzmann Institute Digital Health and Patient Safety, Wien
(3) Institut für Ethik und Recht in der Medizin, Universität Wien

❍ DFP auf pains.at
❍ DFP auf meindfp.at


Lecture Board:
Maria Kletecka-Pulker
Mathias Maleczek

erschienen in ANÄSTHESIE NACHRICHTEN 4/25

↑ Nach oben

Was Anästhesist:innen über faire KI wissen sollten

Zusammenfassung
Künstliche Intelligenz (KI) eröffnet der Anästhesie und Intensivmedizin neue Möglichkeiten der personalisierten Medizin. Voraussetzung dafür ist eine repräsentative, möglichst verzerrungsfreie Datengrundlage. Dieser Beitrag beleuchtet die „data journey“ klinischer KI-Modelle und zeigt, wie sich systematische Verzerrungen (Bias) unbemerkt in Algorithmen einschleichen und sich hinter technischer Objektivität verbergen können. Anstatt KI als „black box“ zu betrachten, werden Kliniker:innen ermutigt, Modellgrenzen zu verstehen und Ergebnisse kritisch einzuordnen, um KI für alle Patient:innengruppen sicher und gerecht einzusetzen.

von Lorenz Kapral, Helena Schluchter und Oliver Kimberger

Klinische Abteilung für Allgemeine Anästhesie und Intensivmedizin, Universitätsklinik für Anästhesie, Allgemeine Intensivmedizin und Schmerztherapie, Medizinische Universität Wien


Künstliche Intelligenz (KI) unterstützt zunehmend klinische Entscheidungen vom Aufwachraum bis zur Intensivstation. Doch wie verlässlich sind KI-gestützte Vorhersagen? Der Beitrag beleuchtet typische Bias‑/Verzerrungsquellen entlang der „data journey“ von KI-Modellen und zeigt, worauf Ärzt:innen bei der Anwendung achten sollten. Denn Algorithmen, die relevante Unterschiede zwischen Patient:innengruppen ignorieren, können zum potenziellen Sicherheitsrisiko werden.

KI in der Anästhesie: Datenqualität bestimmt Ergebnisqualität

Die Forschung zu künstlicher Intelligenz (KI) in der Anästhesie wächst rasant, da KI komplexe Muster in großen klinischen Datensätzen erkennen kann, die der menschlichen Wahrnehmung entgehen. Das damit verbundene Versprechen ist eine individualisierte Medizin, die nicht mehr nach dem „One-size-fits-all“-Prinzip behandelt, sondern individuelle physiologische Unterschiede besser berücksichtigt [1].

Die Qualität der zugrundeliegenden Daten ist dabei entscheidend. Enthalten Trainingsdatensätze systematische Verzerrungen (Bias), können diese von KI-Modellen übernommen und bestehende Versorgungsungleichheiten reproduziert werden [2, 3, 4]. Um das Potenzial der KI für alle Patient:innen auszuschöpfen, müssen wir verstehen, wo entlang der Modellentwicklung Bias entstehen kann, nicht als Argument gegen den Einsatz von KI, sondern als Voraussetzung für Fairness und Qualität in der klinischen Anwendung.

Die Datenreise: Von der Idee zum KI-Output

Wir folgen den Entwicklungsphasen eines KI-Modells, um typische Bias-Formen und Lösungsansätze aufzuzeigen (Abb. 1).

Abb. 1: Wo Bias in klinischen KI-Systemen entsteht. Entlang der Entwicklung klinischer KI-Modelle können systematische Verzerrungen entstehen – von der Datengrundlage über die Entwicklung und die Modellierung bis hin zur Validierung und Anwendung
Abb. 1: Wo Bias in klinischen KI-Systemen entsteht. Entlang der Entwicklung klinischer KI-Modelle können systematische Verzerrungen entstehen – von der Datengrundlage über die Entwicklung und die Modellierung bis hin zur Validierung und Anwendung
Phase I: Konzeptualisierung & Design – Bias im Datensatz

Die Zusammensetzung klinischer Datensätze spiegelt häufig historische und strukturelle Ungleichheiten wider. Viele Studien rekrutierten überwiegend Patient:innen aus Universitätskliniken im globalen Norden, wodurch Daten weißer Männer überrepräsentiert und Frauen oder ethnisch diverse Gruppen unterrepräsentiert sind. Modelle, die mit diesen Daten trainiert wurden, zeigen oft eine geringere Leistung in unterrepräsentierten Gruppen (z. B. „gender data gap“) [5, 6].

Hinzu kommt eine systematische Lücke in der Datentiefe: Routinedaten erfassen primär physiologische und laborchemische Parameter. Soziokulturelle Determinanten wie sozioökonomischer Status, Versorgungszugang oder geschlechtsspezifisches Gesundheitsverhalten werden hingegen selten systematisch erfasst. Für KI-Modelle bleibt dieser Teil der klinischen Realität somit unsichtbar [4, 5].

Phase II: Entwicklung – Die Verzerrung der klinischen „Wahrheit“

In der Entwicklungsphase werden systematische Fehler und methodische Unterschiede in der Datenerhebung in jene Muster überführt, die das KI-Modell später als „Wahrheit“ interpretiert. So messen Pulsoxymeter bei dunkler Haut ungenauer als bei heller Haut und erzeugen so verzerrte Trainingsdaten [8]. Zudem basieren historische Behandlungsstrategien oft auf einer männlich zentrierten Medizin. Wurden Frauen aufgrund von in bestehenden Diagnosemustern unzureichend erfassten Symptomen später diagnostiziert, fehlt dem Algorithmus das Beispiel für eine optimale, frühzeitige Behandlung von Frauen [9]. Da KI aus historischen Daten lernen kann, bleibt sie für potenziell bessere Strategien blind. Standardisierte Verfahren und geschlechtersensible Protokolle sind daher wichtig, um eine verlässliche Datengrundlage zu schaffen [2, 7].

Rekrutierungs- und Stichprobenverzerrungen, zum Beispiel die Konzentration auf spezialisierte Zentren oder hohe Zugangsbarrieren, beeinflussen den verfügbaren Datensatz und die spätere Modellgüte. Diversifizierte Rekrutierungsstrategien, Patient:innen-Randomisierung und niedrigschwellige Teilnahmemöglichkeiten senken das Bias-Risiko [2, 7].

Phase III: Modellierung – Die Illusion der Neutralität

Ein verbreitetes Missverständnis ist der Trugschluss, ein Algorithmus sei objektiv, wenn die Variable „Geschlecht“ nicht oder kaum in die Entscheidungsfindung eingeht.

Das Kernproblem ist die statistische Multikollinearität: Geschlechtsinformationen sind oft implizit in Stellvertretervariablen, wie Körpergröße, Kreatininwert oder weiteren Vitalparametern, enthalten [2, 3]. Enthält der historische Datensatz einen Gender-Bias, verknüpft der Algorithmus dieses Risiko nicht zwingend mit der Variable „Geschlecht“, sondern mit den geschlechtstypischen Ausprägungen dieser physiologischen Stellvertretervariablen.

Die gefährliche Konsequenz: Der Algorithmus kann die explizite Variable „Geschlecht“ als unwichtig einstufen und wirkt dadurch formal objektiv. So entstehen Modelle, die diskriminierungsfrei erscheinen, aber historische Nachteile verdeckt reproduzieren – selbst wenn das Geschlecht als Variable nicht in das Modell einfließt [2].

Solche algorithmischen Fehlanpassungen lassen sich nur durch proaktive Bias-Reduktionsstrategien adressieren (z. B. Resampling, Subgruppenanalysen) [2, 10]. Ohne diese Maßnahmen spiegelt das Modell bestehende Datenungleichgewichte wider und verliert an klinischer Aussagekraft insbesondere in unterrepräsentierten Patient:innengruppen.

Phase IV: Validierung – Der entscheidende Qualitäts-Check

In der Validierung zeigt sich, für wen ein Modell verlässlich arbeitet. Gesamtmetriken wie „95 % Genauigkeit“ sind wenig aussagekräftig: Ein System kann insgesamt gut performen, aber in unterrepräsentierten Subgruppen, zum Beispiel junge Frauen oder sehr alte Patient:innen, deutlich schlechter [3, 4, 5]. Externe Validierung und Subgruppenanalysen sind daher essenziell [2].

Zudem beeinflussen Anwendungseffekte die Modellgüte: Übervertrauen in algorithmische Empfehlungen („automation bias“) und „alert fatigue“ bei häufigen Fehlalarmen mindern die klinische Sicherheit. Es bedarf einer Schulung der Nutzer:innen und einer sinnvollen Alarmjustierung [1].

Schließlich müssen Modelle an Veränderungen in klinischer Praxis, Messmethoden oder Patient:innenkollektiven angepasst werden („concept drift“). Ohne regelmäßiges Monitoring können fehlerhafte KI-Entscheidungen in neue Datensätze einfließen und sich langfristig verstärken [1, 2].

Ausblick & Action Points: Was Kliniker:innen tun können

Fairness in der KI ist gelebte Patient:innensicherheit. Anästhesist:innen und Intensivmediziner:innen sollten sich nicht nur als Anwender:innen, sondern als aktive Qualitätskontrolle verstehen. Um das Konzept der „fairen KI“ proaktiv im klinischen Alltag umzusetzen, können Sie folgende konkrete Schritte unternehmen:

1. Die richtigen Fragen an Hersteller stellen

Behandeln Sie den Algorithmus wie ein neues Medikament und fordern Sie einen „digitalen Beipackzettel“ mit Validierungsdaten. Gezielte Prüffragen machen Transparenz zur Voraussetzung für den klinischen Einsatz (Tab. 1).

Tab. 1: Checkliste zur Bewertung von KI-Systemen. Übersicht zentraler Prüffragen und Prüfpunkte zur Einschätzung von Validität, Robustheit und Fairness eines KI-Modells vor dem klinischen Einsatz [11].

Prüffragen an den HerstellerKonkrete Prüfpunkte
Ist die Validierungskohorte, also jene Patient:innen in denen der Algorithmus getestet wurde, vergleichbar mit unseren Patient:innen?Z. B. Alter, Geschlecht, Komorbidität, ethnische Diversität, Versorgungskontext
Wie gut ist die Performance des Modells in relevanten Subgruppen?Z. B. getrennte Angaben zu Sensitivität/Spezifität nach Geschlecht, Alter, Risikoprofil
Sind Messmethoden und klinische Protokolle mit unserem Setting vergleichbar?Z. B. Geräte(-generationen), Monitoringstandards, klinischer Workflow
Wie robust ist das Modell bei physiologischen Extremen, variierenden klinischen Ausprägungen oder fehlenden bzw. fehlerhaften Daten?Z. B. sehr alte Patient:innen, extremes Körpergewicht, Organfunktionsstörungen, demografische Daten der Trainingskohorte
Welche Strategien zur Identifikation und Reduktion von Bias/Verzerrungen sind implementiert?Z. B. Repräsentationsanalysen relevanter Subgruppen, stratifizierte Modellkalibrierung, Fairness-Metriken
Gibt es externe, unabhängige Validierungen oder nur interne Entwicklungsdaten und interne Validierung? Wann wurden diese Validierungen durchgeführt?Zentrales Qualitätskriterium zur Erkennung versteckter Bias
2. Dokumentation als Trainingslager von morgen verstehen

Ihre tägliche Dokumentation in digitalen Patient:innendaten-Managementsystemen bildet die Datenbasis für zukünftige KI-Modelle. Präzise Diagnosen, korrekte Zeitstempel und der Verzicht auf stereotype Freitextbeschreibungen sind entscheidend, um Bias zu vermeiden. Die hochwertigen Daten von heute sind die Grundlage für bessere KI-Assistenten von morgen.

3. Sensibilität für „Automation Bias“ erlangen

Seien Sie skeptisch, wenn die KI-Vorhersage von Ihrer klinischen Einschätzung abweicht, besonders bei unterrepräsentierten Patient:innengruppen. Nutzen Sie KI als „Second Opinion“, aber überlassen Sie ihr nicht das letzte Wort. Melden Sie Probleme und Diskrepanzen: Feedback-Schleifen sind essenziell, um Modelle weiterzuentwickeln.

Fazit

KI kann Medizin objektiver, präziser und menschlicher machen, indem sie uns von Routineaufgaben entlastet, vor Fehlern schützt und mehr Zeit am Krankenbett ermöglicht. Ein Algorithmus, der Bias überwindet, statt ihn zu reproduzieren, ist ein Sicherheitsgewinn für alle Patient:innen. Anästhesist:innen kommt dabei eine Schlüsselrolle als Mitgestalter:innen fairer und zukunftssicherer KI zu.

↑ Nach oben
Literatur
  1. Angus DC, Khera R, Lieu T, et al. AI, Health, and Health Care Today and Tomorrow: The JAMA Summit Report on Artificial Intelligence. JAMA. 2025;334(18):1650–64.
  2. Hasanzadeh F, Josephson CB, Waters G, et al. Bias recognition and mitigation strategies in artificial intelligence healthcare applications. NPJ Digit Med. 2025;8(1)154.
  3. Lee T, Puyol-Antón E, Ruijsink B, et al. An investigation into the impact of deep learning model choice on sex and race bias in cardiac MR segmentation. 2023. https://arxiv.org/abs/2308.13415.
  4. Liu S, Luo Y. Assessing Social Determinants-Related Performance Bias of Machine Learning Models: A case of Hyperchloremia Prediction in ICU Population. 2021. https://arxiv.org/abs/2111.09507.
  5. Obermeyer Z, Powers B, Vogeli C, et al. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366(6464):447–53.
  6. Criado Perez C. Invisible Women: Data Bias in a World Designed for Men. Abrams Press; 2019.
  7. Heidari S, Babor TF, De Castro P, et al. Sex and Gender Equity in Research: rationale for the SAGER guidelines and recommended use. Res Integr Peer Rev. 2016;1:2.
  8. Sjoding MW, Dickson RP, Iwashyna TJ, et al. Racial Bias in Pulse Oximetry Measurement. N Engl J Med. 2020;383(25):2477–8.
  9. Canto JG, Goldberg RJ, Hand MM, et al. Symptom Presentation of Women With Acute Coronary Syndromes: Myth vs Reality. Arch Intern Med. 2007;167(22):2405–13.
  10. Kapral L, Dibiasi C, Jeremic N, et al. Development and external validation of temporal fusion transformer models for continuous intraoperative blood pressure forecasting. EClinicalMedicine. 2024;75:102797.
  11. Vasey B, Nagendran M, Campbell B, et al. Reporting guideline for the early-stage clinical evaluation of decision support systems driven by artificial intelligence: DECIDE-AI. Nat Med. 2022;28(5):924–33.

erscheint in ANÄSTHESIE NACHRICHTEN 1/2026

Medical worker touch virtua medical AI technology services concept.Medical worker hold virtual medical revolution and advance of technology Artificial Intelligence and technology for future Health plus EU flag
© Wanniwat Roumruk / Getty Images / iStock // edited