Das mittels „PyCaret“ erstellte KI-Modell beruhte auf Daten von 4.000 Patienten (durchschnittliches Alter ca. 41 Jahre, 64 % Frauen), darunter 2.800 Trainings- und 1.200 Testdatensätze, bei denen die Diagnose von Kopfschmerzspezialisten gestellt worden war. In das Modell flossen 17 Variablen ein, darunter Alter, Geschlecht, Größe, Gewicht, Kopfschmerzbeginn, -häufigkeit, -schwere, -dauer und -lokalisation, Verschlimmerung durch körperliche Betätigung, Begleitsymptome, Aura, Akutmedikation und Familienanamnese. Laborund Bildgebungsbefunde wurden nicht berücksichtigt.
Validiert wurde das Modell anhand von 50 Patienten, bei denen zunächst fünf Nicht-Fachleute eine Diagnose stellten. Dann wurden die 50 Patienten zusätzlich mithilfe der KI diagnostiziert. Bewertet wurden die diagnostische Leistung bei Migräne, Medikamentenübergebrauchskopfschmerz (MOH), Spannungskopfschmerz (TTH), Trigemino-autonomen Kopfschmerzen (TAK) und anderen primären sowie sekundären Kopfschmerzarten.
Erheblicher Zugewinn durch KI
Die Genauigkeit des KI-Modells im Testdatensatz (n = 1.200), die am höchsten für Migräne/MOH und TAK und am niedrigsten für sekundäre Kopfschmerzen ausfiel, lag insgesamt bei 76,25 % (Sensitivität: 56,26 %, Spezifität: 92,16 %, Präzision: 61,24 % und F-Werte: 56,88 %). Im Validierungsset (n = 50) diagnostizierten die fünf Nichtfachleute die Kopfschmerzen ohne KI mit einer Gesamtgenauigkeit von nur 46 % (Kappa: 0,212). Mit der KI verbesserten sich diese auf 83,20 % (Kappa: 0,678). Auch Sensitivität, Spezifität, Präzision und F-Werte verbesserten sich dabei deutlich. Die Konkordanz der Diagnosen zwischen der KI und den Spezialisten betrug hohe 0,815. Die Konkordanz bei den fünf Nichtspezialisten ohne KI war gering (0,023 - 0,362) und nahm mit der KI ganz erheblich zu (0,606 - 0,874).