Evaluation Kombination mit Metadaten
Generalisierung mit Referenzdatensatz 2
In Folge werden die Ergebnisse auf Basis des besten Modells je Ansatz in der Kombination mit den Metadaten dargestellt. Abbildung 7 (6.1) zeigt die Ergebnisse des besten Modells auf Basis der Support Vector Machine. Die SVM erbrachte die höchste Genauigkeit von 82% auf den Testdaten. Die weiteren Ansätze liegen im Vergleich dazu durchschnittlich 10% darunter. Dabei lässt sich eine Verbesserung der Leistung im Vergleich zur Bildklassifikation um 13%. Die Genauigkeit steigt im Vergleich zur Bildklassifikation von 69% auf 82%. Beim Blick auf die Fehlerklassifikation fällt auf, dass die Anzahl der FP-Vorhersagen von 14 auf 20 steigen. Dagegen sinken die FN-Diagnosen von 42 auf 12. Hierbei wird klar, dass die Spezialisierung auf die Klasse Glaukom nachgelassen hat. Die Sensitivität liegt bei der Kombination der Metadaten bei 78% mit einer Spezifität von 87%, gegenüber den 84% und 53% aus der Bildklassifikation.
Training mit Referenzdatensatz 2
In dem Testlauf schnitt das Modell auf der Grundlage des Entscheidungsbaumes mit am besten ab. Hierbei werden hervorragende Ergebnisse erzielt, wie auf Abbildung 8 (6.2) zu sehen ist. Die Genauigkeit liegt bei 91%, die Spezifität und Sensitivität bei 84% bzw. 98%. Hier liegt eine leichte Spezialisierung auf die Klasse Glaukom vor. Das zeigt sich auch an der Fehlklassifizierungsrate. Insgesamt wird ein Bild FP und 8 FN klassifiziert. Im Vergleich zu den weiteren Ansätzen zeigt das CNN mit multiplen Eingaben nahezu die gleiche Leistung wie der residuale Ansatz. Die beiden anderen Ansätze fallen dagegen mit 88% bzw. 87% Genauigkeit nur leicht schlechter aus. Im Vergleich zu der Bildklassifikation zeigt sich hier eine Verbesserung von 3% in der Genauigkeit. Dadurch werden insgesamt 2 Bilder weniger falsch klassifiziert. Mit Blick auf die Ergebnisse in der Bildklassifikation ergibt sich nur eine leichte Verbesserung der Genauigkeit um 3%. Das entspricht jedoch in etwa dem gleichen Verhältnis wie bei dem Generalisierungsdatensatz. Soll heißen, dass sich in beiden Fällen die Leistung um rund ein Drittel steigern lässt.
Generalisierung mit Referenzdatensatz 3
Die Ergebnisse der Generalisierung zeigen sich im Vergleich zu dem vorhergehenden Test mit einer Genauigkeit von 83% nochmals leicht verbessert. Insgesamt wurden in diesem Datensatz 246 Bilder getestet. Die besten Ergebnisse erbrachte das in Abbildung 9 (6.3) gezeigte Modell der logistischen Regression. Die Leistung ist nahezu gleich der des SVM-Ansatzes, der in Tabelle G.1 dargestellt ist. Die Ergebnisse unterscheiden sich lediglich minimal in der Spezifität und Sensitivität. Die Genauigkeit steigt um 12% von 71% auf 83%, was einer Verbesserung von rund einem Drittel entspricht. Dabei zeigt das Modell keine Spezialisierung auf einer der beiden Klassen. Auffallend ist, dass erneut die Modelle, die im Training mit Ref2 die schwächste Leistung zeigten, hier am besten abschneiden. Analog zu Ref2 wird auch in diesem Datensatz eine erneute Trainingsphase im Anschluss durchgeführt.
Training mit Referenzdatensatz 3
Die Ergebnisse der Gesund/Glaukomverdacht Klassifikation des besten Modells werden in Abbildung 10 (6.5) dargestellt. Dabei wurde eine Genauigkeit von 89% erreicht, was ein sehr gutes Ergebnis darstellt. Die Spezifität beträgt 95% und die Sensitivität 83%. Dies entspricht einer FP/FN Rate von 8 zu 6. Die übrigen Modellansätze zeigen eine ähnlich hohe Leistung, wie das hier präsentierte Modell. Der Ansatz mit den multiplen Eingabevektoren erreicht hier das zweitbeste Ergebnis und weist nur 6 FP-Vorhersagen auf. Das ist der geringste FP-Wert aller Modelle in diesem Datensatz. Dagegen fällt der Ansatz der Support Vector Machine im Vergleich zu den vorhergehenden Experimenten in der Leistung leicht ab. Das ist aber ausschließlich bei der Klasse des Glaukomverdachts der Fall. Daraus ergibt sich ein weniger stark spezialisiertes Modell, was an ausgeglichenere Spezifität und Sensitivität erkennbar ist. Im Vergleich zur Bildklassifikation verbessert sich die Vorhersage um 6%.
Zusammenfassung
Die vier verschiedenen Architekturansätze erbrachten in der Evaluation der Bildklassifikation gute Ergebnisse. Dies gilt insbesondere für die trainierten Ansätze. Die Tests zum Abschätzen der Verallgemeinerungsfähigkeit erbrachten deutlich bessere Ergebnisse als im Vergleich zur Bildklassifikation, was einen deutlichen Einfluss der Metadaten unterstreicht. Die jeweiligen Klassifikationen sind vielversprechend, da durchgehend eine Genauigkeit von deutlich über 85% auf den Testdaten erreicht wird. Die Kombination der Metadaten zeigte durch die Ergebnisse weiterhin eine konstant hohe Zuverlässigkeit der Glaukomdiagnose. Dadurch wird belegt, dass der Ansatz durchaus zu besseren Ergebnissen führt.
Fazit
Wie wir in den insgesamt sechsteiligen Blogserie gesehen haben, ist das Glaukom eine ernstzunehmende Erkrankung deren rechtzeitige Diagnose eine hohe Priorität für den weiteren Behandlungsverlauf darstellt. Auf dieser Motivation aufbauend zeigt unser Ansatz die Diagnose durch eine Bilderkennung auf Basis von Künstlicher Intelligenz ein vielversprechender Ansatz darstellt Ärzte in Zukunft einen weiteren Entscheidungsparameter zur Hand zu geben, um zuverlässige Diagnosen zu treffen.
Zeigte die Bildklassifikation schon eine gute Zuverlässigkeit in der Vorhersage konnte des Weiteren gezeigt werden das diese Vorhersage sich durch Einbeziehen weiterer Diagnosemerkmale noch signifikant steigern lässt.
Ich hoffe das Lesen dieser Blogserie konnte einen weiteren Blickwinkel in der Nutzung von Künstlicher Intelligenz aufzeigen, die derzeit durch die Transformer Sprachmodelle in aller Munde ist.