Evaluation und Vorstellung der Ergebnisse
Im fünften Teil unserer Blogserie kommen wir nun zu der Evaluation und Vorstellung der Ergebnisse.
Zu Beginn werden wir grundlegende Metriken und Vorgehensweise der Evaluation vorstellen.
Zum Abschluss folgen dann auszugsweise einige Ergebnisse der unterschiedlichen Modelle auf Basis der genutzten Referenzdatensätze.
Evaluation
In diesem Abschnitt werden die im weiteren Verlauf der Arbeit genutzten Evaluationsmetriken erläutert. Auf Basis dieser Metriken wird im weiteren Verlauf der Evaluation eine Beurteilung der Klassifizierungsgüte der Modellansätze vorgenommen. Um einen konsistenten Vergleich zu der Arbeit von Eckhart zu ermöglichen, werden die gleichen Evaluationsmetriken verwendet. Eines der Standardverfahren zur Güteklasse Beurteilung für Klassifikationsaufgaben ist die Wahrheitsmatrix (Confusion Matrix). Diese besteht aus vier Quadranten, deren Werte für die Anzahl der True positives (TP) False negatives (FN), False positives (FP) und True negatives (TN) stehen. Die Werte TP und TN umfassen die Objekte, die richtig klassifiziert wurden. Dagegen beinhalten die Felder FP und FN die falsch klassifizierten Objekte. Am Beispiel der Klassifikation Gesund/Glaukom mit dem Glaukom als positiver Klasse bedeutet FP, dass das Bild als Glaukom vorhergesagt wurde, obwohl es tatsächlich einen gesunden Befund darstellt. Umgekehrt sind FN die Bilder, welche als gesund klassifiziert wurden, tatsächlich allerdings Glaukom Fälle sind. In der Matrix werden also die tatsächlichen Werte den vorhergesagten gegenübergestellt. Auf Basis der Werte in der Wahrheitsmatrix werden zahlreiche Metriken definiert und ein genauerer Eindruck der Klassifikationsgüte vermittelt.
Genauigkeit (accuracy)
Die Genauigkeit ist ein Maß für das Verhältnis der korrekt klassifizierten Objekte zu allen Objekten. Berechnet wird diese mit der Formel: Genauigkeit = TP+TN / TP+FP+FN+TN
Dieser Wert ist intuitiv sehr leicht zu erfassen, wobei die Analyse sich auf beide Klassen erstrecken sollte, um eine mögliche Verzerrung der Genauigkeit auf einer der beiden Klassen auszuschließen.
Sensitivität (recall) und Spezifität (specifity) Die Sensitivität sagt aus, wie viele der positiven Objekte auch tatsächlich vorhergesagt wurden. Bezogen auf die negative Klasse spricht man auch von der Spezifität. Für die Berechnung der beiden Werte gilt:
Sensitivität = TP / TP+FN und Spezifität = TN / FP+TN.
Ein Wert von 1 bedeutet, dass jedes Objekt der positiven Klasse korrekt klassifiziert wird. Dies schließt aber nicht aus, dass auch Objekte der negativen Klasse mit einbezogen wurden. Um diesen Unterschied herauszustellen, wird der Sensitivität meist noch der Vorhersagewert gegenübergestellt.
Positiver Vorhersagewert (precision)
Der Vorhersagewert wird auch als ein Maß für die Exaktheit eines Klassifizierer interpretiert. Er beschreibt das Verhältnis zwischen den korrekt als positiv klassifizierten Objekten und allen positiv klassifizierten Objekten. Die Berechnung wird durchgeführt mit:
precision = TP / TP+FP
F1-Maß (f1-score) Das F1-Maß ist, das kombinierte harmonische Mittel aus positivem Vorhersagewert und der Sensitivität. Es wird mit folgender Formel berechnet:
F1 − Maß = 2∗T P 2∗T P+FP+FN
ROC-Kurve (Receiver operator characteristic area under curve (rocauc)
Die ROC-Kurve ist ein sehr nützliches Werkzeug, Klassifizierungsmodelle anhand ihrer Leistung in Bezug auf die Falsch-Positiv und Richtig-Positiv Rate einzuordnen. Der Wertebereich erstreckt sich von 0 bis 1. Ein perfekter Klassifizierer befindet sich in der oberen linken Ecke und hat den Wert 1. Aus der ROC-Kurve lässt sich die ROCAUC oder nur AUC, berechnen, was der Fläche unter der Kurve entspricht.
Vorgehen Evaluation
Um die jeweiligen Modelle aussagekräftig zu Evaluieren wurden diese zum einen auf ihre Fähigkeit hin zur Generalisierung getestet und zum anderen auf ihr Fähigkeit zur Bildklassifikation getestet.
Dabei beschreibt die Generalisierung die Eigenschaft eines trainierten Modells, auf Basis eines größeren Datensatzes zuverlässig die gleich guten Ergebnisse wie aus dem Training und Test der Testdaten zu erzeugen. Hierzu wurden die Modelle mit, welche mit dem Referenzdatensatz 1 trainiert wurden, anschließend mit dem größeren Referenzdatensatz 2 auf ihre Generalisierung hin überprüft. Anschließend wurden die Modelle mit dem Referenzdatensatz 2 neu trainiert und mit dem Referenzdatensatz 3 erneut geprüft.
Bei der Bildklassifikation wurde sich darauf konzentriert, wie die jeweiligen Modelle im Trainingsprozess mit den jeweiligen Testdaten harmonierten.
In dem folgenden Abschnitt folgen auf Basis dieses Vorgehens die jeweils erzielten Ergebnisse.
Um den Rahmen dieses Teils des Blogeintrages nicht zu sprengen werde ich diese auszugsweise präsentieren und beschränke mich auf die Aussagekräftigsten. Auch werden die Ergebnisse der Bildsegmentierung ausgelassen. Grundsätzlich lässt sich zu der UNet Architektur sagen das sie mit einer Genauigkeit von bis zu 95,2 zuverlässig die Bilder segmentierte.
Evaluation der Bildklassifikation
Generalisierung mit Referenzdatensatz 2
Zu Beginn werden die Ergebnisse zum Abschätzen der Verallgemeinerungsfähigkeit der trainierten Modelle beschrieben. Die vier angelernten Modellansätze wurden dazu mit befundfreien und Glaukom Bildern aus Referenzdatensatz 2 abzüglich der, die auch in Referenzdatensatz 1 enthalten sind, getestet. Das gibt einen Eindruck davon, wie gut die Netze in der Lage sind, ihr erlerntes Wissen auf einen wesentlich größeren Datensatz anzuwenden. Dazu wurden die vier verschiedenen Ansätze mit insgesamt 178 Testsamples, bestehend aus jeweils 89 befundfreien und 89 Glaukomdiagnosen getestet. 7 Aufnahmen wurden im Rahmen des Downsamplings entfernt, um die gleiche Verteilung bei den Testdaten und Trainingsdaten sicherzustellen. Die Resultate werden in Abbildung 2 (5.4) zusammengefasst. Diese zeigt in 5.6a die ROC-Kurve und in 5.4b die Confusion Matrix. 5.4c beinhaltet die Zusammenfassung der Ergebnismetriken. Wie die Abbildung zeigt, erreicht das beste Modell eine Genauigkeit von 69% bei einer Fehlerklassifikationsrate von 31%. Der Recall bzw. die Spezifität und Sensitivität liegen bei 53% bzw. 84%. Bei einer binären Klassifikation wird der Recall der negativen Klasse auch als Spezifität bezeichnet, bei der positiven Klasse als Sensitivität. Hier zeigt sich ein deutliches Gefälle. Die Spezifität liegt gerade nur leicht über dem allgemeinen Schätzwert. Hier „ratet“ das Modell die Klasse also mehr, als dass es sie vorhersagt. Zum einen kann dies an der Zusammenstellung der Bilder liegen, die wie schon erwähnt, in diesem Datensatz mehr Grenzfälle beinhaltet. Ein weiterer Grund kann ein Übertrainieren auf eine bestimmte Klasse sein. Das bedeutet, der Klassifizierer erkennt Repräsentationen in den Glaukombildern als Glaukom spezifisch, die auch in den jeweiligen falsch klassifizierten befundfreien Fällen vorhanden sind.
Training mit Referenzdatensatz 2
Das Training der Netze wurde mit diversen Hyperparameter und Konfigurationen getestet, wobei das beste Modell der verschiedenen Ansätze in Folge vorgestellt wird. Tabelle 3.1 gibt eine Übersicht der gewählten Hyperparameter im finalen Modell. Für den Trainingsprozess wurden insgesamt 340 und für den abschließenden Test 86 Bilder verwendet. Die Resultate der Trainingsphase sind als gut zu bewerten. Die Sensitivität ist mit 97% sehr gut. Die Spezifität liegt mit 96% fast gleichauf. Hier ist keine leichte Spezialisierung auf die Glaukomklasse zu erkennen. Insgesamt wird in der Trainingsphase eine Genauigkeit von 97% Prozent bei einer Fehlklassifikationsrate von rund 5% erreicht. Das gute Ergebnis ist durch den anschließenden Testprozess zu bestätigen. Die zugehörigen Ergebnisse der Testphase sind in Abbildung 3.2 (5.6) dargestellt. Die Genauigkeit auf den Testdaten beträgt 88% bei einer Fehlklassifizierungsrate von knapp 12%. Dabei werden nur 2 Bilder als FP klassifiziert, was einer Sensitivität von 95% entspricht. Die Spezifität liegt dagegen bei 81%. Da der Glaukomerkennung bzw. Sensitivität eine höhere Priorität beigemessen wird, ist eine leichte Spezialisierung wie in dem Fall vertretbar. Zusammengefasst zeigt sich mit dem Datensatz, dass die Netze in der Lage sind, zuverlässig einen Glaukombefund zu erkennen
Generalisierung Referenzdatensatz 3
Dieser Test ist die logische Erweiterung des Verallgemeinerungstests mit Referenzdatensatz 2. Die Vorgehensweise und Zielsetzung gleichen dabei dem vorhergehenden Abschnitt. Insgesamt wurden mit dem hier vorgestellten Testdatensatz 246 Bilder durch die trainierten Modelle aus Ref2 verarbeitet. Anhand der Abbildung 4 (5.7) wird deutlich, dass sich die Genauigkeit im Vergleich zum vorhergehenden Testlauf minimal von 69% auf 71% verbessert. Darüber hinaus ist die Spezialisierung auf die Klasse Glaukom weniger stark ausgeprägt. Hauptsächlich wird das durch eine verbesserte Spezifität begünstigt. Diese ist im Vergleich zum vorhergehenden Test um 10% gestiegen bei einer fast gleichbleibenden Sensitivität. Absolut wurden demnach 71 Samples falsch klassifiziert. Die jeweiligen Ansätze in der Bildklassifikation zeigen dabei leichte Differenzen in den Ergebnissen. So ist das schlechteste Modell mit 68% Genauigkeit nur geringfügig schlechter als das Separable Modell, welches die besten Leistungen erbrachte. Vor dem Hintergrund der eher durchschnittlichen Leistung in der Bildklassifikation ist zu prüfen, welchen Einfluss die Kombination mit den Metadaten bewirkt.
Training mit Referenzdatensatz 3
Der Datensatz besteht aus 614 Fundusaufnahmen. Dabei wurden jeweils 500 für das Training und 124 für den Test verwendet. Mit der Daten Augmentation ergeben sich so insgesamt 1600 Samples für das Training und 400 für die Validierung. Das residuale Modell erbrachte dabei die besten Ergebnisse. Die Genauigkeit auf den Validierungsdaten liegt bei 84%. Die Spezifität und Sensitivität bei 93% bzw. 77%. Die Konzentration auf eine Klasse stellt sich zu den vorhergehenden Experimenten als wesentlich ausgeglichener dar. Das beste Modell wurde auf Basis des Keras Tuner und dem Hyperband Tuner erzeugt. Tabelle 5.1 zeigt die dabei genutzten Hyperparameter. Bemerkenswert dabei ist, dass der Keras Tuner ein breites Modell konfiguriert, welches mit 22.3 Mio. Parametern eine hohe Kapazität aufweist. Darüber hinaus wird eine geringere Lernrate gewählt als in den anderen Klassifikationen. Dadurch benötigt das Modell länger zum Lernen. Das beste Modell wurde in dem Fall mit 28 Epochen trainiert. Die Testdaten bestätigen den Trend aus der Trainingsphase. Die beiden Ansätze Residual und Inception zeigen mit 89% und 87% die höchste Genauigkeit, welche die der vorhergehenden Experimente übertrifft. Die Fehlerklassifikationsrate von 11% ist einer der geringsten aller Datensätze. Im Vergleich zu den anderen Modellansätzen zeigt sich, dass der Inception (siehe Anhang), dem residualen Ansatz mit 82% Genauigkeit nur leicht unterlegen ist. Stärker fällt hier der sequenzielle Ansatz ab, welcher nur 79% erreicht. Wie auch beim vorhergehenden Datensatz erbrachte der separable Ansatz kein zufriedenstellendes Ergebnis und wird in dem hier vorgestellten Datensatz nicht betrachtet.
Zusamenfassung Bildklassifikation
Bei der Bildklassifikation der beiden neuen erweiterten Datensätze wird deutlich, dass die Glaukomklassifikationen auf Basis eines neuen Trainings überzeugende Leistungen erbringen. Dabei besteht in den meisten Fällen eine Spezialisierung auf die Glaukomklasse, was jedoch aufgrund der Fokussierung auf die Glaukomdiagnose tolerierbar ist. Bei den Experimenten wurde darüber hinaus deutlich, dass die unterschiedlichen Lösungsansätze in der Bildklassifikation nur leichten Einfluss auf die Vorhersage zeigen. Dabei zeigen die Modelle innerhalb der Datensätze nur wenige, über die Datensätze hinaus dagegen teilweise deutliche Unterschiede. Das ist zum einem auf die unterschiedlichen Repräsentationen in den verschiedenen Bilddiagnosen zurückzuführen. Die kleinen Unterschiede innerhalb eines Datensatzes deuten jedoch darauf hin, dass der Einfluss unterschiedlicher Netzarchitekturen gering ist. Dies liegt zum einen an den kompakten Netzen. Wie schon beschrieben basiert die Idee der weiteren Ansätze meist auf der Limitierung tiefer sequenzieller Modellierungen. Demzufolge haben diese Ansätze nur einen kleinen Effekt auf die Netzleistung. Nichtsdestotrotz schneiden die residualen und Inception Ansätze leicht besser ab als die beiden anderen. Ähnlich dazu verhält es sich mit dem separable Ansatz, der jedoch in zwei Datensätzen keine zufriedenstellende Leistung erbrachte. Aus diesem Grund wurde es auch nicht erwogen, aus den unterschiedlichen Ansätzen ein Ensemble Modell zu erstellen.
Hier würde die relativ gleiche Leistung der Klassifizierer nur zu einer Glättung der Werte führen. Die Vielfältigkeit der Klassifizierer ist jedoch für ein Ensemblemodell entscheidend [GI16]. Das wird deutlich, wenn man sich die Heatmaps der Modellansätze anschaut. Um die Entscheidungsgrundlage eines CNNs besser zu verstehen, werden meist die dazwischen liegenden Layer in Form einer Heatmap visualisiert und über die Bilder gelegt. Dadurch werden die Teile im Bild ersichtlich, welche die Neuronen in den Layern am stärksten aktivieren. Darüber hinaus sind solche Heatmaps für den Mediziner hilfreich, die Diagnoseentscheidung der Netze nachzuvollziehen. In Abbildung 6 sind beispielhaft drei Heatmaps FP klassifizierter Bildausschnitte dargestellt. Diese stellen das gleiche Glaukom dar und entstammen der Gesund/Glaukom Klassifikation der jeweiligen Architekturansätze. Auf der linken Seite sind die Aktivierungen des Inception Ansatzes zu sehen. Die Mitte entstammt dem residualen und das Rechte dem sequenziellen Ansatz. Auf den Heatmaps ist zu sehen, dass im Grunde die Intensität der Aktivierungen im Sehnerv Bereich nur leicht variiert. Zu erkennen ist, dass an der unterschiedlichen Stärke der Schattierungen. Interessant ist in diesem Fall, dass die Neuronen in den Schichten der CNNs durch den Rand der Netzhaut unterschiedlich stark aktiviert werden. Gleichzeitig werden zwei weitere wichtige Eigenschaften der Netze deutlich. Erstens scheinen die CNNs auch in der Erkennung eines Glaukoms stark von hellen Bereichen aktiviert zu werden. Das ist nicht weiter bedenklich, gleicht dies auch der diagnostischen Realität. Es setzt nur eine weitere Bedingung an die Bildqualität. Tauchen an der Außenseite helle Objekte wie Spiegelungen oder Schriftzeichen auf, wie beispielsweise ein Aufnahmedatum, kann dies zur Verfälschung des Ergebnisses führen. Die zweite positive Eigenschaft ist, dass in der Evaluation durchweg die Bereiche um den Sehnerv stark aktiviert werden. Auch das entspricht der diagnostischen Realität. Generell sind die Aktivierungen im Sehnerv jedoch so stark ausgeprägt, dass davon ausgegangen werden kann, dass weitere Aktivierungen die Zuverlässigkeit der Vorhersage kaum beeinträchtigen.
Wie wir gesehen haben, ergeben die Ansätze zur Bildklassifikation vielversprechende Ergebnisse. Gerade das Training mit größeren Datensätzen zeigt hierbei eine überdurchschnittliche Zuverlässigkeit und ist durchaus geeignet weiter verfolgt zu werden.
In unserm letzten Blogbeitrag wenden wir uns den Ergebnissen der Kombination mit den Metadaten zu. Dabei werden wir zeigen, dass die Zuverlässigkeit der Modelle weiter gesteigert werden kann.