2.1.1 Mögliche Szenarien verschiedener Anwendungen wissensbasierter Bilddeutung

Szenario I: Unterstützung bei der Diagnose in der Radiologie

Szenario II: Inhaltsbasierte Suche in Bilddatenbanken

Szenario III: Unterstützung bei der Kartographie

Die Machbarkeit dieser Szenarien

Wieviel von diesen, eher utopisch erscheinenden Anwendungsszenarien mit dem heutigen Stand der Technik in der Bilddeutung zu realisieren ist und wie diese Arbeit ein Beitrag dazu leisten kann, ist ein Thema, das wir in den folgenden Kapiteln behandeln werden.

2.1.2 Bilddeutung: Stand der Technik

Ein Beispiel für ein allgemein einsetzbares, kompetentes Bilddeutungssystem ist die menschliche visuelle Wahrnehmung. Sie ist nicht nur konzeptionell ästhetisch, da sie auf einem homogenen Systemmodell basiert, nämlich dem biologischen neuronalen Netzwerk, sondern auch extrem leistungsfähig, wie wir es alle aus unserer persönlichen Erfahrung als Sehende kennen. Die maschinelle Bilddeutung ist der Versuch diese Kompetenz nachzuahmen. Der aktuelle Stand der Technik und des neurobiologischen Wissens setzt einem einfachen Nachbilden des menschlichen visuellen Systems in der Form von künstlichen neuronalen Netzwerken starke technische Einschränkungen. Aus diesem Grund versucht man dies zu umgehen, indem auf spezielle Aufgaben und auf herkömmliche Computer angepaßte Bilddeutungsmethoden entwickelt werden. Die Kompetenz solcher Methoden ist sehr stark auf ihr Aufgabengebiet beschränkt und sehr parameterabhängig und fehleranfällig. Dies schränkt die Komplexität der Aufgaben ein, die mit solchen Methoden zuverlässig gelöst werden können. Das Lösen von komplexeren Bilddeutungsaufgaben ist jedoch in Gebieten wie die Unterstützung der medizinischen Diagnostik wünschenswert. Nichts deutet darauf hin, das in der näheren Zukunft solche kompetente "Wahrnehmungsmethoden" entwickelt werden können und somit die Einschränkungen der herkömmlichen Bilddeutungsmethoden beseitigt werden. Eine Strategie zur Umgehung dieses Problems, ist Wissen einzusetzen, um der Beschränktheit, Parameterempfindlichkeit und Unzuverlässigkeit der existierenden Bilddeutungsmethoden entgegenzukommen, so daß für ein Tupel, bestehend aus einem zu untersuchenden Bild und einer Untersuchungsaufgabe die bestmögliche Bilddeutungsmethodenszusammensetzung und die optimale Parameterauswahl verwendet werden. Zusätzlich sollen noch Fehlergebnisse so früh wie möglich erkannt werden, indem auf Wissen über mögliche bzw. erwartete Bildinhalte basierende Plausibilitätstests durchgeführt werden. Solch eine Strategie wird auch wissensbasierte Bilddeutung genannt.

In dieser Arbeit wird a) ein Modell, das Cyclops-Modell, eingeführt, das es erlaubt, einige der oben erwähnten Kompetenzeinschränkungen der herkömmlichen Bilddeutung zu umgehen, b) die Umsetzung dieses Modells in ein Softwarewerkzeug, das Cyclops-System, beschrieben und c) gezeigt, wie dieses Softwarewerkzeug für die Erstellung einer Applikation verwendet werden kann.

In den nächsten Abschnitten werden die Grundlagen gesetzt, die als Ausgangsbasis zur Erstellung dieses Modells dienen. Dazu werden die Mängel der herkömmlichen Bilddeutungsmethoden explizit dargestellt. Darauf aufbauend werden die Anforderungen zur Beseitigung dieser Mängel festgelegt. Diese Anforderungen werden dann als Leitfaden zur Beschreibung des Cyclops-Modells verwendet. Für die weitere Beschreibung werden zunächst einige Begriffe informell eingeführt.

2.1.2.1 Einführung

Der Begriff Bild hat ein sehr breites Spektrum von Bedeutungen. In dieser Arbeit werden wir aufgrund des gegebenen Kontextes unter "Bilder" digitale Pixelbilder verstehen. Zunächst soll der Begriff "Bild" für die Zwecke dieser Arbeit abgegrenzt werden:

Die einzelnen Bildelemente eines Bildes werden bei zweidimensionalen Bildern Pixel genannt, bei dreidimensionalen Voxel.

Wir können "digitale (Pixel-) Bilder als mathematische Objekte", zunächst für den zweidimensionalen Fall, wie folgt definieren:

Mit Hilfe dieses Konzeptes können wir die Bilddeutung folgendermaßen definieren:

S wird die eigentliche Semantikfunktion genannt; der Wert S(o) eines Bildobjektes o wird die Bedeutung genannt.

Kommentar: Die Bedeutung eines Bildes berechnet sich aus der Zerlegung dieses Bildes in Objekten sowie aus den Bedeutungen, die diesen Objekten oi zugewiesen werden. Weil ein Bild u.U. auf mehrfache Weise zerlegt werden kann, muß die Bedeutung nicht eindeutig bestimmt sein. Falls b keine solche Partition zuläßt, ist b bedeutungslos. Die Problematik der Erstellung einer Bedeutung liegt einerseits darin, eine gegebene Partition überhaupt aufzufinden und andererseits darin, mehrdeutigkeit durch geeignete Einschränkungen aufzulösen.

Thema dieser Arbeit ist die maschinell durchgeführte Bilddeutung. Im folgendem wird unter dem Begriff Bilddeutung die maschinelle Bilddeutung verstanden.

Um den Begriff der Bilddeutung von dem der Bildverarbeitung abzugrenzen, möchten wir letztere hier zusätzlich definieren:

Diejenigen Verarbeitungsmethoden, die für die Erstellung der Bedeutung benutzt werden bzw. benutzt werden können, nennen wir auch Bilddeutungsmethoden.

Der aktuelle Stand der Technik im Bereich der Bilddeutung ist, daß die Verarbeitung eines digitalisierten Bildes mit dem Ziel, automatisch die darin enthaltene Objekte zu erkennen, in verschiedenen Etappen von immer höher werdender Abstraktion erfolgt. Um dies zu erreichen, wird für jedes Bild eine Zusammensetzung verschiedenster Bilddeutungsmethoden angewandt, von Kontrastverschärfungsverfahren bis hin zur Klassifikation von Objekten:

Ein VDRF-Kantendetektor oder ein Canny-Filter sind Beispiele von Bilddeutungsmethoden.

Diese Bilddeutungsmethoden wurden [Marr82] gemäß der Aufgabe, die sie lösen, in fünf großen Gruppen eingeteilt, nämlich Conditioning, Labelling, Grouping, Extracting und Matching. Für die Verarbeitung eines Bildes ist in der Regel mindestens ein Verfahren aus jeder dieser Gruppen notwendig. Die Eignung eines bestimmten Verfahrens, eine Aufgabe durchzuführen, hängt von der Natur des zu verarbeitenden Bildes ab, wie z.B. Computertomographie oder Kernspintomographie eines Kopfes, Tomographie einer Leber, Röntgenaufnahme oder Ultraschallaufnahme, und von der Zielsetzung, die für die Untersuchung festgelegt wurde. Beispiele für Zielsetzungen sind: "alle Kanten mit bestimmten Eigenschaften in einem Bild finden und sie mit dem Graphen eines Straßennetzes vergleichen" oder "alle Flächen gewisser Helligkeit finden und sie gemäß ihrer Textur in Gruppen klassifizieren". Die Zielsetzungen hängen stark von der Anwendungsdomäne des Bilddeutungssystems ab:

Ein in einer Anwendungsdomäne angesiedeltes System ist in der Regel nur auf Bilder anwendbar, die aus der Bilddomäne entstammen, für die es konzipiert wurde:

Die Bilddeutung kann, wie im vorigen Abschnitt schon angedeutet wurde, in zwei Klassen eingeteilt werden: a) einfache automatisierte Bilderkennung und b) wissensbasierte Bilddeutung. Wir werden beide kurz informell definieren:

Solche Art von Bilddeutung findet hauptsächlich dort Anwendung, wo nur sehr wenig Variation zwischen verschiedenen, zu untersuchenden Bildern zu erwarten ist, die Parameter, die die bildgebenden Verfahren beeinflussen (wie Beleuchtung, etc) kontrollierbar sind und sehr starke Zeiteinschränkungen gegeben sind. Solche Bedingungen finden wir unter anderem in der Qualitätskontrolle.

Auf die Unterscheidung zwischen den beiden in der obigen Begriffsbestimmung erwähnten Kategorien von Wissen wird später weiter eingegangen werden. Zunächst ist es ausreichend, diese intuitive Differenzierung für die folgende Diskussion zu berücksichtigen.

2.1.2.1.1 Die Begriffe einer Klasse von Bildern und der Kompetenz von Bilddeutungsmethoden

Die auf eine Bildklasse eingeschränkte Kompetenz der einzelnen herkömmlichen Bilddeutungsmethoden wurde im vorangegangenen Abschnitt erwähnt. Um von der Kompetenz eines Verfahrens sprechen zu können, müssen wir diese Kompetenz in Bezug zu einer Klasse von Bildern setzen, auf die dieses Verfahren mit einem bestimmten Maß an Zuverlässigkeit anwendbar ist. Der Begriff einer Bildklasse scheint zunächst intuitiv klar zu sein, bedarf aber näherer Untersuchung: Zu einer Bildklasse können alle Bilder gehören, die nach einem oder mehreren Kriterien als zusammengehörend oder ähnlich bezeichnet werden. Die Entstehung einer Bildklasse kann von der Natur der Bilder aus bedingt sein: "alle Kernspintomographieaufnahmen, kann aber auch zweckbedingt sein: "alle Bilder, auf die der VDRF-Kantendetektor anwendbar ist. In der Regel werden wir aber Klassen bilden wollen, die aus einer Zusammensetzung verschiedener Kriterien entstehen: "alle Kernspintomographien des Kopfes, die sich mit einem region-growing-Verfahren segmentieren lassen". Hierbei könnte es sich z.B. um alle MRI-Aufnahmen des Kopfes mit Echozeit > 50 ms handeln.

Die Bildung von Bildklassen ist ein zum Teil empirischer und zweckbedingter Prozeß. Wichtig ist hier, daß die gebildeten Klassen operationell nützlich sind, d.h., daß die gebildeten Klassen das Operieren mit dem in einer Anwendungsdomäne vorhandenen Bildern vereinfachen. Mehrere Bildklassen können sich auch überschneiden. Ein wissensbasiertes Bilddeutungssystem sollte in der Lage sein, eine Modellierung der in einer Anwendungsdomäne entstehenden Bildklassen zu berücksichtigen und diese in Beziehung zu der Kompetenz der einzelnen Bilddeutungsmethoden zu setzen:

Die Kompetenz einer Bilddeutungsmethode kann für eine Bildklasse entweder mathematisch modelliert werden, wenn die Zusammenhänge zwischen den Eigenschaften dieser Bildklasse und der Bilddeutungsmethode bekannt und modellierbar sind, oder experimentell festgestellt werden.

2.1.2.2 Kompetenzprobleme bei aktuellen Bilddeutungssystemen

Wir werden in Abschnitt 2.1.2.2.1 eine Liste der entscheidenden Probleme beschreiben, die aufgrund der Mängel herkömmlicher Bilddeutungsmethoden entstehen.

In Abschnitt 2.1.2.2.2 werden herkömmliche Bilddeutungssysteme, die in einer wissensbasierten Umgebung Verwendung finden, in einer allgemeinen Form diskutiert.

Die Beschreibung der Probleme herkömmlicher Bilddeutungsmethoden werden wir verwenden, um in Abschnitt 2.2 die Anforderungen an ein System herzuleiten, das in der Lage sein sollte, diese entweder zu lösen oder zu umgehen.

2.1.2.2.1 Allgemeine Probleme bei Bilddeutungsmethoden

Die Probleme, hervorgerufen durch die Mängel der Bilddeutungsmethoden, die zu den Kompetenzeinschränkungen herkömmlicher Bilddeutungssysteme führen, sind:

Hier ist ebenfalls die Grenze, wann zwei Methoden in dieselbe Klasse gehören und wann sie unterschiedlich zu klassifizieren sind, auch eher zweckbedingt orientiert als daß mathematisch vorgegebene Trennlinien existieren. So können der Mumford-Shah region-growing-Segmentierungsalgorithmus und die verschiedenen watershed-region-growing Segmentierungsalgorithmen zu einer Klasse der Gebietswachstumssegmentierungsverfahren zusammengefaßt werden, obwohl die denen zugrundeliegenden mathematischen Prinzipien sich voneinander unterscheiden.

ABB.2.1. Parameterempfindlichkeit: Segmentierungen mit diversen Parametern     
mit dem Mumford-Shah-Algorithmus                                               

    
ABB.2.2. Beispiel für die Fehleranfälligkeit: eine falsche Segmentierung       
einer transversalen T1-Kernspintomographieaufnahme des menschlichen Kopfes.    
In a ist die Aufnahme zu sehen, in b die entstandene Segmentierung.            

                                                                               

Ein Beispiel für die Fehleranfälligkeit ist in der Segmentierung von T1-Kernspintomographieaufnahmen des menschlichen Kopfes zu finden (siehe Abbildung 2.2). Einige dieser Aufnahmen enthalten durch die Aufnahmemethode bedingte Helligkeitsschwankungen. Die meisten dieser Bilder lassen sich trotzdem noch relativ einfach und korrekt mit einem region-growing Segmentierungsverfahren zerlegen, bei einigen wenigen aber, konnte bisher keine Parametersetzung und kein Verfahren gefunden werden, das diese korrekt segmentiert.

ABB.2.3. Performanceschwankungen treten bei der Segmentierung der hier
dargestellten Originalbilder auf. Die unten dargestellten
Segmentierungsergebnisse können mit zwei verschiedenen Implementierungen des
Mumford-Shah region-growing-Verfahrens erreicht werden. a und c stellen die
Originalbilder dar, b und d die Segmentierten. Die Bilder a und b stammen aus
[Klaus95].

Ein Beispiel in dem Performanceschwankungen zwischen verschiedene Implementierungen desselben Verfahrens vorkommen, kann in Abbildung 2.3 gesehen werden. Die in b und d dargestellten Ergebnisse können mit zwei verschiedenen Implementierungen des Mumford-Shah region-growing-Verfahrens erzielt werden. Eine Implementierung wurde speziell für hohe Performance entwickelt [Klaus95] und erzielt für das obere Holzknotenbild a und die meisten anderen Bildern, auf die sie angewendet wird, ein viel besseres Rechenzeitverhalten als eine andere, weit verbreitete Implementierung [From90]. Für die in c dargestellte und andere MRI-Aufnahmen ist das Rechenzeitverhalten dieser Implementierung aber wesentlich schlechter als das der zweitgenannten Implementierung.

2.1.2.2.2 Herkömmliche Bilddeutungssysteme in einer wissensbasierten Umgebung

Ein Ansatz der verfolgt wurde, um mit herkömmlichen Bilddeutungsverfahren gute Resultate bei einem breiten Spektrum von Aufgabestellungen trotz der oben genannten Problemen zu erzielen, ist die Modellierung und Verwendung des Wissens über die Beziehungen zwischen den oben zitierten Problemen, Bildklassen und die einzelnen Bilddeutungsmethoden in einem wissensbasierten Bilddeutungssystem zu verwenden.

Einige Ansätze zur wissensbasierten Bilddeutung wurden bereits entwickelt. Wie schon erwähnt, sollten die Aufgaben eines wissensbasierten Bilddeutungssystems die Auswahl, Parametrierung und Steuerung der einzelnen Bildverarbeitungsverfahren sein. Hinzu kommt die Aufgabe der Verwaltung des Wissens über Bildinhalte, das für die Bilddeutung benötigt wird. Herkömmliche wissensbasierte Systeme zur Bilddeutung wie XRAY [CuEtAl87], FIGURE [Messer92] und VIDIMUS-IAM [Greb94] erfüllen diese Aufgaben nur sehr beschränkt bzw. betrachten ihre Aufgabe nur als die wissensbasierte Erstellung von Systemen, die in der späteren Anwendungsphase unabhängig von einer wissensbasierten Komponente angewandt werden. Andere Ansätze besitzen mächtige Möglichkeiten, Vorwissen aus einer Bilddomäne in den Bilddeutungsprozeß zu verwenden, wurden aber speziell für den Einsatz in einer spezifischen Anwendungsdomäne entwickelt [Stein94] und können nur sehr eingeschränkt verallgemeinert werden.

Die Zusammensetzung der Bilddeutungssoftware wurde in herkömmlichen Systemen in der Regel für allgemeine Bildklassen fest vorgegeben und nicht den einzelnen Bildern dynamisch angepaßt. Wenn die Möglichkeit einer feineren Anpassung vorhanden ist, müssen in herkömmlichen Systemen die Bildanalysesequenzen großenteils interaktiv zusammengestellt werden.

Ein idealer Zustand ist, daß für jedes der zu verarbeitenden Bilder ein Bilddeutungsprozeß automatisch festegelegt wird. Zusätzlich unterstützen herkömmliche Systeme Wissen über Bildinhalte und Bildarchivierung nicht oder nur in einer sehr rudimentären Form.

Zur Beseitigung der Mängel müssen Anforderungen erfüllt werden

Basierend auf den bisher durchgeführten Untersuchungen und Diskussionen werden jetzt die Anforderungen aufgestellt werden, die an eine flexible und, bezogen auf die Komplexität der zu lösenden Aufgaben, leistungsfähige Bilddeutung zu richten sind.


...nächster Abschnitt...

Diese Beschreibung entspricht dem Kapitel 2 vom Cyclops-Buch "Wissensbasierte Analyse Medizinischer Bilder", ab Januar 1997 im INFIX-Verlag erhältlich.