Szenario I: Unterstützung bei der Diagnose in der Radiologie
In einer radiologischen Klinik werden alle Patientendaten in digitalen Speichermedien verwaltet. Dies gilt sowohl für Bilder aus verschiedenen bildgebenden Verfahren, wie auch für die Patientenkartei, Anamneseprotokolle und Überweisungsdaten.
Der untersuchende Radiologe/Neurologe verfügt über einen Bildschirmarbeitsplatz, an dem nicht nur die Bilder der aktuellen Untersuchung betrachtet werden können, sondern auch die Patientendaten und alle andere, ältere Bilder aus dem Patientenarchiv.
Anstatt sich der zum Teil sehr mechanischen und nach einer gewissen Zeit fehleranfälligen Aufgabe zu widmen, lange Serien von Schnittbildern zu betrachten und sie eventuell mit älteren zu vergleichen, beauftragt der Arzt ein Bilddeutungssystem mit einer Voruntersuchung der Bilder, die Hinweise auf mögliche Läsionen oder andere pathologische Gebilde deuten könnten. Dafür führt das Bilddeutungssystem eine gezielte Suche nach Veränderungen aus, die aufgrund von früheren Befunden, Symptome und Anamnese des Patienten und Überweisungsdaten wahrscheinlich sein können. Um dies zu vollbringen, verfügt das Bilddeutungssystem über eine medizinische Wissensbasis, die die notwendigen Informationen über Anatomie, Funktionalität, Pathologie und Wechselbeziehungen zwischen Funktionalität, Symptomen und Pathologien enthält. Das System kann Hypothesen über mögliche Veränderungen bilden und gezielt nach diesen in den Bildern suchen, die für die Erkennung dieser Veränderungen in Frage kommen. Der Arzt hat die Möglichkeit, diese Hypothesen zu überprüfen und zu ergänzen oder auch selbst Pathologien einzugeben, nach denen gesucht werden soll bzw. bestimmte Untersuchungen anzufordern, wie z.B. "Entwicklung der Vergrößerung der Hirnkammern in den letzten 5 Jahren".
Der Benutzer erhält dann eine Liste von Befundhinweisen, die er manuell weiteruntersuchen oder ablehnen kann. Zusätzlich kann der Arzt eine Serie von Untersuchungen durchführen lassen, die bisher nur mühsam manuell durchgeführt werden, wie in den obigen Beispiel mit der Untersuchung der Entwicklung des Volumens der Hirnkammern, oder gar nicht möglich waren, wie der Vergleich von Kontrastanreichungskurven bei 4-dimensionalen kontrastmittelangereicherten MRI-Mammographien.
Szenario II: Inhaltsbasierte Suche in Bilddatenbanken
Eine Werbeagentur besitzt eine große Bilddatenbank, in der ihr eigenes Bildmaterial gespeichert ist, das für Werbekampagnen verwendet wird. Die Bilder werden mitsamt technischer Daten gespeichert, wie z.B. ob es sich um ein farbiges oder Schwarzweißbild handelt, ob Photo oder Gemälde, etc. Zusätzlich werden noch einige inhaltliche Informationen mit dem Bild abgespeichert, aus einem Titel, einem Thema oder einer Kurzbeschreibung bestehend.
Für eine neue Werbekampagne werden Bilder gesucht, die bestimmten Kriterien entsprechen, wie z.B. "Strandszene mit Palmen bei Sonnenuntergang" oder "Alte Zahnpastawerbungen, auf denen die Zahnpastatube erscheint". Eine inhaltsbasierte Bilddatenbankensuche soll alle Bilder liefern, für die Hinweise existieren, daß sie die Suchkriterien erfüllen könnten. Selbstverständlich könnte eine wissensbasierte Suche über die technischen Bilddaten und die Titel der Bilder den Suchraum enorm einschränken und eine einfache Lösung für dieses Problem darstellen. Viel vorteilhafter wäre es dennoch, wenn die aus solch einer Suche resultierenden Bilder zusätzlich auf einfache inhaltliche Merkmale untersucht werden könnten. Dafür ist Wissen darüber notwendig, was die entscheidenden Merkmale der gesuchten Objekte sind und welche Bilddeutungsvorgänge notwendig sind, um Hinweise auf diese in einem Bild zu finden. Solch ein "Autodeskriptierendes Recherchesystem" [Wank95] kann zu einer besseren Verwertung von in sehr großen Umfang gespeichertem Bildmaterial eingesetzt werden.
Szenario III: Unterstützung bei der Kartographie
Für ein noch nicht oder nur sehr schlecht kartographiertes Gebiet, sollen neue Landkarten erstellt werden. Dafür stehen Satellitenaufnahmen zur Verfügung.
Ein wissensbasiertes System soll nun "Landmarks" identifizieren und deren genaue Position berechnen. Dieses System verwendet für die Untersuchung der Aufnahmen auf Straßen, Dörfer und Flüsse die jeweils optimalen Verfahren und Parametern. Für das Erkennen von Straßen werden beispielsweise die jeweils besten "Road Detection Filters" [Haindl93] angewandt. Das Vorwissen, das zum Teil aus Rezensionsdaten stammen kann, z.B. daß in dem abgebildeten Gebiet bestimmte Straßen, Felder und Dörfer gefunden werden müssen, trägt dazu bei, das bei negativen Ergebnissen mit einer bestimmten Bilddeutungsmethodenzusammensetzung und -parametrierung, dies zu einer Neuauswahl von Verfahren oder Parameter führen kann, die fehlende Elemente identifizieren.
Die Machbarkeit dieser Szenarien
Wieviel von diesen, eher utopisch erscheinenden Anwendungsszenarien mit dem heutigen Stand der Technik in der Bilddeutung zu realisieren ist und wie diese Arbeit ein Beitrag dazu leisten kann, ist ein Thema, das wir in den folgenden Kapiteln behandeln werden.
Ein Beispiel für ein allgemein einsetzbares, kompetentes Bilddeutungssystem ist die menschliche visuelle Wahrnehmung. Sie ist nicht nur konzeptionell ästhetisch, da sie auf einem homogenen Systemmodell basiert, nämlich dem biologischen neuronalen Netzwerk, sondern auch extrem leistungsfähig, wie wir es alle aus unserer persönlichen Erfahrung als Sehende kennen. Die maschinelle Bilddeutung ist der Versuch diese Kompetenz nachzuahmen. Der aktuelle Stand der Technik und des neurobiologischen Wissens setzt einem einfachen Nachbilden des menschlichen visuellen Systems in der Form von künstlichen neuronalen Netzwerken starke technische Einschränkungen. Aus diesem Grund versucht man dies zu umgehen, indem auf spezielle Aufgaben und auf herkömmliche Computer angepaßte Bilddeutungsmethoden entwickelt werden. Die Kompetenz solcher Methoden ist sehr stark auf ihr Aufgabengebiet beschränkt und sehr parameterabhängig und fehleranfällig. Dies schränkt die Komplexität der Aufgaben ein, die mit solchen Methoden zuverlässig gelöst werden können. Das Lösen von komplexeren Bilddeutungsaufgaben ist jedoch in Gebieten wie die Unterstützung der medizinischen Diagnostik wünschenswert. Nichts deutet darauf hin, das in der näheren Zukunft solche kompetente "Wahrnehmungsmethoden" entwickelt werden können und somit die Einschränkungen der herkömmlichen Bilddeutungsmethoden beseitigt werden. Eine Strategie zur Umgehung dieses Problems, ist Wissen einzusetzen, um der Beschränktheit, Parameterempfindlichkeit und Unzuverlässigkeit der existierenden Bilddeutungsmethoden entgegenzukommen, so daß für ein Tupel, bestehend aus einem zu untersuchenden Bild und einer Untersuchungsaufgabe die bestmögliche Bilddeutungsmethodenszusammensetzung und die optimale Parameterauswahl verwendet werden. Zusätzlich sollen noch Fehlergebnisse so früh wie möglich erkannt werden, indem auf Wissen über mögliche bzw. erwartete Bildinhalte basierende Plausibilitätstests durchgeführt werden. Solch eine Strategie wird auch wissensbasierte Bilddeutung genannt.
In dieser Arbeit wird a) ein Modell, das Cyclops-Modell, eingeführt, das es erlaubt, einige der oben erwähnten Kompetenzeinschränkungen der herkömmlichen Bilddeutung zu umgehen, b) die Umsetzung dieses Modells in ein Softwarewerkzeug, das Cyclops-System, beschrieben und c) gezeigt, wie dieses Softwarewerkzeug für die Erstellung einer Applikation verwendet werden kann.
In den nächsten Abschnitten werden die Grundlagen gesetzt, die als Ausgangsbasis zur Erstellung dieses Modells dienen. Dazu werden die Mängel der herkömmlichen Bilddeutungsmethoden explizit dargestellt. Darauf aufbauend werden die Anforderungen zur Beseitigung dieser Mängel festgelegt. Diese Anforderungen werden dann als Leitfaden zur Beschreibung des Cyclops-Modells verwendet. Für die weitere Beschreibung werden zunächst einige Begriffe informell eingeführt.
Der Begriff Bild hat ein sehr breites Spektrum von Bedeutungen. In dieser Arbeit werden wir aufgrund des gegebenen Kontextes unter "Bilder" digitale Pixelbilder verstehen. Zunächst soll der Begriff "Bild" für die Zwecke dieser Arbeit abgegrenzt werden:
Begriffsbestimmung I : Ein Bild ist eine in digitaler Form gespeicherte zwei- drei- oder vierdimensionale Matrix, die durch ein bildgebendes Verfahren generiert wurde.
Die einzelnen Bildelemente eines Bildes werden bei zweidimensionalen Bildern Pixel genannt, bei dreidimensionalen Voxel.
Wir können "digitale (Pixel-) Bilder als mathematische Objekte", zunächst für den zweidimensionalen Fall, wie folgt definieren:
Definition I: 2D-Bilder als mathematische Objekte:
Drei- und vierdimensionale Bilder können nach dem gleichen Schema dargestellt werden.
Mit Hilfe dieses Konzeptes können wir die Bilddeutung folgendermaßen definieren:
Definition II: Ein Objekt in einem Bild, auch Bildobjekt genannt, ist eine Menge von Bildelementen, die aufgrund ihrer Charakteristika und verschiedener, bild- und anwendungsdomänenabhängigen Kriterien eine strukturierte Entität in dieser Domäne darstellen.
Definition III: Semantikfunktion S ist eine Abbildung, die jedem Objekt oi in einem Bild b ein Symbol sj aus einer gegeben Bildbeschreibungssprache L zuordnet. Die Elemente der Menge L werden "sprachlicher Ausdruck" genannt. Ein Beispiel für eine mögliche Bildbeschreibungssprache ist die Prädikatenlogik. Eine Semantikfunktion S ist gegeben durch:
i. Die Auszeichnung von gewissen Mengen von Bildelementen, die Bildobjekte.
ii. Eine Funktion:
S wird die eigentliche Semantikfunktion genannt; der Wert S(o) eines Bildobjektes o wird die Bedeutung genannt.
Definition IV: Eine Bedeutung eines Bildes b ist gegeben durch:
i. Eine Partition von b in Objekten
ii. Eine Synthesefunktion
Kommentar: Die Bedeutung eines Bildes berechnet sich aus der Zerlegung dieses Bildes in Objekten sowie aus den Bedeutungen, die diesen Objekten oi zugewiesen werden. Weil ein Bild u.U. auf mehrfache Weise zerlegt werden kann, muß die Bedeutung nicht eindeutig bestimmt sein. Falls b keine solche Partition zuläßt, ist b bedeutungslos. Die Problematik der Erstellung einer Bedeutung liegt einerseits darin, eine gegebene Partition überhaupt aufzufinden und andererseits darin, mehrdeutigkeit durch geeignete Einschränkungen aufzulösen.
Definition V: Bilddeutung ist der Prozeß der Zuweisung von Semantik, d.h. Bedeutungsinhalt, zu Objekten in Bildern, d.h. Bilddeutung ist die Erstellung einer Semantikfunktion.
Thema dieser Arbeit ist die maschinell durchgeführte Bilddeutung. Im folgendem wird unter dem Begriff Bilddeutung die maschinelle Bilddeutung verstanden.
Um den Begriff der Bilddeutung von dem der Bildverarbeitung abzugrenzen, möchten wir letztere hier zusätzlich definieren:
Definition VI: Bildverarbeitung: Ist B die Menge aller Bilder, so ist die Bildverarbeitung die Transformation von existierenden Bildern in neue Bilder, ohne daß eine Beschreibung der Bedeutungsinhalte dieser Bilder erzielt wird:
Begriffsbestimmung II : Eine Bildverarbeitungsfunktion ist ein Algorithmus bzw. eine mathematische Methode, die eine Transformation eines Bildes durchführt. Sie ist zunächst bedeutungslos, kann jedoch dazu verwendet werden, um durch sukzessive gezielte Transformationen eines Bildes die Bedeutung dieses Bildes zu erstellen. Die Erstellung einer Bedeutung eines Bildes geht i.a. schrittweise. Sie verwendet u.a. eine Vielzahl von Bildverarbeitungsmethoden, die auf unterschiedlichen Abstraktionsniveaus betrachtet werden.
Diejenigen Verarbeitungsmethoden, die für die Erstellung der Bedeutung benutzt werden bzw. benutzt werden können, nennen wir auch Bilddeutungsmethoden.
Der aktuelle Stand der Technik im Bereich der Bilddeutung ist, daß die Verarbeitung eines digitalisierten Bildes mit dem Ziel, automatisch die darin enthaltene Objekte zu erkennen, in verschiedenen Etappen von immer höher werdender Abstraktion erfolgt. Um dies zu erreichen, wird für jedes Bild eine Zusammensetzung verschiedenster Bilddeutungsmethoden angewandt, von Kontrastverschärfungsverfahren bis hin zur Klassifikation von Objekten:
Begriffsbestimmung III : Eine Bilddeutungsmethode ist eine mathematische Methode bzw. ein Algorithmus, der in dem Prozeß der Bilddeutung eine klar definierte Aufgabe durchführt.
Ein VDRF-Kantendetektor oder ein Canny-Filter sind Beispiele von Bilddeutungsmethoden.
Begriffsbestimmung IV : Parameter einer Bilddeutungsmethode sind alle die Daten, die für die Ausführung dieses Algorithmus notwendig sind, die aber nicht aus den zu verarbeitenden Bild oder Bilder entstammen. In der Regel sind Bilddeutungsmethodenparameter numerische Werte.
Begriffsbestimmung V : Bilddeutungsoperation ist ein Schritt oder eine abstrakte Sicht über eine Menge oder Folge von Schritten einer oder mehreren Bilddeutungsmethoden. Die elementaren Operationen heißen auch atomar. Diese Operationen werden auf ein Bild mit dem Ziel der Deutung dieses Bildes angewendet und werden eine Transformation des Bildes hervorrufen. Diese Transformation kann ein oder mehrere neue Bilder oder in einer anderen Form dargestellter Information als Resultat hervorbringen.
Atomare Bilddeutungsoperationen repräsentieren Bilddeutungsmethoden.
Diese Bilddeutungsmethoden wurden [Marr82] gemäß der Aufgabe, die sie lösen, in fünf großen Gruppen eingeteilt, nämlich Conditioning, Labelling, Grouping, Extracting und Matching. Für die Verarbeitung eines Bildes ist in der Regel mindestens ein Verfahren aus jeder dieser Gruppen notwendig. Die Eignung eines bestimmten Verfahrens, eine Aufgabe durchzuführen, hängt von der Natur des zu verarbeitenden Bildes ab, wie z.B. Computertomographie oder Kernspintomographie eines Kopfes, Tomographie einer Leber, Röntgenaufnahme oder Ultraschallaufnahme, und von der Zielsetzung, die für die Untersuchung festgelegt wurde. Beispiele für Zielsetzungen sind: "alle Kanten mit bestimmten Eigenschaften in einem Bild finden und sie mit dem Graphen eines Straßennetzes vergleichen" oder "alle Flächen gewisser Helligkeit finden und sie gemäß ihrer Textur in Gruppen klassifizieren". Die Zielsetzungen hängen stark von der Anwendungsdomäne des Bilddeutungssystems ab:
Begriffsbestimmung VI : Als Anwendungsdomäne eines Bilddeutungssystems wird der Arbeitsbereich bezeichnet, in dem das System eingesetzt wird, wie z.B. "Auswertung von Aufnahmen des menschlichen Kopfes auf Tumorverdacht" im medizinischen Bereich oder "Überprüfung von Aufnahmen von Maschinenteilen der Klassen {x,y,z} nach Fehlern des Typs {a,b,c}" in einer Fertigungsanlage.
Ein in einer Anwendungsdomäne angesiedeltes System ist in der Regel nur auf Bilder anwendbar, die aus der Bilddomäne entstammen, für die es konzipiert wurde:
Begriffsbestimmung VII : Die Bilddomäne eines Bilddeutungssystems ist sein Definitionsbereich, also die Menge von Bildklassen, auf die dieses System anwendbar ist. So sind unter anderem "Röntgen-Mammographien", "Alle Typen von Kernspintomographieaufnahmen" oder "nach Ki67 gefärbte Hirngewebeproben im PCX-Format" verschiedene Bilddomänen.
Die Bilddeutung kann, wie im vorigen Abschnitt schon angedeutet wurde, in zwei Klassen eingeteilt werden: a) einfache automatisierte Bilderkennung und b) wissensbasierte Bilddeutung. Wir werden beide kurz informell definieren:
Begriffsbestimmung VIII : Die einfache automatisierte Bilddeutung ist die Form der Bilddeutung in der eine sehr restrikte Klasse von Bildern untersucht wird und in der starr vorgegebene algorithmische Vorgehensweisen für die Bilddeutung verantwortlich sind. Für die Deutung eines Bildes entstammt hier die ganze Information, die dafür notwendig ist, entweder aus dem zu untersuchenden Bild selbst oder sie ist implizit in den Bilddeutungsalgorithmen enthalten.
Solche Art von Bilddeutung findet hauptsächlich dort Anwendung, wo nur sehr wenig Variation zwischen verschiedenen, zu untersuchenden Bildern zu erwarten ist, die Parameter, die die bildgebenden Verfahren beeinflussen (wie Beleuchtung, etc) kontrollierbar sind und sehr starke Zeiteinschränkungen gegeben sind. Solche Bedingungen finden wir unter anderem in der Qualitätskontrolle.
Begriffsbestimmung IX : Wissensbasierte Bilddeutung ist die Form der Bilddeutung in der Wissen in den Prozeß der Deutung eines Bildes miteinbezogen wird. Dieses Wissen kann einerseits aus Wissen über die einzelnen verfügbaren Bilddeutungsmethoden und deren Kombinations- und Parametrierungsmöglichkeiten bestehen und Wissen über gegenseitige Abhängigkeiten zwischen Verfahren, Parameter, Bildtypen und Bildcharakteristika sein. Andererseits kann es auch Wissen über mögliche Bildinhalte, deren Attribute und Struktur, und über die Abhängigkeiten zwischen zu suchenden Objekten in Bildern und die dazu ausgewählten Verfahren, darstellen.
Auf die Unterscheidung zwischen den beiden in der obigen Begriffsbestimmung erwähnten Kategorien von Wissen wird später weiter eingegangen werden. Zunächst ist es ausreichend, diese intuitive Differenzierung für die folgende Diskussion zu berücksichtigen.
Die auf eine Bildklasse eingeschränkte Kompetenz der einzelnen herkömmlichen Bilddeutungsmethoden wurde im vorangegangenen Abschnitt erwähnt. Um von der Kompetenz eines Verfahrens sprechen zu können, müssen wir diese Kompetenz in Bezug zu einer Klasse von Bildern setzen, auf die dieses Verfahren mit einem bestimmten Maß an Zuverlässigkeit anwendbar ist. Der Begriff einer Bildklasse scheint zunächst intuitiv klar zu sein, bedarf aber näherer Untersuchung: Zu einer Bildklasse können alle Bilder gehören, die nach einem oder mehreren Kriterien als zusammengehörend oder ähnlich bezeichnet werden. Die Entstehung einer Bildklasse kann von der Natur der Bilder aus bedingt sein: "alle Kernspintomographieaufnahmen, kann aber auch zweckbedingt sein: "alle Bilder, auf die der VDRF-Kantendetektor anwendbar ist. In der Regel werden wir aber Klassen bilden wollen, die aus einer Zusammensetzung verschiedener Kriterien entstehen: "alle Kernspintomographien des Kopfes, die sich mit einem region-growing-Verfahren segmentieren lassen". Hierbei könnte es sich z.B. um alle MRI-Aufnahmen des Kopfes mit Echozeit > 50 ms handeln.
Die Bildung von Bildklassen ist ein zum Teil empirischer und zweckbedingter Prozeß. Wichtig ist hier, daß die gebildeten Klassen operationell nützlich sind, d.h., daß die gebildeten Klassen das Operieren mit dem in einer Anwendungsdomäne vorhandenen Bildern vereinfachen. Mehrere Bildklassen können sich auch überschneiden. Ein wissensbasiertes Bilddeutungssystem sollte in der Lage sein, eine Modellierung der in einer Anwendungsdomäne entstehenden Bildklassen zu berücksichtigen und diese in Beziehung zu der Kompetenz der einzelnen Bilddeutungsmethoden zu setzen:
Begriffsbestimmung X : Die Kompetenz einer Bilddeutungsmethode bezüglich einer Bildklasse, ist ein Maß an Zuverlässigkeit, mit der diese Methode die Aufgabe für die sie konzipiert wurde, mit Bildern aus dieser Bildklasse ausführen kann. Da die Kompetenz einer Methode mit sehr unterschiedlichen Bildern stark variiert, kann diese nur in Bezug auf eine bestimmte Menge von Bildern, d.h., eine Bildklasse geäußert werden.
Die Kompetenz einer Bilddeutungsmethode kann für eine Bildklasse entweder mathematisch modelliert werden, wenn die Zusammenhänge zwischen den Eigenschaften dieser Bildklasse und der Bilddeutungsmethode bekannt und modellierbar sind, oder experimentell festgestellt werden.
Wir werden in Abschnitt 2.1.2.2.1 eine Liste der entscheidenden Probleme beschreiben, die aufgrund der Mängel herkömmlicher Bilddeutungsmethoden entstehen.
In Abschnitt 2.1.2.2.2 werden herkömmliche Bilddeutungssysteme, die in einer wissensbasierten Umgebung Verwendung finden, in einer allgemeinen Form diskutiert.
Die Beschreibung der Probleme herkömmlicher Bilddeutungsmethoden werden wir verwenden, um in Abschnitt 2.2 die Anforderungen an ein System herzuleiten, das in der Lage sein sollte, diese entweder zu lösen oder zu umgehen.
Die Probleme, hervorgerufen durch die Mängel der Bilddeutungsmethoden, die zu den Kompetenzeinschränkungen herkömmlicher Bilddeutungssysteme führen, sind:
P. 1 Teilaufgabenbeschränktheit: Die Anwendbarkeit einzelner Bilddeutungsmethoden ist auf die Lösung von Teilaufgaben bei der Deutung eines Bildes beschränkt. Es ist keine herkömmliche Methode oder Verfahren bekannt, das in der Lage ist, eine komplette komplexe Bilddeutung durchzuführen. Für die Deutung eines Bildes ist immer eine Zusammensetzung von Verfahren nötig, indem jedes Verfahren eine Teilaufgabe löst. Zusätzlich kann keine solche Zusammensetzung als allgemein für alle Bildklassen betrachtet werden. So werden für die Aufgabe der Segmentierung bei bestimmten Bildklassen und Untersuchungsaufgaben auch unterschiedliche Kantendetektoren verwendet, für andere keine Kantendetektoren, sondern region-growing Segmentierungsverfahren.
P. 2 Untersuchungsaufgabenbeschränktheit: Bilddeutungsalgorithmen sind sehr empfindlich gegenüber den Charakteristika der Objekte oder Merkmale, die in einem Bild gesucht werden. Dies ist auch der Fall wenn solche Algorithmen zu derselben Klasse gehören und für die Lösung der gleichen Teilaufgaben geeignet sind. So sind z.B. Mumford-Shah region-growing Segmentierungsverfahren eher dazu geeignet Regionen zu segmentieren, die dazu tendieren, rundlich zu sein, watershed-region-growing Segmentierungsverfahren dahingegen eher gezackte Regionen korrekt heraussegmentieren. Watershed-region-growing Segmentierungsverfahren besitzen andererseits die Eigenschaft, große, relativ homogene Regionen, bei denen die Helligkeit sich aber konstant von einem Ende zum anderen ändert, in einzelne Teile zu zerlegen.
Begriffsbestimmung XI : Als zu einer Klasse von Bilddeutungsmethoden gehörend werden alle die Bilddeutungsmethoden betrachtet, denen a) zu der jeweils ausgeführten Aufgabe die gleiche Semantik zugewiesen werden kann und b) denen verwandte mathematische Prinzipien oder vergleichbare algorithmische Vorgehensweisen zugrundeliegen.
Hier ist ebenfalls die Grenze, wann zwei Methoden in dieselbe Klasse gehören und wann sie unterschiedlich zu klassifizieren sind, auch eher zweckbedingt orientiert als daß mathematisch vorgegebene Trennlinien existieren. So können der Mumford-Shah region-growing-Segmentierungsalgorithmus und die verschiedenen watershed-region-growing Segmentierungsalgorithmen zu einer Klasse der Gebietswachstumssegmentierungsverfahren zusammengefaßt werden, obwohl die denen zugrundeliegenden mathematischen Prinzipien sich voneinander unterscheiden.
P. 3 Bildklassenbeschränktheit: Die Anwendbarkeit einer Bilddeutungsmethode ist in vielen Fällen sehr stark auf eine Klasse von Bildern beschränkt. Ändert sich die Klassenzugehörigkeit des Bildes, das verarbeitet wird, so muß u.U. das Verfahren gegen ein anderes mit gleicher Semantik, d.h. Funktion, ausgetauscht werden.
P. 4 Parameterabhängigkeit bezüglich einer Bildklasse: Wird eine Methode, die für eine Bildklasse gute Ergebnisse mit einer relativ stabilen Parametersetzung liefert, auf eine andere Bildklasse angewandt, für die sie von ihrer generellen Anwendungsmöglichkeit auch geeignet ist, so müssen in vielen Fällen sehr unterschiedliche Parametereinstellungen verwendet werden.
P. 5 Parameterempfindlichkeit: Auch innerhalb eine Bildklasse können sehr kleine Parameteränderungen zu sehr unterschiedlichen Ergebnissen führen (s. Abbildung 2.1). So kann ein Kantendetektor, der für eine bestimmte Bildklasse kompetent ist, für die meisten Bilder dieser Klasse sehr gute Ergebnisse mit einer bestimmten Parametereinstellung liefern, jedoch aber sehr fehlerbehaftete Ergebnisse bei einigen wenigen Bildern hervorbringen. Eine minimale Parameteränderung kann zur Verbesserung der Ergebnisse bei diesen wenigen Bildern führen, jedoch für die Übrigen unbrauchbar sein.
ABB.2.1. Parameterempfindlichkeit: Segmentierungen mit diversen Parametern mit dem Mumford-Shah-Algorithmus
P. 6 Fehleranfälligkeit: Die Fehleranfälligkeit herkömmlicher Bilddeutungsmethoden läßt sich nicht nur durch die Parameterabhängigkeit und die Parameterempfindlichkeit begründen. Auch wenn die Parameter mit denen übereinstimmen, die für das zu verarbeitende Bild optimal sind, können immer noch Fehlergebnisse generiert werden. Es ist durchaus möglich, daß Bildbeispiele einer Klasse existieren, für die sich keine Parametersetzungen einer als kompetent betrachteten Bilddeutungsmethode und auch keine andere ähnliche Bilddeutungsmethode finden lassen, die korrekte Ergebnisse hervorbringen. Dies kann auch vorkommen, wenn für die übrigen Bilder dieser Klasse stabile Parameter bekannt sind.
ABB.2.2. Beispiel für die Fehleranfälligkeit: eine falsche Segmentierung einer transversalen T1-Kernspintomographieaufnahme des menschlichen Kopfes. In a ist die Aufnahme zu sehen, in b die entstandene Segmentierung.
Ein Beispiel für die Fehleranfälligkeit ist in der Segmentierung von T1-Kernspintomographieaufnahmen des menschlichen Kopfes zu finden (siehe Abbildung 2.2). Einige dieser Aufnahmen enthalten durch die Aufnahmemethode bedingte Helligkeitsschwankungen. Die meisten dieser Bilder lassen sich trotzdem noch relativ einfach und korrekt mit einem region-growing Segmentierungsverfahren zerlegen, bei einigen wenigen aber, konnte bisher keine Parametersetzung und kein Verfahren gefunden werden, das diese korrekt segmentiert.
P. 7 Performanceschwankungen: Bei Bildern aus unterschiedlichen Klassen oder Bildern derselben Klasse, die aber mit unterschiedlichen Merkmalen versehen sind, können die Rechenzeitcharakteristika einer Bilddeutungsmethode in der Ausführung derselben Aufgabe sehr stark variieren. Bei einigen Bildern können sie sehr schnell sein, bei anderen sehr langsam. Dies kann auch beobachtet werden, wenn mehrere Implementierungen derselben Methode zur Verfügung stehen.
Ein Beispiel in dem Performanceschwankungen zwischen verschiedene Implementierungen desselben Verfahrens vorkommen, kann in Abbildung 2.3 gesehen werden. Die in b und d dargestellten Ergebnisse können mit zwei verschiedenen Implementierungen des Mumford-Shah region-growing-Verfahrens erzielt werden. Eine Implementierung wurde speziell für hohe Performance entwickelt [Klaus95] und erzielt für das obere Holzknotenbild a und die meisten anderen Bildern, auf die sie angewendet wird, ein viel besseres Rechenzeitverhalten als eine andere, weit verbreitete Implementierung [From90]. Für die in c dargestellte und andere MRI-Aufnahmen ist das Rechenzeitverhalten dieser Implementierung aber wesentlich schlechter als das der zweitgenannten Implementierung.
Ein Ansatz der verfolgt wurde, um mit herkömmlichen Bilddeutungsverfahren gute Resultate bei einem breiten Spektrum von Aufgabestellungen trotz der oben genannten Problemen zu erzielen, ist die Modellierung und Verwendung des Wissens über die Beziehungen zwischen den oben zitierten Problemen, Bildklassen und die einzelnen Bilddeutungsmethoden in einem wissensbasierten Bilddeutungssystem zu verwenden.
Einige Ansätze zur wissensbasierten Bilddeutung wurden bereits entwickelt. Wie schon erwähnt, sollten die Aufgaben eines wissensbasierten Bilddeutungssystems die Auswahl, Parametrierung und Steuerung der einzelnen Bildverarbeitungsverfahren sein. Hinzu kommt die Aufgabe der Verwaltung des Wissens über Bildinhalte, das für die Bilddeutung benötigt wird. Herkömmliche wissensbasierte Systeme zur Bilddeutung wie XRAY [CuEtAl87], FIGURE [Messer92] und VIDIMUS-IAM [Greb94] erfüllen diese Aufgaben nur sehr beschränkt bzw. betrachten ihre Aufgabe nur als die wissensbasierte Erstellung von Systemen, die in der späteren Anwendungsphase unabhängig von einer wissensbasierten Komponente angewandt werden. Andere Ansätze besitzen mächtige Möglichkeiten, Vorwissen aus einer Bilddomäne in den Bilddeutungsprozeß zu verwenden, wurden aber speziell für den Einsatz in einer spezifischen Anwendungsdomäne entwickelt [Stein94] und können nur sehr eingeschränkt verallgemeinert werden.
Die Zusammensetzung der Bilddeutungssoftware wurde in herkömmlichen Systemen in der Regel für allgemeine Bildklassen fest vorgegeben und nicht den einzelnen Bildern dynamisch angepaßt. Wenn die Möglichkeit einer feineren Anpassung vorhanden ist, müssen in herkömmlichen Systemen die Bildanalysesequenzen großenteils interaktiv zusammengestellt werden.
Ein idealer Zustand ist, daß für jedes der zu verarbeitenden Bilder ein Bilddeutungsprozeß automatisch festegelegt wird. Zusätzlich unterstützen herkömmliche Systeme Wissen über Bildinhalte und Bildarchivierung nicht oder nur in einer sehr rudimentären Form.
Zur Beseitigung der Mängel müssen Anforderungen erfüllt werden
Basierend auf den bisher durchgeführten Untersuchungen und Diskussionen werden jetzt die Anforderungen aufgestellt werden, die an eine flexible und, bezogen auf die Komplexität der zu lösenden Aufgaben, leistungsfähige Bilddeutung zu richten sind.
Diese Beschreibung entspricht dem Kapitel 2 vom Cyclops-Buch "Wissensbasierte Analyse Medizinischer Bilder", ab Januar 1997 im INFIX-Verlag erhältlich.