2.3 Ein allgemeiner Lösungsansatz

In der Problembeschreibung wurde festgestellt, daß keine herkömmliche Bilddeutungsmethode und auch keine festvorgegebene Zusammensetzung von Bilddeutungsmethoden für die Lösung von einem breiten Spektrum von komplexen Bilddeutungsaufgaben kompetent ist.

Die Lösung des Problem der wissensbasierten Bilddeutung bildet ein Integrationsansatz, in dem subsymbolische Methoden, seien es Methoden numerischer oder neuronaler Natur, von einem darüberliegendem System gesteuert werden. Ein auf diesem Ansatz basierendes System führt die schrittweise Deutung eines Bildes aus, indem es für die jeweils bevorstehende Bilddeutungsoperation die am geeignetsten erscheinende Methode auswählt, sie dann mit den geeignetsten Parametern ausführt und die Ergebnisse der ausgeführten Operatoren zu geeigneten Zeitpunkten überprüft und eventuell korrigiert. Diesen allgemeinen Integrationsansatz nennen wir abstrakte Bilddeutungsmaschine. In den nächsten Abschnitten wird er beschrieben werden.

2.3.1 Subsymbolische und symbolische Prozesse alternieren

Der obige Lösungsansatz wird als ein Ansatz zur Integration von symbolischen und subsymbolischen Methoden betrachtet, indem subsymbolische und symbolische Prozesse während der Lösung einer Aufgabe alternieren. Charakteristika von einem solchen Ansatz sind:

Die Organisation dieses Ansatzes wird durch ein formales Modell vorgegeben.
Umwandlung der Ausgaben subsymbolischer Prozesse in symbolischen Daten. Einigen Ergebnissen von subsymbolischen Methoden können semantische Bedeutungen zugewiesen werden.
Korrekte Auswahl der geeigneten subsymbolischen Prozesse von der symbolischen Ebene aus.

Diese Struktur charakterisiert Anwendungsbereiche, die nicht nur auf die Bilddeutung eingeschränkt werden müssen. Zwei Ansätze zur Lösung solcher Integrationsaufgaben sind bisher verfolgt worden:

1. Homogene Ansätze, in denen Lösungen gesucht werden, die auf einem einzigen Paradigma beruhen. Ein Beispiel dafür sind die auf neuronalen Netzen basierenden Modelle [Roman91] [Towell91] [TowSha92] [Weize91], die, obwohl nicht immer direkt auf die Bilddeutung angewandt, Objekt intensiver Untersuchung in den letzten Jahren gewesen sind. Extrem attraktiv vom theoretischen Gesichtspunkt durch ihre Eleganz, besitzen sie den Nachteil, daß sie sich in einem Entwicklungsstadium befinden, das sie ungeeignet für komplexere Anwendungen macht, die mit der Verwendung von großen Mengen an Wissen arbeiten müssen. Zusätzlich befinden sich die auf neuronalen Netzen basierende Bilddeutungsmethoden in einem Entwicklungsstadium das ungeeignet ist, um sie als einzige Bilddeutungsmethoden zu verwenden.

2. Hybride Systeme, in denen unterschiedliche Aufgaben und unterschiedliche Abstraktionsebenen in der Verarbeitung in getrennter und modularer Weise gesehen werden. In jedem Modul werden ausgereifte und getestete Techniken für die Durchführung von klar definierten Aufgaben verwendet. Die Expertensysteme der "2. Generation" sind ein Beispiel für die Anwendung dieses Ansatzes.

Letzterer wird in dieser Arbeit in Betrachtung gezogen. Verschiedene Konzepte und Architekturen für die "Technikenmischung" der hybriden Systeme, von verteilter KI (Blackboards, etc.) bis zu "festverdrahteten" Systemen wurden bisher entwickelt.

Die Verwendung von Systemen, die Techniken "festverdrahtet" kombinieren, besitzt den Nachteil der Generierung von Insellösungen, die stark einsatzdomänenabhängig sind. Charakteristika wie Wiederverwendbarkeit oder Erweiterbarkeit sind nicht gegeben. Das andere Extrem, wie bei Blackboard-Systemen, die große Flexibilität aufweisen, hat den Nachteil, daß das komplexe Verhalten des Systems, z.B. bei Aufgaben wie die Interpretierung eines Bildes, nur sehr eingeschränkt nützlich ist. Den "mittleren Weg" bilden Konfigurationsansätze. Dies ist, der Ansatz, den wir hier verfolgen. In den nächsten Abschnitten werden wir aus den Anforderungen heraus ein Systemmodell definieren.

Ein hybrider Ansatz erlaubt es, eine sehr einfache und klare Trennung zwischen den verschiedenen Abstraktionsebenen zu bilden, die in der Bilddeutung in einem solchen Ansatz vorkommen. Wir möchten zunächst diese Ebenen kurz beschreiben und die darausfolgende Strukturierung als ein allgemeines Modell des Bilddeutens darstellen.

2.3.2 Ein allgemeines Modell des Bilddeutens

Unabhängig davon, wie das Problem der wissensbasierten Bilddeutung angegangen wird, ob mit einem Blackboard-Ansatz, konfigurationsbasiert oder regelbasiert, können wir ein allgemeines Modell der wissensbasierten Bilddeutung bilden, bestehend aus den folgenden drei Abstraktionsebenen:

i. Eine abstrakte Ebene, die den wissensbasierten Kontrollmechanismus selbst darstellt.

ii. Eine algorithmische oder funktionale Ebene, die das Wissen über die Lösung der Bilddeutungsaufgaben darstellt, die auch als eine operationelle Beschreibung der zu verwendenden Bilddeutungswerkzeugen betrachtet werden kann.

iii. Eine Implementierungsebene, in der die tatsächlichen Bilddeutungsverfahren sich in der Form von Programmen, Programmbibliotheken oder Hardware befinden.

ABB.2.4. Abstraktionsebenen eines allgemeinen Modells

2.3.2.1 Abstrakte Ebene

In der abstrakten Ebene, ist die Bilddeutung formal modelliert. Die Abstraktionsebene repräsentiert die Kontrollkomponente, die für die schrittweise Ausführung der Bilddeutung zuständig ist. Diese Ebene wird abstrakte Bilddeutungsmaschine genannt. Bei einem idealen System, ist diese Ebene unabhängig von der Anwendungsdomäne und der Bilddomäne.

Abstrakte Bilddeutungsmaschine A:

A verwendet Bilddeutungsoperationen
A greift auf Kontextwissen zu: Wissen über Zusammenhänge zwischen Teilbildern und Bedeutungsinhalten sowie der Charakteristika und Vorgehensweisen von Bilddeutungsmethoden
A arbeitet in Schritten
A arbeitet durch Erzeugen und Verwerfen von Hypothesen.
A ist ein Tupel < M , C ,W ,I , T , V, E>, wobei:
M eine (formale) Beschreibung von Bilddeutungsmethoden ist,
C Bedingungen über Beziehungen zwischen Elementen aus M sind,
W eine (formale) Beschreibung der Bedeutungsinhalte ist,
I ein Inferenzmechanismus für logische Folgerungen ist,
T ein Verwaltungsmechanismus für hypothetische Folgerungen (nicht monotone Logik) ist,
V eine Maschine zur Ausführung der Bilddeutungsoperationen zur Überprüfung einer Hypothese ist und
E ein Mechanismus zur Überprüfung der Ergebnisse der Bilddeutungsoperationen.

Die konkrete Realisierung dieser Abstraktionsebene ist in dieser Arbeit ein Konfigurationsansatz, der mittels Konfigurationsoperatoren auf die Funktionalitäten der unterliegenden Ebene zugreift.

2.3.2.2 Algorithmische oder funktionale Ebene

In der algorithmischen Ebene ist die Funktionalität des zu integrierenden Prozesses dargestellt. Diese wird in der Abbildung exemplarisch durch eine Einteilung des Prozesses der Bilddeutung Schritten von immer höher werdender Abstraktion. Diese Einteilung in 6 Funktionalitäten oder Schritten basiert zum Teil auf David Marr [Marr82]. Reasoning ist eine Erweiterung, die wir einführen und entspricht der wissensbasierten Verarbeitung, die Domänenwissen miteinbezieht.

Jede dieser 6 Funktionalitäten läßt sich in verschiedene Verfahren bzw. Bilddeutungsmethoden einteilen. Ein konsistenter Zusammenhang verschiedener dieser Bilddeutungsmethoden ist zur kompletten Deutung eines Bildes notwendig. Verschiedene Bilddeutungsmethoden sind für verschiedene Aufgaben und Klassen von Bildern geeignet. Einige Bilddeutungsmethoden sind miteinander kompatibel, andere nicht.

Die Beschreibung des Domänenwissens bzw. die Modellierung von domänenwissenmanipulierenden Komponenten wird als zur funktionalen Ebenen gehörend betrachtet. Der Grund dafür ist, daß die darüberliegende Ebene, sollte das Modell als allgemein betrachtet werden, Mechanismen für den Einsatz von Domänenwissen und Domänenwissen verarbeitenden Funktionen vorsehen muß, anwendungsdomänenspezifisches Wissen selbst aber nicht modellieren darf.

Die drei Typen von Beschreibungsstrukturierung von Zwischenergebnissen nach Marr: Primal Sketch, 21/2D-Sketch und 3D-Sketch stehen hier exemplarisch für die Tatsache, daß die Modellierung der Bilder und andere Formen von Eingabedaten und der Zwischenergebnisse auch auf dieser Ebene stattfindet.

2.3.2.3 Implementierungsebene

Die Implementierungsebene enthält die technischen Realisierungen der o.g. Verfahren: Programme, Softwarepakete und Hardwareimplementierungen. Auf dem Markt sind Implementierungen verschiedener Verfahren bzw. Bildverarbeitungspaketen zu finden. Neue, bessere Verfahren, die Teilaufgaben in der Bilddeutung erfüllen, werden ständig entwickelt. Eine abstrakte Sicht auf die Implementierungsebene erlaubt es, diese Bilddeutungsverfahren zu aktualisieren und austauschen, ohne daß die darüberliegende Ebene betroffen ist. Die ErgänzungFunktionalitäten der Implementierungsebene durch neue Verfahren verlangt die Modellierung dieser in der funktionalen Ebene.

2.3.3 Das ideale Bilddeutungssystem

ABB.2.5. Anwendungsumgebung eines idealen Bilddeutungssystems

Wird das im obigen Abschnitt vorgestellte allgemeine Modell des Bilddeutens als Ausgangspunkt für den Entwurf eines Softwaresystemmodells verwendet, sieht eine ideale Anwendungssituation so aus, wie die, die in Abbildung 2.5 dargestellt ist:

Abstrakte und funktionale Ebenen sind durch ein integriertes "ideales" Bilddeutungssystem dargestell, das ein Modell der in einem Pool existierenden Bilddeutungswerkzeugen besitzt.

Alle anwendungsspezifische Komponenten sind, mit Ausnahme des "Modells" in der Implementierungsebene enthalten. Diese ist durch den Pool von Bilddeutungswerkzeugen und durch den Inhalt der Domänenwissensbasis dargestellt.

Im Vordergrund steht eine Anwendung, die z.B. ein Multimedia-Datenbankverwaltungssystem sein kann. Diese Anwendung besitzt eine Schnittstelle zu einem Benutzer, zu Wissen über die Domäne, in der sie eingesetzt wird, zum Bilddeutungssystem und als Eingabe ein Bild, dessen Deutung die in Frage kommende Aufgabe ist. Das ideale Bilddeutungssystem hat die Aufgabe, den Ablauf des Bilddeutungsprozeßes zu gestalten und zu steuern. Diese basiert auf:

1. Wissen über das Bild (semantische und technische Parameter),

2. Wissen über die Möglichkeiten der Werkzeuge und

3. Wissen über die Einsatzdomäne der Anwendung (Domänenwissen).

Das Domänenwissen kann in einer anderen oder in derselben Multimedia-Datenbank enthalten sein, oder durch eine Wissensbasis der Anwendung dargestellt werden.

Der Pool von Bilddeutungswerkzeugen repräsentiert die Menge aller Ressourcen, die die Anwendung für die Bilddeutung besitzt. Wie schon erwähnt wurde, sind dies Programmpakete, speziell entwickelte Techniken oder Hardwareimplementierungen. Die Idee dahinter ist diesen Pool so flexibel, modular und aktualisiert wie möglich zu halten. Die Bilddeutung wird durch die hier existierenden Verfahren durchgeführt. Die Eingabe des Systems erfolgt über die Anwendung und besteht aus dem Bild, die Ausgabe ist dessen Deutung.

Dies ist aber eine ideale Anwendungssituation. In den nächsten Abschnitten werden wir dieses ideale Modell an konkrete Situationen und Bedingungen anpassen und verfeinern.

...nächster Abschnitt...

Diese Beschreibung entspricht dem Kapitel 2 vom Cyclops-Buch "Wissensbasierte Analyse Medizinischer Bilder", ab Januar 1997 im INFIX-Verlag erhältlich.