Abstract
(Ausschnitte aus dem ersten Kapitel “Motivation” in Deutsch)
Im Zeitalter der Digitalisierung entsteht immer mehr multimediales Datenmaterial, insbesondere im WWW oder in multimedialen Datenbanken. Da die Informationsverarbeitungskraefte des Menschen begrenzt sind, ist er mit der Erfassung und Verarbeitung der Masse der vorhandenen Daten sowie der Extraktion interessanter Informationen daraus vollkommen ueberfordert. Fuer textuelle Daten existieren bereits relativ gute Mechanismen zur Strukturierung, Indexierung und Suche. Aber die Datenflut beinhaltet neben Texten in zunehmendem Masse digitales Bild-, Ton- und Filmmaterial. Mechanismen zur Strukturierung, Indexierung, Suche und zum “Sichten” solcher Daten werden immer wichtiger.
Akut sind solche Problemstellungen bereits bei Fernsehsendern, wo riesige Mengen an Bild- und Tonmaterial in den Archiven liegen und nur schwer wiederverwendbar sind. Diese Daten werden manuell nach bestimmten Schemata annotiert, um zumindest rudimentaeren inhaltlichen Zugang zu gewaehrleisten. Die Erstellung solcher Annotationen ist allerdings aeusserst kostspielig im Vergleich zum daraus entstehenden Nutzen. Bei der Erstellung der Annotationen koennen nicht alle in Bild und Ton enthaltenen Informationen beruecksichtigt werden, da die unter einem Aspekt wichtigen Information unter einem anderen Aspekt vollkommen unwichtig sein kann.
Als Beispiel seien die Aufnahmen eines Empfangs einer deutschen Delegation in der ehemaligen Sowjetunion genannt, an dem auch ein damals noch unbekannter Beamter namens Gerhard Schoeder teilnahm. Es ist unwahrscheinlich, dass ein professioneller Annotator die Namen aller Teilnehmer kannte und noch unwahrscheinlicher, dass er sie alle ins System eingab. Damit ist aber eine automatische Extraktion allen Datenmaterials ueber Gerhard Schroeder aus dem Archiv nicht moeglich. Man erkennt, dass es schlichtweg unmoeglich ist, zum Zeitpunkt der Erstellung der Annotation zu wissen, welche Bildaspekt und Tonausschnitte Informationen beinhalten, die in Zukunft benoetigt werden.
Aehnliche Probleme treten in der medienwissenschaftlichen Forschung auf. Wenn beispielsweise gewisse Eigenschaften von Filmen untersucht werden sollen, so ist es notwendig, alle zu untersuchenden Filme von Menschen auf relevante Merkmale hin sichten zu lassen, obwohl es sich womoeglich um relativ einfache Fragestellungen wie die Schnittrate oder den Musikanteil handelt.
Das Projekt MoCA (Movie Content Analysis) der Universitaet Mannheim hat zum Ziel, die Moeglichkeiten automatischer Analysen von Bildsequenzen und zugehoerigen Tonspuren zu untersuchen. Es ist international eines der wenigen Projekte, welches Bild- und Toninformationen kombiniert analysiert. Die Bestimmung von Strukturen und Inhalten wird von Algorithmen realisiert, welche zu definierende Merkmale von Einzelbildern, Bildfolgen und Tonsequenzen extrahieren. Diese koennen letztlich fuer die Anwendungen der oben geschilderten Art genutzt werden.
Diese Arbeit hat sich die Entwicklung von Methoden zur Informationsextraktion aus digitalisierten Audiospuren von Filmen zum Ziel gesetzt. Dies umfasst drei allgemeine Aufgaben: Indexierung, Anfrageformulierung und Retrieval.
Die Indexierung hat die Erstellung von Informationsspuren zum Ziel, welche einen inhaltlichen Zugriff ermoeglichen. Dazu wird das Audio auf bestimmte Merkmale hin analysiert, welche direkt oder in Kombination Antworten auf Benutzeranfragen beinhalten.
Neben der Indexierung ist die Formulierung von Anfragen eine wichtige Aufgabe des Information Retrieval. Anfragen an Inhalte von Audio koennen entweder ueber die Tastatur oder auditiv (d.h. ueber das Mikrofon) gestellt werden. Anfragen ueber die Tastatur beziehen sich dabei auf wahrnehmbare und durch den Menschen beschreibbare Eigenschaften von Audio, z.B. “Gib mir alle Bereiche mit dunkler Musik” oder “… mit hektischem und lautem Ton” oder “… mit Stille”. Auditive Anfragen sind dagegen Anfragen, die nicht mit einem Wechsel des Mediums verbunden sind: eine solche Anfrage ist selbst ein Audiostueck. Beispiel hierfuer sind gesungene Anfragen, aufgenommene Geraeusche oder auch laengere Audiostuecke wie z.B. ein Werbespot, der wiedergefunden werden soll.
Abschliessende Teilaufgabe des Information Retrieval ist die Bestimmung von Ausschnitten, die dem Benutzer auf eine Anfrage zurueckgegeben werden sollen. Im einfachsten Fall orientiert sie sich strikt an den Ergebnissen der Anfrage und umfassen exakt den Bereich, der die Anfrage beantwortet. Bei Filmen handelt es sich dabei aber oft nur um Inhaltsfetzen, denen der Kontext fehlt. Deshalb ist die Bestimmung eines abgeschlossenen Kontextes – einer Einstellung oder eine Szene – zu einer Anfrage beim Retrieval notwendig.
Ein andersgearteter Ansatz, dem Benutzer einer Film-Datenbank den Inhalt eines bestimmten Films nahezubringen, besteht darin, ihm eine Zusammenfassung des Films zu praesentieren, mit der er sich einen schnellen Ueberblick verschaffen kann. Traditionelle Beispiele hierfuer sind Kino-Trailer, die einen neuen Film ankuendigen oder eine Serienvorschau im Fernsehen oder Kurzueberblicke ueber die Themen einer Nachrichtensendung.
Diese Dissertation beschaeftigt sich sowohl mit den drei aufgezaehlten Aufgaben des Information Retrieval von Filmen als auch mit der automatischen Erstellung von Film-Zusammenfassungen. Sie beginnt allerdings mit einer ausfuehrlichen Beschreibung interdisziplinaeren wissenschaftlichen Grundwissens fuer die Audioanalyse. Ziel dieses Teils ist es, die Grundlagen der computergestuetzten Verarbeitung von Audiodaten, sowie Fachwissen ueber die Wahrnehmung von Audio aus psychologischer, medizinischer und filmtechnischer Sicht zusammenzufassen.
Im Anschluss daran wird die im Rahmen dieser Arbeit eingesetzte und selbst implementierte Entwicklungsumgebung vorgestellt. Es handelt sich dabei um die sogenannte MoCA-Workbench und eine objektorientierte Klassen-Bibliothek namens aulib++, in deren Rahmen die Audioanalysealgorithmen zur Verfuegung gestellt werden. Beide dienen dem Ziel, die Entwicklung von Inhaltsanalysealgorithmen sowie deren Integration in Anwendungen zu erleichtern.
Der Kern der Arbeit beginnt einem Kapitel, in dem die Formulierung von auditiven Anfragen sowie Eignung von aus diesen Anfragen berechneten Indizes fuer ein Retrieval untersucht werden. Anschliessend wird die Indexierung von Audio durch wahrnehmbare Eigenschaften beschrieben, welche besser als allgemeine Transformations-Indizes zum Einfangen inhaltlicher Aspekte von Audio geeignet sind. Schliesslich wird ein Verfahren zur automatischen Bestimmung von Szenen als kontextuellen Einheiten untersucht. Dieses Verfahren verbindet Video- und Audioindikatoren ebenso wie die Systeme zur automatischen Produktion von Filmzusammenfassungen, die in einem separaten Kapitel vorgestellt werden.
Zum Abschluss dieser Dissertation werden die im Rahmen der Forschungsarbeit gemachten Erfahrungen zusammengefasst.