Vergleich bestehender MPEG-7-Annotierungstools


Bachelorarbeit, 2007

100 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1 Einleitung
1.1 Multimedia-Daten und Metadaten
1.2 Standards

2 Annotierung von Multimedia-Daten
2.1 Definition
2.2 Semantische Lücke
2.3 Überbrückung der Semantischen Lücke
2.4 Arten der Annotierung

3 MPEG-7
3.1 MPEG
3.2 Der MPEG-7-Standard
3.2.1 Intention
3.2.2 Aufbau
3.2.3 Teile des Standards
3.3 Visual
3.3.1 Visuelle Farb-Deskriptoren
3.3.2 Visuelle Textur-Deskriptoren
3.3.3 Visuelle Form-Deskriptoren
3.3.4 Bewegungsdeskriptoren
3.4 Audio
3.4.1 Übersicht der Deskriptoren
3.4.2 Spoken Content

4 MPEG-7-Annotierungstools
4.1 Visual-Tools
4.1.1 Caliph & Emir
4.1.2 M-Ontomat-Annotizer
4.1.3 VideoAnnEx
4.1.4 IBM Multimodal Annotation Tool
4.1.5 VIZARD - Video Wizard
4.1.6 IENT-Cut
4.1.7 IBM MARVel
4.2 Audio-Tools
4.2.1 MPEG-7 Audio Encoder
4.2.2 MPEG-7 Audio Analyzer
4.2.3 MPEG-7 Audio Low Level Descriptors
4.2.4 MPEG-7 Spoken Content Demonstrator
4.3 Frameworks
4.3.1 Joanneum MPEG-7 Library
4.3.2 VizIR
4.3.3 MPEG-7 eXperimentation Model
4.4 Klassifizierung

5 Bewertungskatalog
5.1 Medien
5.1.1 Medienformate
5.1.2 Dateiformate
5.2 Domains
5.2.1 Bereiche
5.2.2 Erweiterbarkeit
5.3 Annotierung
5.3.1 Annotierungsart
5.3.2 Feature Extraktion
5.4 Deskriptoren
5.4.1 Validierung
5.4.2 Angewandte Deskriptoren
5.5 Entwicklungsstand
5.5.1 Version und Stabilität
5.5.2 Systemvoraussetzungen
5.6 Benutzerschnittstelle
5.6.1 Benutzeroberfläche
5.6.2 Dokumentation
5.7 Integrationsfähigkeit
5.7.1 Datentransfer
5.7.2 Schnittstellen

6 Analyse der MPEG-7-Annotierungstools
6.1 Visual-Tools
6.1.1 Caliph & Emir
6.1.2 M-Ontomat-Annotizer
6.1.3 VideoAnnEx
6.1.4 IBM Multimodal Annotation Tool
6.1.5 VIZARD - Video Wizard
6.1.6 IENT-Cut
6.1.7 IBM MARVel
6.2 Audio-Tools
6.2.1 MPEG-7 Audio Encoder
6.2.2 MPEG-7 Audio Analyzer
6.2.3 MPEG-7 Audio Low Level Descriptors
6.2.4 MPEG-7 Spoken Content Demonstrator
6.3 Frameworks
6.3.1 Joanneum MPEG-7 Library
6.3.2 VizIR
6.3.3 MPEG-7 eXperimentation Model

7 Zusammenfassung
7.1 Fazit
7.2 Ausblick

A Abbildungsverzeichnis

B Tabellenverzeichnis

C Listingverzeichnis

D Listings

E Literaturverzeichnis

F Glossar

G Index

1 Einleitung

1.1 Multimedia-Daten und Metadaten

In den letzten Jahren ist es zu einem Boom an Multimedia-Daten gekommen. Digitale Kameras werden immer kleiner und handlicher und zum ständigen Begleiter. Fast je- des Mobilfunktelefon besitzt mittlerweile eine eingebaute Kamera. Laut einer Meldung von BITKOM[1] gibt es bereits seit dem 1. August 2006 mehr Handys als Einwohner in Deutschland, eine Zahl die nach Expertenprognosen erst Ende 2006 hätte erreicht wer- den sollen. „Gute Kompressionsalgorithmen, billige Speicherkapazitäten und effiziente Übertragungsverfahren ermöglichen“ [Borteyr 2005] es mit diesen neuen elektronischen Spielzeugen, nicht nur Bilder, sondern auch kurze Videos aufzunehmen, wiederzugeben und diese auch untereinander auszutauschen oder an andere Dienste zu senden. Diese digitalen Daten landen nicht mehr nur auf der privaten Festplatte, sondern werden in Weblogs, Podcasts und anderen Internetportalen der ganzen Welt zugänglich gemacht. Die enorme Menge an Multimedia-Daten, die in Firmen, auf privaten Rechnern und im Internet vorliegt, wächst so kontinuierlich weiter und wird immer unübersichtlicher. Die Anstrengungen, die man aufwenden muss, um diese Informationen zu verwalten und ein bestimmtes Objekt wieder zu finden, erfordern neue Verfahren. Denn „Infor- mationen gewinnen [...] erst an Wert, wenn sie einfach zu finden, zu filtern und zu beschaffen sind“ [Borteyr 2005]. Man kann wie zum Beispiel in der Video-Plattform YouTube 2 nur nach der Beschreibung der Dateien suchen, nicht aber nach dem Inhalt und auch eine Ähnlichkeitssuche ist nicht implementiert. Multimedia-Daten können also nicht ohne gewisse Vorbereitung nach semantischem Inhalt wie Textdokumente nach Schlüsselwörtern durchsucht werden.

Deshalb ist es notwendig Metadaten zu speichern, die Informationen über den Inhalt und den Kontext enthalten und so eine semantische Suche über Multimedia-Daten er- möglichen. Metadaten sind Daten, die Informationen über andere Daten enthalten. So können auch Metadaten von Metadaten existieren. Metadaten über ein Bild enthalten zum Beispiel den Photographen, die Meta-Metadaten den Ersteller der Metadaten. Für einen Katalog über Bilder wären die Metadaten der Bilder ebenfalls von Bedeutung und gehören zum Inhalt des Kataloges, sind also Daten. Eine allgemeine Unterschei- dung zwischen Metadaten und gewöhnlichen Daten existiert demnach nicht, sondern hängt vom Standpunkt des Betrachters ab. Wie in [Kosch 2003] können Metadaten auch aus der Sicht des Erstellers oder Benutzers der Multimedia-Daten betrachtet wer- den. Für den Ersteller sind etwa bibliographische Informationen wie Autor, Titel, Er- stellungsdatum und Datenformat von Bedeutung. Aus der Sicht der Service-Provider sind besonders Metadaten, die erheblich zur Produktivität der Suche und Abfrage beitragen, interessant. Diese enthalten Informationen über Formate, in denen die Res- sourcen vorliegen und semantische Inhalte, wie die Spieler eines Fussballspiels. Nur so kann die notwendige Genauigkeit bei der Suche erreicht werden. Die Perspektive des Konsumenten verleiht besonders den Metadaten Bedeutung, die Beschaffenheit und Vorzüge einer Ressource beschreiben. Diese Daten müssen aber bereits vom Ersteller erfasst worden sein. Für eine Übertragung über das Internet sind weitere Metadaten vorteilhaft, die Zugang zu bestmöglichen Inhalten garantieren, wenn z. B. die Bandbrei- te der Übertragung abnimmt und eine Anpassung vorgenommen werden muss. Eine weitere ergänzende Charakterisierung von Metadaten wird in [Steinmetz 2000] behan- delt. Die Klassifizierung erfolgt „aus der Sicht des Inhalts, die besonders relevant für Informationsabfragen ist“ [Steinmetz 2000]. Dabei wird die Funktionale Abhängigkeit der Metadaten vom Inhalt der Mediendaten und die Abhängigkeit vom Anwendungs- gebiet, also dass die Metadaten nur auf ein spezielles Anwendungsgebiet anwendbar sind, unterschieden. Ersteres bezeichnet man auch als mediengesteuerte Metadaten, die domänenabhängigen als anwendungsgebietgesteuerte Metadaten. „Technische Über- legungen führen zu den folgenden Kriterien für Metadaten. Automatische Berechen- barkeit [bedeutet, dass] Metadaten [...] entweder berechnet werden oder [...] von Hand oder halbautomatisch erzeugt“ [Steinmetz 2000] werden können. Informationen über Medienobjekte, mit einer globalen Eigenschaft der Objekte oder solche Informationen, die sich auf eine „Eigenschaft eines Unterobjekts des Medienobjekts“ [Steinmetz 2000] beziehen, nennt man globale/lokale Eigenschaften. Wichtig ist also, wie Metadaten er- stellt werden und wie man sie speichert. Dabei ist auch von Bedeutung, wie sie mit den Multimedia-Daten verknüpft sind. Da Metadaten auch manuell erstellt werden, muss eine Auswahl der Informationen getroffen werden, die das Medium repräsentieren.

„Ein Bild sagt mehr als tausend Worte“ sagt schon der Volksmund. Wie der Autor in [Kosch 2003] schreibt, ist es nicht verwunderlich, dass sich bei der Analyse eines Bildes durch verschiedene Betrachter auch völlig unterschiedliche Beschreibungen er- geben können. Diese Beschreibungen enthalten meist nur eine kurze Zusammenfas- sung des Inhalts und hängen stark von der subjektiven Empfindung des Betrachters ab und dem, was der einzelne als wichtig empfindet. Es ist nicht besonders effizient, manuell erstellte Metadaten zum Vergleich von Bildern zu verwenden. Eine Beschrei- bung der Bilder mit berechneten oder semi-automatischen erzeugten Informationen ist notwendig, um eine objektive reproduzierbare Beschreibung zum Vergleich zu er- halten. Um solche Zusatzinformationen auch weiterverarbeiten und global nutzen zu können, sind Standards notwendig, die definieren, wie und welche Metainformationen zu Multimedia-Daten extrahiert werden müssen, „denn nur dann ist globale Offenheit gewährleistet“ [Borteyr 2005].

Die Metadaten folgen einem Lebenszyklus. Dieser Zyklus lässt sich in vier Phasen unterteilen: Produktion oder Erzeugung, Nachbarbeitung, Auslieferung und Konsum. Eine genaue Definition dieser Phasen ist in [Kosch et al. 2005] enthalten, aus der ich eine kurze Zusammenfassung vornehme. Die Erzeugung kann während oder nach der Erstellung der Multimedia-Daten stattfinden. Während der Erstellung der Mediadaten werden globale Informationen, wie Autor, Datum und Darsteller generiert. Es ist effi- zienter, die Erzeugung bereits bekannter Informationen schon im Erzeugungsprozess zu integrieren (vgl. [Smith und Schirling 2006]). Im Nachbearbeitungsprozess werden zusätzliche Metadaten erstellt. Darauf wird in Abschnitt 2.2 auf Seite 6 eingegangen und auf welche Weise diese Extrahierung stattfindet, ist in Abschnitt 2.4 auf Seite 9 be- schrieben. Eine Nachbearbeitung muss beispielsweise auch durchgeführt werden, wenn Teile aus den Multimedia-Daten entfernt oder geändert werden und deshalb die zuge- hörigen Metadaten aktualisiert werden müssen. Die Auslieferung und Konsumierung der Metadaten ermöglichen den Benutzern, den Inhalt der Multimeda-Daten nach ih- ren Interessen zu filtern und zu durchsuchen. Die Benutzer lassen sich in drei Klassen unterteilen: die Produzenten von Inhalten, die Multimedia-Daten und Metadaten er- zeugen, die Ersteller, die eine Nachbearbeitung durchführen und Multimedia-Daten indizieren, und die Endnutzer, die die erstellten Multimeda-Daten und Metadaten konsumieren.

1.2 Standards

Ein Standard zur Multimediabeschreibung ist von der Moving Pictures Expert Group (MPEG) entwickelt worden. Die bisherigen Standards der MPEG sind wohl die all- gemein bekannten MPEG-1, MPEG-2 und MPEG-4 als Videokompressionsforma- te und der MPEG-1 Audio Layer 3, kurz MP3, als Audioformat. Der neue Stan- dard Multimedia Content Description Interface genannt MPEG-7, ist kein Kompres- sionsformat, sondern ist als „einheitlicher Beschreibungsstandard entwickelt worden“ [Borteyr 2005], „der ein Austauschformat für Beschreibungen von multimedialen In- halten festlegt“ [Kosch und Heuer 2003]. MPEG-7 ist nicht der einzige Multimedia- Beschreibungsstandard. Im Vorfeld sind bereits weitere Standards entstanden, wie z. B. The Dublin Core Metadata Initiative (DCMI)3, DIG354, EBU P/Meta5 der European Broadcasting Union (EBU), BBC SMEF6, SMPTE MXF Descriptive Metadata Sche- me (DMS-1)7 und TV-Anytime8. In [Bailer et al. 2004] und [Schallauer et al. 2006] werden verschiedene Standards ausgewertet, um eine Basis für ein AV description meta- data model zu finden, und MPEG-7 wird dabei als Grundlage verwendet. Ein Vergleich dieser Standards zeigt, dass MPEG-7 klare Vorteile aufweist. Während andere Stan- dards hauptsächlich als Metadatenbeschreibungsverzeichnisse oder, abhänging von der Codierung der Medien, nur als Austauschformat vorgesehen sind, ist MPEG-7 von „An- wendungsdomänen oder bestimmten Anwendungszwecken“ [Borteyr 2005] unabhängig. Des Weiteren erlauben viele nur kurze Listen von Attributen anstatt hierarchische Strukturen oder sind nur für internen Gebrauch im Herstellerbetrieb bestimmt. Ande- re Standards besitzen nur Textbeschreibung ohne Struktur oder nicht die notwendigen internen Repräsentationen für bestimmte Systeme. MPEG-7 dagegen erlaubt eine aus- reichende Abstufung der Granularität von Beschreibungen und ein breites Spektrum an Anwendungsdomänen (vgl. [Chang et al. 2001]). Dadurch wird ein sehr flexibler Standard zur Beschreibung von verschiedenen Abstraktionsebenen erreicht, ohne die Strukturierung der Fragmente zu limitieren. „Die Definition von [...] [MPEG-7] durch eine auf XML-Schema basierende strukturdefinierende Sprache ermöglicht es, MPEG- 7 [...] in unterschiedlichen Applikationsfeldern“ [Kosch und Heuer 2003] einzusetzen und den gesamten Multimedia-Bereich abzudecken.

2 Annotierung von Multimedia-Daten

2.1 Definition

Im Deutschen Universalwörterbuch [Dudenredaktion 2000] wird Annotation als „1. (veraltet) Aufzeichnung; Vermerk. 2. (Buchw.) kurze Charakterisierung eines Buches (für bibliothekarische Zwecke)“ bezeichnet.

Das Deutsche Fremdwörterbuch [Dudenredaktion 2006] bezeichnet Annotierung als: „den Inhalt eines Buches o.Ä. aufzeichnen, erläutern, analysieren“ .

In [Ekert 2003] findet man eine Definition des World-Wide-Web-Konsortium (W3C)1 Dieses definiert den Begriff Annotation folgendermaßen: „In general, an annotation is defined as any object that is associated with another object by some relationship. The annotation object may be of any type and the relationship between the annotation object and the object it annotates may also be of any type.“

Die Autoren in [Wenyin et al. 2001] bezeichnen Annotierung als das Problem der Extrahierung und Erfassung des semantischen Inhalts von Multimedia-Daten mit einer Reihe von Schlüsselworten.

Annotierung ist also kurz gesagt die Erstellung von Metadaten.

In dem Metadaten-Lebenszyklus ist Annotierung in den ersten beiden Phasen, der Er- stellung und der Nachbearbeitung vertreten. Aber besonders die Nachbearbeitung ist ein wichtiger Punkt bei der Generierung von Beschreibungen. Im nächsten Abschnitt wird deutlich, welche verschiedenen Daten erst bei der Nachbearbeitung extrahiert werden können und welche schon in der Erstellungsphase zur Verfügung stehen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Low-Level-Features - Kantenerkennung

2.2 Semantische Lücke

Der Computer kann nur in äußerst beschränktem Umfang auf semantische Inhalte eingehen und diese erfassen. Die maschinell erstellten Metadaten enthalten also keine semantischen Informationen, sondern sind syntaktische Inhalte. In [Hare et al. 2006a] wird auf die verschiedenen Beschreibungsebenen eingegangen. Auf der untersten Ebe- ne findet man die Raw-Daten. Die syntaktischen Inhalte bauen darauf auf und werden in diesem Zusammenhang als Low-Level-Features bezeichnet. Diese sind automatisch reproduzierbare Attribute, gespeichert in sogenannten Feature-Vektoren . Sie beschrei- ben, wie Inhalte organisiert sind, sagen aber nichts über deren Bedeutung aus. Zum Beispiel sind dies Color- und Kanten-Histogramme oder Texturen, die Teile eines Bil- des oder das gesamte Bild repräsentieren. In Abbildung 2.1 sieht man wie in etwa eine Kantenerkennung aussehen würde, es ist aber nicht eindeutig erkennbar, um was es sich handelt.

Der Begriff High-Level-Features ist ein Synonym für semantische Inhalte, also die Be- deutung der Elemente. Objekte im Medium werden, z. B. durch Kombination von Feature-Vektoren extrahiert, erfasst und gekennzeichnet, idealerweise mit ihrer sym- bolischen Bezeichnung. So könnten am Beispiel Abbildung 2.1 die beiden Objekte vom Hintergrund unterschieden werden. Es wird noch detaillierter zwischen spezifischer, ge- nerischer und abstrakter Bedeutung der Objekte unterschieden. So steht beispielsweise

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: High-Level-Features - Bedeutung

spezifisch George W. Bush für eine generische Person und abstrakte für Macht. Die Benennung der Objekte alleine reicht jedoch nicht aus um den gesamten semantischen Inhalt zu erfassen. Elemente in jedem Level haben syntaktische (räumliche, zeiltiche, visuelle) und semantische (auf verschiedenen Ebenen: generisch, spezifisch, abstrakt) Beziehungen zueinander, z. B. stehen zwei Personen nebeneinander (syntaktisch) und sind befreundet (semantisch). Erst bei Betrachtung von Abbildung 2.2 zu ist erkennen, dass es sich bei Abbildung 2.1 auf der vorherigen Seite um Weißhandgibbons handelt. Hier weiß man jedoch immer noch nichts von der abstrakten Bedeutung des Inhalts. Dazu sind Informationen notwendig, die nicht aus dem Bild extrahiert werden können, sondern vielleicht sogar vom Fotographen annotiert werden müssen.

Diese abstrakte Sicht der Benutzer auf die Welt kann von Computern nicht erfasst wer- den und ihre Unfähigkeit, eine Verbindung zur realen Welt herzustellen, führt zu einer Aufspaltung in Syntax und Semantik. Durch die daraus resultierende Trennung von semantischen und syntaktischen Inhalten entsteht eine Kluft zwischen den High-Level- und Low-Level-Features. Diese Kluft nennt man Semantische Lücke (engl. semantic gap ). [Hare et al. 2006a] unterteilt diese Lücke in zwei Sektionen: eine Lücke zwischen den Deskriptoren und der symbolischen Bezeichnung und eine weitere Lücke zwischen der symbolischen Bezeichnung der Objekte und dem semantischem Inhalt.

2.3 Überbrückung der Semantischen Lücke

Ziel ist, diese Semantische Lücke zu überbrücken (engl. bridging the semantic gap ). In [Hare et al. 2006a] machen die Autoren dabei zwei Beobachtungen. Erstens sind Be- nutzeranfragen typischerweise mit semantischen Bezeichnungen formuliert und zwei- tens ist es viel wichtiger für die automatisierte Überwindung der Semantischen Lücke, die Lücke zwischen Deskriptoren und Objekten zu überbrücken als die zur Semantik. Ansätze dafür kommen aus beiden Richtungen in Frage. Diese werden in [Hare et al. 2006a] und [Hare et al. 2006b] aufgezeigt. Das sind Bottom-Up-Techniken , die selbstständig semantische Beschreibungen zu Multimedia-Daten lernen und auto- matisch anwenden, so wie Top-Down-Techniken , die strukturierte Wissensrepräsenta- tionen in Form von Ontologien verwenden. Automatische Annotierung konzentriert sich meist auf die Informationsverarbeitung zwischen Raw-Daten und symbolischen Bezeichnungen. Welche Kombinationen von Deskriptoren bestimmte Objekte reprä- sentieren und wie die dazugehörige Beschreibung lautet, baut auf vorangegangenen Erfahrungen auf. Diese Vorgehensweise bedient sich zweier Ansätze: erstens der Seg- mentierung des Mediums in Regionen und zweitens einer szenennahen Herangehenswei- se, die sich globaler Informationen bedient. Manche Techniken assoziieren auch direkt Deskriptoren mit Bezeichnungen, ohne dabei Objekte zu erfassen und darauf einzuge- hen. Ein weiterer Ansatz ist die Bildung eines Semantic-Space in [Hare et al. 2006a] von Dokumenten und Bezeichnungen und die Anwendung linearer Algebra. Ähnliche Dokumente oder Bezeichnungen im Semantic-Space befinden sich auf benachbarten Positionen. Zum Beispiel können dadurch in einer Bilddatenbank bei einer Suche nach „Pferd“ Bilder von Pferden und Fohlen gefunden werden, weil die Bezeichner „Pferd“ und „Fohlen“ sich auf benachbarte Positionen im Semantic-Space befinden. Um die Lücke von oben zu schließen und eine Brücke zur semantischen Beschreibung zu schlagen, sind Schemata zur Wissensrepräsentation notwendig. Eines der bekann- testen Schemata sind Ontologien. Die Autoren in [Hare et al. 2006a] betrachten die Nutzung von Ontologien als eine immer beliebtere Art der Repräsentation von High- Level-Wissen über Anwendungsbereiche. Ontologien spielen eine wichtige Rolle, um webbasierte Informationen sowohl für Softwaresysteme als auch für Personen verständ- lich zu machen. Unter einer Ontologie versteht [Hare et al. 2006a] ein formal definier- tes System von Konzepten, Relationen zwischen ihnen und Informationen, die ver- deutlichen, wie sie im Anwendungsbereich eingesetzt werden. Das aceMedia -Projekt [Hare et al. 2006b] hat zum Beispiel eine visual discription ontology und eine multi- media structure ontology zur Analyse von Multimedia-Daten entwickelt und auch das M-Ontomat-Annotizer Tool [Petridis et al. 2006] zur Annotierung mit semantischen Informationen, das in Abschnitt 4.1.2 auf Seite 22 in dieser Arbeit betrachtet wird. Durch Ontologien soll es dem Computer möglich sein, „nicht nur geometrische Formen der einzelnen Objekte [zu] erkennen und unterscheiden, sondern [auch] die semanti- sche Bedeutung“ [Borteyr 2005] zu erfassen. [Borteyr 2005] beschreibt dies an Hand eines Fußballspiels, in dem die Objekte „Spieler“ das Objekt „Ball“ in das Objekt „Tor“ schießen können. Um diese Strukturen korrekt zu erkennen und mit den richti- gen Bezeichnungen zu versehen, benötigt der Rechner Konzepte für eine semantische Beschreibung eines Fußballspiels und die Relationen zwischen ihnen. Die Autoren von [Hare et al. 2006a] und [Hare et al. 2006b] kommen zu dem Schluss, dass nur eine Kombination aus Bottom-Up- und Top-Down-Techniken zu einer effektiven Strategie für Multimedia-Retrieval-Systeme führen kann. Ein weiterer Ansatz wird von [Vembu et al. 2006] behandelt und unternimmt den Ver- such, eine Multimedia-Ontologie zu entwerfen, die auf dem MPEG-7-Standard und auf domänenspezifischem Vokabular basiert. MPEG-7-Deskriptoren werden verwen- det, um Feature-Vektoren (low-level) und die Struktur der Multimedia-Daten zu be- schreiben. Die domänenspezifischen Ontologien werden benutzt, um die semantischen Informationen (high-level) zu erfassen. Die Autoren sind der Meinung, da der MPEG- 7-Standard nicht unter Einbeziehung der Semantic Web Community entwickelt wur- de, dass es große Einschränkungen in der Interoperabilität gibt. Es wird hier auf die Verwendung des XML-Schemas verwiesen, weil so die MPEG-7-Beschreibungen nicht für das Semantic Web genutzt werden können. Eine zum Semantic Web kompatible Sprache, wie etwa das RDF-Schema, hätte dies ermöglichen können. Der MPEG-7- Standard enthält zwar Beschreibungsstrukturen für Semantik, reicht aber nicht aus, um z. B. die domänenspezifischen semantischen Beschreibungen für ein Fußballspiel adäquat wiederzugeben. Nur durch diese Kombination sei es letztendlich möglich, die semantische Lücke in der Multimedia-Annotierung und -Retrieval zu schließen (vgl. [Vembu et al. 2006]).

2.4 Arten der Annotierung

Die Suche nach annotierten Objekten basiert auf der Suche nach repräsentierenden Schlüsselworten und stellt uns vor das Problem, dass nicht erfasste Multimedia-Daten in großen Datenbanken nur sehr schwer wiederzufinden sind. Ebenso ist ein Vergleich zweier Objekte nur auf diesen Schlüsselworten möglich. Manuelle Annotierung heißt nichts anderes, als dass der Prozess vom Benutzer übernommen werden muss. So muss ein Benutzer etwa bei der Speicherung von Bildern in eine Bilder-Datenbank jedes Bild mit aussagekräftigen Schlüsselworten versehen. Die Autoren in [Wenyin et al. 2001] bewerten einerseits in Bezug auf die Genauigkeit der Inhalte die manuelle Annotierung als beste Möglichkeit, um Semantik zu beschreiben, wenn Schlüsselworte von Personen ausgewählt werden. Andererseits kommt es jedoch immer wieder zu dem Problem, dass Benutzer vergessen, mit welchen Beschreibungen sie ihre Multimedia-Daten versehen haben. Um manuelle Annotierung zu erleichtern werden z. B. Listen verwendet, die erweitert werden können. Diese enthalten Schlüsselworte, mit welchen der Benutzer seine Medien annotieren kann, um so die Suche und ein Wiederfinden zu erleichtert. So wird schon viel Arbeit gespart. Benutzerinteraktion ist aber immer noch notwendig.

Dies zeigt die Notwendigkeit der automatischen oder semi-automatischen Annotie- rung. Automatische Annotierungen werden durch einen Rechner erzeugt und basieren auf einem Algorithmus. Wie in [Hare et al. 2006b] beschrieben, findet automatische Annotierung hauptsächlich zwischen den Ebenen von den Raw-Daten zu den symbo- lischen Beschreibungen der Objekte statt. Dazu muss der Rechner lernen, die durch Feature-Vektoren erkannten Objekte zu extrahieren und benennen. Dazu können wie in [Handschuh et al. 2003] Ontologien verwendet werden, die es dem Rechner ermögli- chen Objekte und Relationen zu erkennen. Andere Ansätze sind z. B. eine Segmentie- rung von Bildern in Regionen, um so Annotierungen für Objekte zu erzeugen. Neben der Segmentierung wird in [Hare et al. 2006b] auch die szenenorientierte Technik be- schrieben, die durch die Anwendung von Low-Level-Filtern zu recht brauchbaren Er- gebnissen bei der Erkennung von Straßen und Gebäuden führt. Eine weitere Technik stellen die Autoren in [Wenyin et al. 2001] vor. Das System soll dabei selbstständig Beschreibungen aus Text, z. B. aus Emails oder Webseiten extrahieren. Diese Methode setzt aber zu jedem Bild einen Kontext voraus, der meist nicht gegeben ist, wie etwa in privaten Fotoalben. In einem anderen Beispiel werden Bilder in eine Datenbank eingefügt. Bei jedem Einfügen wird das einzufügende Bild automatisch analysiert und eine Suche nach ähnlichen Bilder auf dem vorhandenen Datenbestand ausgeführt. Die Schlüsselworte der erhaltenen Ergebnisse werden nun auch für die neu eingefügten Bil- der verwendet. Probleme sind aber die Initialisierung des Systems und die Erweiterung der Beschreibungen.

Deshalb entwickeln die Autoren in [Wenyin et al. 2001] eine semi-automatische Stra- tegie, die die Effizienz und die Geschwindigkeit der automatischen Annotierung mit der Genauigkeit der manuellen Annotierung zur Beschreibung von Bilder koppelt. Bei jeder Suche muss der Benutzer beim Durchsehen der Ergebnisse zu jedem Objekt In- formationen über die Relevanz der Ergebnisse zur Suchanfrage abgeben. Das System ändert daraufhin die Beziehung zwischen den Schlüsselwörtern und den Suchergebnis- sen bezüglich des Benutzer-Feedbacks. Durch jede weitere Suche werden immer mehr Elemente der Datenbank annotiert und die Beschreibungen immer genauer.

3 MPEG-7

3.1 MPEG

Die Moving Picture Experts Group (MPEG)1 ist eine Arbeitsgruppe der ISO/IEC (International Organization for Standardization), deren Aufgabe die Entwicklung von Standards für digitale audiovisuelle Daten ist. MPEG ist organisiert als Ausschuss, der nur für bevollmächigte Experten eines nationalen Standardisierungsinstituts zugäng- lich ist und an dem in regelmäßigen Konferenzen mehr als 300 Experten aus mehr als 200 Firmen aus ca. 20 Ländern teilnehmen. Bereits 1988 nahm die Gruppe ihre Arbeit auf und begann mit der Entwicklung des MPEG-1 Codec, der im November 1992 verabschiedet wurde. Dieser ermöglicht eine „Kodierung von Bewegtbildern und zugehörigem Audio für die Speicherung auf einer CD bei einer Datenrate von etwa 1,5 Mbit/s“ [Kosch und Heuer 2003]. Auf der Audiokompression des MPEG-1 basiert auch der MPEG-1 Audio Layer 3, kurz MP3, der sich sehr schnell breiter Beliebtheit erfreute. Es folgten die Codecs MPEG-2, auf dem DVD und das Digitale Fernsehen mit DVB-S, DVB-C und DVB-T für Satelliten-, Kabel- und Antennenempfang auf di- gitalem Weg basieren, und MPEG-4, der Standard, der den Weg geebnet hat für den Einzug von Videos auf Mobiltelefone, tragbare Medienplayer und das Internet (wie z. B. Google Video, Youtube und MyVideo oder Video-Podcasts wie Ehrensenf ).

3.2 Der MPEG-7-Standard

3.2.1 Intention

MPEG-7 ist der erste Standard, der kein Kompressionsformat ist, sondern ein Multime- dia Content Description Interface. Bereits im März 2002 ist die Version 1 des MPEG- 7-Standards verabschiedet worden. Ziel von MPEG-7 ist, wie in [Salembier 2002] beschrieben, die Interoperabilität zwischen Geräten und Anwendungen, die audio- visuelle Inhalte austauschen, zu fördern. So wird die „Indizierung mit einem ein- heitlichen Framework, von der Erstellung über die Suche[, die Filterung und dem Zugriff ] bis hin zum Transport der Beschreibung“ [Kosch und Heuer 2003] audiovi- sueller Daten möglich. Früher entwickelte Multimedia-Beschreibungsstandards sind in ihrer Anwendung oft sehr begrenzt einsetzbar und auf bestimmte Anwendungs- domänen beschränkt oder stellen, „wie das Dublin Core Model,[...] Metadaten nur für einen kleinen Teil des Metadaten-Lebenszyklus (z. B. für die Erstellung) zur Verfügung“ [Kosch und Heuer 2003]. Manche wurden nur für den internen Gebrauch im Herstellerbetrieb entwickelt und sind auf kurze Listen von Attributen beschränkt, anstatt hierarchische Strukturen zu verwenden, oder können nur textuelle Beschreibun- gen zur Verfügung stellen. Aufgrund dieses Missstandes und um einen einheitlichen Standard zu entwickeln, der die Interoperabilität zwischen verschiedenen Systemen fördert, ist der MPEG-7-Standard definiert worden.

3.2.2 Aufbau

MPEG-7 enthält viele verschiedene Instrumente, um Inhalte zu beschreiben und den ge- samten Multimedia-Bereich abzudecken. Der Standard schreibt jedoch nicht bestimm- te Anwendungen vor, die zur Erstellung von MPEG-7-Beschreibungen benutzt wer- den müssen. Laut [Salembier 2002] ist dies auch nicht notwendig, um Interoperabilität zu garantieren. Es erlaubt zukünftig, Entwicklungen in MPEG-7-Anwendungen zu integrieren. Trotzdem ist es für manche Low-Level-Features nötig, dass Teile des Ex- traktionsprozesses durch den MPEG-7-Standard festgelegt werden. Die Autoren in [Hammiche et al. 2004] und [Kosch 2003] beschreiben den Aufbau von MPEG-7. Die verschiedenen Teile des Standards stellen eine Sammlung von Instrumenten bereit (Beschreibungstools), um Annotationen zu erzeugen. MPEG-7-Beschreibungen beste- hen aus Deskriptoren (Ds) und Beschreibungsstrukturen (Description Schemes, DSs). Ein Deskriptor repräsentiert Low-level-Features oder Attribute von Multimedia-Daten, wie z. B. Farbe, Textur, Text-Annotation und Medienformat, und definiert Syntax und Semantik für jedes Feature. Die Beschreibungstrukturen legen die Struktur und die Se- mantik der Beziehungen zwischen den Komponenten fest, die wiederum Deskriptoren oder Description Schemes sein können.

MPEG-7 basiert auf der strukturdefinierenden Extensible Markup Language (XML), der geeignetsten Sprache zur textuellen Darstellung von Inhaltsbeschreibungen, wie sie in [Kosch 2003] bezeichnet wird. Das XML-Schema ist die Basis für die Data Definiti- on Language (DDL), die verwendet wird für die syntaktische Definition von MPEG-7- Beschreibungstools. Dies „ermöglicht es, MPEG-7-Beschreibungen für die Anforderun- gen in den jeweiligen Applikationsfeldern anzupasssen“ [Kosch und Döller 2005] und erlaubt auch die Erweiterbarkeit der Beschreibungstools. „Durch diese Flexibilität und ein effizientes Format zur synchronen Übertragung“ [Kosch und Heuer 2003], steht ei- ne Nutzung für unterschiedliche Anwendungsdomänen offen, „ohne den mitunter auf- wendigen Prozess der Beschreibungsgenerierung“ [Kosch und Döller 2005] wiederholen zu müssen.

Listing D.1 auf Seite 79 zeigt die zu Abbildung 2.2 auf Seite 7 gehörenden Semantikund Visual-Deskriptoren (ColorLayoutType, ScalableColorType, EdgeHistogramType, DominantColorType) als vollständige MPEG-7-Instanz.

3.2.3 Teile des Standards

[Kosch und Döller 2005] unterteilen den MPEG-7-Standard in zehn Teile:

1. Systems
2. Data Definition Language (DDL)
3. Visual
4. Audio
5. Multimedia Description Schemes (MDS)
6. Referenzsoftware
7. Conformance
8. Extraktion und Benutzung
9. Profile
10. Schema Definition

In den folgenden Beschreibungen der einzelnen Punkte halte ich mich an die Definitionen aus [Kosch und Döller 2005].

Systems beschreibt Formate, in denen MPEG-7-Dokumente gespeichert und über ein Kommunikationsnetzwerk transportiert werden können. Den BiM-Codec (Binary For- mat MPEG-7 encoder und decoder), durch den die Komprimierung von MPEG-7- Dokumenten möglich wird, nennen die Autoren als wichtigen Bestandteil von Sys- tems. Die Data Definition Language legt nach [Kosch 2003] die Syntax der MPEG-7- Beschreibungstools fest und macht es möglich, neue DSs und Ds zu definieren und bestehende zu erweitern und zu modifizieren. Unter Visual verstehen die Autoren in [Kosch und Döller 2005] visuelle Deskriptoren , die vor allem den automatisch er- fassbaren Teil der Beschreibungen für Merkmale der Bilder und Videos abdecken. Als Beispiele dafür nennen die Autoren Deskriptoren für dominante Farben, globale oder lokale Farbverteilungen, Texturen, Bewegungsbeschreibungen und Formdeskripto- ren von Regionen. Audio oder Audiodeskriptoren definieren [Kosch und Döller 2005] als Merkmale von Audiosignalen (Sprache oder Musik), der Melodie oder Phonem- netzen, oder Beschreibungen der Eigenschaften der Erzeugerinstrumente. Multimedia Description Schemes sind nach [Sanchez et al. 2002] Beschreibungen für die Struk- tur und die Semantik der Beziehungen zwischen den Komponenten, die wiederum Deskriptoren oder Description Schemes sein können. Die Referenzsoftware (eXperi- mentation Model) sind Beispielimplementierungen für die Erzeugung und Verarbei- tung der MPEG-7-Deskriptoren und DSs, die im Standardisierungsprozess zur Va- lidierung eingesetzt wurden [Kosch und Döller 2005]. Die Referenzsoftware wird in Abschnitt 4.3.3 auf Seite 29 in dieser Arbeit vorgestellt und in Abschnitt 6.3.3 auf Seite 70 betrachtet. Laut [Kosch und Döller 2005] definiert Conformance Vorschrif- ten für Konformitätstests der MPEG-7-Beschreibungen. In Extraktion und Benut- zung werden „informative Beispiele für Instantiierung von Beschreibungsschemata“ [Kosch und Döller 2005] und „Ansätze für die Extraktion von Beschreibungen aus Me- dienströmen“ [Kosch und Döller 2005] gegeben. Die verschiedenen Komplexitätsstu- fen (sog. „levels“) von MPEG-7-Beschreibungen, werden durch Profile definiert (vgl. [Kosch und Döller 2005]). Dadurch vereinfacht es auch die Nutzung durch Beschrän- kung hinsichtlich des Beschreibungsumfangs. Wie das Konzept der Profile funktoniert, kann in [Schallauer et al. 2006] und [Bailer und Schallauer 2006] nachgelesen werden. Die Autoren entwickeln dort ein Detailed Audiovisual Profile (DAVP) um den Umgang mit MPEG-7-Dateien zu vereinfachen und die Interoperabilität zwischen Anwendungs- programmen zu fördern. Schlussendlich werden in der Schema Definition die MPEG- 7-Schemata aus den verschiedenen Versionen von Visual (Teil 3), Audio (Teil 4) und MDS (Teil 5) gesammelt und klassifiziert.

Die Nachteile, die XML mit sich bringt, sind zum Beispiel der hohe Speicherbedarf, der sich besonders bei der Übertragung bemerkbar macht „oder die fehlende Unterstützung Beschreibungen inkrementell zu übertragen“ [Kosch und Heuer 2003]. Deshalb wurde der in Systems (Teil 1) enthaltene BiM-Codec entwickelt, der Methoden „zur effizienten Kodierung und inkrementellen Übertragung (Streaming)“ [Kosch und Döller 2005] der MPEG-7-Dokumenten enthält. So können Medienströme und die beschreibenden MPEG-7-Ströme synchron miteinander übertragen werden oder getrennt davon. Dabei werden die Dokumente in Fragmente zerlegt und in Paketen, sogenannten „Access Units“ gruppiert (vgl. [Kosch und Döller 2005]).

In den folgenden Abschnitten wird auf die Teile Visual (in Abschnitt 3.3), Audio (in Abschnitt 3.4 auf Seite 18) und Spoken Conntent Representation (in Abschnitt 3.4.2 auf Seite 19) von MPEG-7 eingegangen, die auch von den analysierten MPEG-7- Anwendungen benutzt weden.

3.3 Visual

Die visuellen Deskriptoren dienen den Beschreibungen für Merkmale von Bildern und Videos. Wie Listing D.1 auf Seite 79 zeigt gehören dazu beispielsweise die Deskrip- toren: DominantColorType, ColorLayoutType, ScalableColorType und EdgeHistogram- Type, um dominante Farben, globale/lokale Farbverteilungen und Formen von Regio- nen zu erfassen. Der Autor in [Sikora 2001] nimmt eine Einteilung in allgemeine und domänenspezifische visuelle Deskriptoren vor. Die domänenspezifischen Deskriptoren enthalten z. B. Möglichkeiten, ein Gesicht zu extrahieren und ein Gesicht zu erkennen und zu identifizieren. Allgemeine Deskriptoren sind die bereits angesprochenen Farb-, Textur-, Form- und Bewegungsdeskriptoren, die in den betrachteten visuellen Werk- zeugen von Bedeutung sind und von den meisten Anwendungen benutzt werden.

3.3.1 Visuelle Farb-Deskriptoren

Es gibt sieben Farbdeskriptoren: zu ihnen gehören der Color Space Descriptor, Co- lor Quatization Descriptor, Dominant Color Descriptor (DC), Scalable Color Descrip- tor (SCD), Color Structure Descriptor (CSD) Color Layout Decriptor (CLD) und Group-of-Frames/Group-of-Pictures (GoF/GoP) Color Descriptor. Eine detaillierte Übersicht über die einzelnen Deskriptoren, wie ihre genaue Syntax lautet und wie sie erstellt werden können, ist ausführlich in [Kosch 2003] beschrieben und wird hier nicht weiter behandelt. Wie es Sikora in [Sikora 2001] beschreibt ist Farbe eines der am häufigsten verwendeten visuellen Merkmale zur Beschreibung von Inhalten in Bildern und Videos. Farbe ist nicht von der Ausrichtung des Bildes oder von der Bildgröße abhängig und robust gegenüber Farbverläufen des Hintergrundes. Es existiert nicht ein einziger Farb-Deskriptor für alle erdenklichen Anwendungen. Deshalb ist eine große Zahl an unterschiedlichen Deskriptoren notwendig (vgl. [Sikora 2001]). Beispiele für Farb-Deskriptoren findet man in Abbildung 3.1 auf der nächsten Seite. Bild (a) zeigt das zu Abbildung 2.2 auf Seite 7 gehörende Farbhistogramm mit Adobe Photoshop CS2, (b) die Visualisierung des Color Structure Descriptors in Caliph zu Abbildung 2.2 auf Seite 7.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Beispiele für Farb-Deskriptoren: (a) zeigt ein Farbhistogramm von Photoshop, (b) die Visualisierung eines Color Structure Descriptors in Caliph

3.3.2 Visuelle Textur-Deskriptoren

Texturen weisen visuelle Muster in Bildern auf, die auf Homogenität untersucht werden können. Diese Muster stammen von unterschiedlichen Farben oder von hellen und dunklen Farbintensitäten. Die Textur-Deskriptoren stellen (besonders in Kombination mit anderen MPEG-7-Deskriptoren) sehr präzise Mittel zur Ähnlichkeitssuche und zum Retrieval zur Verfügung (vgl. [Sikora 2001]). Der Autor in [Sikora 2001] unterteilt die Textur-Deskriptoren in Homogenous Texture Descriptors und Non Homogenous Texture Descriptors (Edge Histogramms). Dort kann auch ihre genaue Funktionsweise nachgelesen werden.

Um Texturerkennung zu verdeutlichen, sind in Abbildung 3.2 auf der nächsten Seite vier verschiedene Filter auf Abbildung 2.2 auf Seite 7 angewendet worden, die mögliche Texturen extrahieren. Dabei ist zu erkennen, dass auf den beiden rechten Bildern (b und d) von dem dunklen Affen keine Textur zu erkennen ist. Das zeigt, dass nicht jede Methode für jedes Bild gleichermaßen geeignet ist.

3.3.3 Visuelle Form-Deskriptoren

In [Sikora 2001] werden die visuellen Form-Deskriptoren beschrieben. Sie eigenen sich besonders zum Ähnlichkeitsvergleich von Bildern. Ermöglicht wird dies dadurch, dass die Form-Deskriptoren unabhängig von der Skalierung und der Drehung sind. Formen können zweidimensional oder dreidimensional vorliegen wie zum Beispiel ein 2-D-Bild einer Digitalkamera oder die 3-D-Welt eines Computerspiels. Deshalb gibt es auch Deskriptoren für 2-D- und 3-D-Objekte. Der Autor in [Sikora 2001] unterteilt die 2-D- Deskriptoren in zwei Kategorien. Konturbasierende Deskriptoren, die von der äußeren

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.2: Beispiele für Textur-Deskriptoren

Form des Objekts abhängen und regionsabhängige Deskriptoren, die in Regionen un- terteilt werden. Der 3-D Shape Descriptor bezieht sich auf ein Shape Spectrum Con- cept, d. h. ihm liegt ein Histogramm über den Kantenverlauf zu Grunde. Der Region- Based Descriptor beinhaltet eine komplexe Angular Radial Transformation (ART), die mit Polarkoordinaten regionsbasierte Formen beschreiben kann. Außerdem existieren noch Contour-Based Shape Descriptors und 2-D/3-D Shape Descriptors, wobei sich 3-D-Objekte durch eine bestimmte Anzahl an 2-D-Flächen darstellen lassen. Dies ist nur eine Zusammenfassung aus [Sikora 2001] und für detailliertere Beschreibungen sei dorthin oder auf [Bober 2001] verwiesen.

3.3.4 Bewegungsdeskriptoren

Alle bisher behandelten MPEG-7-Deskriptoren für Farbe, Textur und Formen können benutzt werden, um Bilder in Videosequenzen zu erfassen und zu indizieren. Farb- und Textur-Deskriptoren werden häufig zur zeitlichen Segmentierung des Videos genutzt und können zur Erkennung von Szenenübergängen (Fade-Out, Fade-In, Dissolve) ange- wandt werden. Grundsätzlich kann man Bewegung in Videos unterscheiden zwischen Bewegungen der Objekte im Video oder Bewegungen der Kamera (vgl. [Sikora 2001]). Zu den Motion Descriptors for Video zählt der Autor in [Sikora 2001] die Motion Activity Descriptors, Camera Motion Descriptors, Wraping Parameters (Die gesamte Bewegung wird als Referenz zu einem Globalen Mosaikbild ausgedrückt) und Motion Trajectory Descriptors (Bewegungen werden für jedes einzelne bewegte Objekt in der Videosequenz beschrieben).

3.4 Audio

3.4.1 Übersicht der Deskriptoren

Aus Audiosignalen können Low-Level-Features wie Tonhöhen, Lautstärke, Spektral- schwerpunkt und Spektralhülle extrahiert werden. Die Audiotools enthalten die zu- gehörigen Deskriptoren und die Description Schemes, also ihre Beschreibugsstruktu- ren. In [Quackenbush und Lindsay 2001] teilen die Autoren den MPEG-7-Audioteil in zwei Klassen ein. Die erste Klasse bilden die Low-Level-Features oder generischen Tools. Zu ihnen gehört das Audio Description Framework, das als Grundlage einen Skalierungsbaum besitzt und weitere Low-Level-Deskriptoren enthält. Dieser Skalie- rungsbaum erlaubt es, eine Reihe von Deskriptoren skalierbar darzustellen und so aussagekräftige Zusammenfassungen zu erstellen. Als Grundlage für diese Datentypen kommen Skalare, Vektoren oder Matrizen in Frage. Ein weiteres generisches Tool ist der Silence Descriptor. Er verbindet die einfache semantische „Stille“, also keine erfass- baren Geräusche, mit einem Audiosegment und kann somit zur Segmentierung von Audioströmen genutzt werden. Als zweite Klasse nennen die Autoren anwendungs- abhängige Beschreibungsinstrumente. Diese bestehen aus Sound Effects Description Tools, Musical Instrument Timbre Description Tools (Beschreibungen über Klangfar- ben von Instrumenten), Spoken Content Tools (im Abschnitt 3.4.2 auf der nächsten Seite behandelt) und Melody Contour Description Scheme (enthält melodische Infor- mation zum Vergleich auf melodische Ähnlichkeit). Genauere Beschreibungen können in [Quackenbush und Lindsay 2001] nachgelesen werden.

3.4.2 Spoken Content

Die Autoren in [Charlesworth und Garner 2001] untersuchen die Darstellung von Spo- ken Content in MPEG-7. Die Bedeutung des Spoken Content liegt nicht nur in der weiten Verbreitung, sondern auch in der direkten und natürlichen Anwendung. Grund- sätzlich unterscheidet sich vom algorithmischen Standpunkt aus betrachtet Spoken Content vom geschriebenen Text. Um Spoken Content mit Metadaten zu beschrei- ben, ohne manuelle Verfahren anzuwenden, bedarf es eines automatischen Spracher- kennungssystems (ASR - Automatic Speech Recognition). In ihrer Arbeit demons- trieren die Autoren, dass bei der Konstruktion des Spoken Content Descriptors die Anwendung von ASR eine wichtige Rolle spielt. Probleme bereiten die oft noch er- heblichen Fehler bei der automatischen Spracherkennung. An dieser Stelle möchte ich nicht weiter auf die genauen Strukturen eingehen. Eine detaillierte Beschreibung dieser Fehler und die Herangehensweise, diese so gut wie möglich zu kompensieren, sind in [Charlesworth und Garner 2001] ausführlich beschrieben.

4 MPEG-7-Annotierungstools

Dieses Kapitel beschreibt die betrachteten Anwendungen zur Annotierung von audiovisuellen Multimedia-Daten und Frameworks zur Erstellung und Verarbeitung von MPEG-7-Daten. Aufgeteilt ist die Übersicht in Visual-Tools, behandelt in Abschnitt 4.1 auf der nächsten Seite, Audio-Tools, behandelt in Abschnitt 4.2 auf Seite 25 und Frameworks in Abschnitt 4.3 auf Seite 27. Die Tabelle 4.1 zeigt eine Übersicht der Anwendungen nach den Medien, die bearbeitet werden können.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 4.1: Klassifizierung nach Medien

4.1 Visual-Tools

4.1.1 Caliph & Emir

Caliph & Emir 1 sind zwei Anwendungen zur Annotierung und Suche von Bildern mit MPEG-7-Deskriptoren. Entstanden sind die beiden Werkzeuge am Institut für Informationssysteme und Computer Medien (IICM)2 der Technischen Universität Graz3. Die weitere Entwicklung findet als offenes Projekt des Know-Center (Öster- reichs Kompetenzzentrum für Wissensmanagement)4 unter der GPL statt. Die Funk- tionsweisen und die Möglichkeiten der Anwendungen werden von den Entwicklern in [Lux et al. 2004] und [Lux et al. 2006] beschrieben. Caliph, die Abkürzung für Common And Lightweight Interactive Photo Annotation, ist ein Tool zur manuellen Annotierung der semantischen Beschreibungen von digitalen Bildern und zur auto- matischen Extraktion der Low-Level-Features. Es handelt sich also um eine semi- automatische Anwendung. Caliph kann EXIF5 - und IPTC IIM[6] -Metadaten von Bil- dern extrahieren und diese Informationen nach MPEG-7 konvertieren. Die Besonder- heit an Caliph ist das Semantic Annotation Panel, in dem der Benutzer semanti- sche MPEG-7-Elemente erstellen, verwalten und diese per Drag-and-Drop auf ein Zeichen-Panel ziehen und dort verknüpfen kann. Die semantischen Objekte werden als Graphknoten dargestellt und automatisch angeordnet. Diese können vom Benut- zer mit MPEG-7-Beziehungen versehen werden, die als Kanten zwischen ihnen an- gezeigt werden. Die Speicherung findet zu jedem einzelnen Bild in einer MPEG-7- Instanz statt, die im selben Verzeichnis gespeichert wird. Emir, die Abkürzung für Experimental Metadata-based Image Retrieval, ermöglicht ein Retrieval von Fotos aus auf dem Dateisystem gespeicherten Verzeichnissen, die zuvor mit Caliph annotiert wurden. Eine Suche kann mit Schlüsselwörtern, allgemeinen XPath-Statements, in- haltsbasierten Deskriptoren oder einfachen semantischen Graphen ausgeführt werden. Schlüsselworten, inahltsbasierten Deskriptoren und semantische Graphen werden da- zu in XPath-Statements übersetzt und die Suche wird auf jeder der gespeicherten MPEG-7-Instanzen ausgeführt.

4.1.2 M-Ontomat-Annotizer

Der M-Ontomat-Annotizer7 ist eine Anwendung des aceMedia 8 -Projektes [Hare et al. 2006b] zur Analyse und Annotierung von Multimedia-Daten. Das Tool nutzt Ontologien zur Annotierung und benötigt die Visual Discriptor Ontology (VDO), die auf der Internetseite des Projekts verfügbar ist zur Verarbeitung von Bildern und Videos. Die Ontologie beschreibt die Darstellungen der Deskriptoren aus MPEG-7 Visual in RDF-Schemata. Des Weiteren gibt es eine Multimedia Structure Ontology (MSO), die den MPEG-7-MDS-Teil modelliert. Diese Ontologien ermöglichen eine Repräsentation von Multimedia-Informationen in Domänen- Ontologien und ein Erkennen dieser Informationen. Der M-Ontomat-Annotizer basiert auf dem CREAM (Creating Metadata for the Semantic Web) Framework [Handschuh et al. 2002] und ist eine Erweiterung der Referenzimplementierung OntoMat-Annotizer [Handschuh und Staab 2003] zur benutzerfreundlichen Anno- tierung von Low-Level-Features. Das M im Namen steht für Multimedia. Die Extrahierung von Low-Level-Features wird dabei durch den Visual Descriptior Extractor (VDE), ein Plugin für Ontomat-Annotizer, unterstützt. Dieses Plugin ist die Hauptkomponente zur Erweiterung der Fähigkeiten und unterstützt die Initialisierung und Verknüpfung von RDF(S)-Ontologien und den Low-Level-Features. Der VDE Visual Editor und Media Viewer stellen eine graphische Benutzeroberfläche zum Laden, Ausführen von visuellen Daten (Bilder und Videos), Extrahierung der Features und Verknüpfung mit Ontologien bereit. Der Benutzer muss eine Region im Bild oder Frame aufzeichnen, kann den gewünschten MPEG-7-Deskriptor angeben und muss das passende Konzept oder die Instanz im Ontologie-Browser auswählen (vgl. [Petridis et al. 2005] und [Saathoff et al. 2006]).

4.1.3 VideoAnnEx

Das IBM MPEG-7 Annotation Tool9, kurz VideoAnnEx, ist ein Werkzeug zur Anno- tierung von Videosequenzen mit MPEG-7-Beschreibungen, das am IBM T. J. Watson Research Center 10 entwickelt wurde. Jeder Shot in einem Video kann dabei mit Be- schreibungen für statische Szenen, Schlüsselobjekte, Ereignisse und andere Elemente annotiert werden.

[...]


[1] http://www.bitkom.org/de/presse/30739_40990.aspx

[2] http://www.youtube.com

[3] http://dublincore.org/

[4] http://www.i3a.org/i_dig35.html

[5] http://www.ebu.ch/metadata/pmeta/

[6] http://www.bbc.co.uk/guidelines/smef/

[7] http://www.smpte.org/smpte_store/standards/pdf/s380m.pdf

[8] http://www.tv-anytime.org/

[1] http://www.w3.org/

[1] http://www.chiariglione.org/mpeg/

[1] http://www.semanticmetadata.net/

[2] http://www.cs.tugraz.at/cs/de/aboutus/institutes/iicm/index.html

[3] http://www.tugraz.at/

[4] http://www.know-center.tugraz.at/

[5] http://www.exif.org/

[6] http://www.iptc.org/IIM/

[7] http://www.acemedia.org/aceMedia/results/software/m-ontomat-annotizer.html

[8] http://www.acemedia.org/

[9] http://www.alphaworks.ibm.com/tech/videoannex

[10] http://www.watson.ibm.com/index.shtml

Ende der Leseprobe aus 100 Seiten

Details

Titel
Vergleich bestehender MPEG-7-Annotierungstools
Hochschule
Universität Passau  (Lehrstuhl für verteilte Informationssysteme)
Note
1,0
Autor
Jahr
2007
Seiten
100
Katalognummer
V93729
ISBN (eBook)
9783638064408
ISBN (Buch)
9783638951340
Dateigröße
6730 KB
Sprache
Deutsch
Anmerkungen
Aus der Arbeit entstand eine Veröffentlichung bei der I-MEDIA ’07 I-SEMANTICS ’07 - International Conferences on New Media Technology and Semantic Systems
Schlagworte
Vergleich, MPEG-7-Annotierungstools
Arbeit zitieren
Nikolaus Lefin (Autor:in), 2007, Vergleich bestehender MPEG-7-Annotierungstools, München, GRIN Verlag, https://www.grin.com/document/93729

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Vergleich bestehender MPEG-7-Annotierungstools



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden