Eine Analyse der Verteilung von RDF-Daten in einer Cloud
Organisatorisches
- Art der Arbeit: Diplomarbeit / Masterarbeit
- Status: beendet
- Institut: Computervisualistik
- Prüfungsamt-ID:
- Interne BetreuerIn: Prof. Dr. Steffen Staab
- Student: Michael Peter Schulze
- Beginn: 25.07.2009
- Ende: Juni 2010
Einführung
Durch die vermehrte Nutzung von RDF (Resource Description Framework) zur
maschinell auswertbaren semantischen Beschreibung von Ressourcen sind riesige
Mengen von RDF-Daten (im weiteren RDFD) entstanden. Eine Aufgabe in
der Zukunft wird es sein, diese großen Datenmengen in einem für RDFD konstruierten
DBMS zu verwalten. Trotz der einfachen Form solcher RDFD, Menge
von Subjekt-Prädikat-Objekt Tripeln, sind hiermit neue Herausforderungen verbunden.
So ist eine Herausforderung diese Datenmengen mit den verfügbaren
Hardwareressourcen in einem angemessenen finanziellen Rahmen zu verwalten.
Ein Ansatz ist, diese RDFD mittels eines Rechners zu verwalten. Jedoch besteht
hier das Problem der damit verbundenen Kosten der Anschaffung bzw.
bei immer größeren Datenmengen der Anpassung der Hardware dieses Rechners.
Gerade bei kleinen und mittelständigen Unternehmen kann eine solche
Lösung den finanziellen Rahmen überschreiten.
Ein hier favorisierter Lösungsansatz ist das Verteilen der RDFD auf mehrere
Rechner und die Bereitstellung einer adäquaten Anfragesprache. So besteht die
Möglichkeit die Hardwareressourcen aller beteiligten Rechner zu nutzen.
Auf welchem Rechner bzw. Knoten die RDFD gespeichert sind bzw. wie eine
Anfrage im Detail ausgeführt wird, also auf welchen Rechnern Teile der Anfrage
ausgeführt werden, bleibt den Benutzern verborgen. Um dieser Anforderung
hinsichtlich der Effizienz eines solchen Systems gerecht zu werden, müssen neue
RDFD vollautomatisiert geschickt auf die entsprechenden Knoten verteilt und
Anfragen vollautomatisiert an die Knoten gesendet werden, auf welchen die
entsprechenden Daten gespeichert sind.
Aufgaben
Es existiert eine Vielzahl von Arbeiten, die das Verwalten von RDFD thematisieren.
Ein Teil meiner Diplomarbeit (im weiteren DA) ist es, einen Überblick
über die bisherigen Verfahren zur Verwaltung von RDFD zu geben. Zudem wird
ein Überblick über Systeme, mit deren Hilfe die Konstruktion eines RDF-Clouds
realisierbar erscheint, gegeben und diese hinsichtlich ihrer Nutzung diskutiert.
Um dem Benutzer eine performante Anfrageunterstützung zu gewährleisten
müssen die RDFD beim Einfügen in die Datenbank so über die Knoten des
Clouds verteilt werden, daß die physikalische Lokalität inhaltsgleicher und ähnlicher Daten so groß wie möglich ist, da es aufgrund der Datenmenge ansonsten, insbesondere bei Verbundanfragen, zu enormen Effizienzverlust kommenkann. Teil der DA ist es Verfahren zum automatisierten Einfügen von RDFD in Clouds mit Berücksichtigung der entsprechenden Architektur des zugrundeliegenden Systems zur Erstellung von Clouds zu entwickeln und vorzustellen. Diese sind so zu entwickeln, daß eine perfomante Anfrageunterstützung für einfache Verbund- und Selektionsanfragen besteht. Die Verfahren sollen prototypisch realisiert werden.
Desweiteren soll das von mir entwickelte System zusammen mit den von mir
entwickelten Verfahren bezüglich der Effizienz zu bestimmten Anfragen mittels
realitätsnahen Testdaten aus verschiedenen Anwendungsbereichen von RDF
evaluiert werden. Eine Diskussion über die Brauchbarkeit, Vor- und Nachteile
des entwickelten Systems in realen Anwendungen soll basierend auf der Evaluierung auch Inhalt der DA sein.
Zielsetzung
Die DA soll einen Überblick über den aktuellen Forschungsstand der eingesetzten
Verfahren zum Speichern und Verwalten von RDFD geben und die Vor- und
Nachteile verschiedener Systeme, welche zur Konstruktion eines RDF-Clouds
dienlich scheinen, aufzeigen. Diese Diskussion wird stets hinsichtlich der Annahme
von sehr großen Datenmengen geführt werden.
Der Schwerpunkt der DA liegt in der Entwicklung eines prototypisch realisierten
Clouds zur Verwaltung der RDFD und der damit einhergehenden Evaluierung.
Die hiermit verbundenen Schwierigkeiten und Teilprobleme sollen aufgezeigt
und so weit wie möglich gelöst werden. Auf das oben genannte Teilproblem
zur geschickten Verteilung von RDFD, so daß einfache Anfragen performant unterstützt
werden, wird ebenfalls ein besonderes Augenmerk gelegt.
Nicht Ziel der DA ist es, die verschiedenen diskutierten Systeme zur Cloudkonstruktion
zu evaluieren. Vielmehr dient die Vorstellung und Diskussion als
Entscheidungsgrundlage, welches System zur Entwicklung des RDF-Clouds in
der DA genutzt wird. Auch ist es nicht Ziel der DA, daß das entwickelte RDFCloud
eine komplexe Anfragesprache unterstützt. Es wird lediglich eine Schnittstelle
für einfache Verbund- und Selektionsanfragen zur Verfügung gestellt.
Kontakt