Efficient processing of large-scale spatio-temporal data

Bibliographische Detailangaben

Titel
Efficient processing of large-scale spatio-temporal data
verantwortlich
Hagedorn, Stefan (VerfasserIn); Sattler, Kai-Uwe (AkademischeR BetreuerIn); Seeger, Bernhard (AkademischeR BetreuerIn); Gertz, Michael (AkademischeR BetreuerIn); Technische Universität Ilmenau (Grad-verleihende Institution)
Hochschulschriftenvermerk
Dissertation, Technische Universität Ilmenau, 2020
veröffentlicht
Ilmenau: , [2020?]
Erscheinungsjahr
2020
Erscheint auch als
Hagedorn, Stefan, 1985 - , Efficient processing of large-scale spatio-temporal data, Ilmenau : Universitätsbibliothek, 2020, 1 Online-Ressource (148 Seiten)
Medientyp
Buch Hochschulschrift
Datenquelle
K10plus Verbundkatalog
Tags
Tag hinzufügen
Zusammenfassung
Millionen Geräte, wie z.B. Mobiltelefone, Autos und Umweltsensoren senden ihre Positionen zusammen mit einem Zeitstempel und weiteren Nutzdaten an einen Server zu verschiedenen Analysezwecken. Die Positionsinformationen und übertragenen Ereignisinformationen werden als Punkte oder Polygone dargestellt. Eine weitere Art räumlicher Daten sind Rasterdaten, die zum Beispiel von Kameras und Sensoren produziert werden. Diese großen räumlich-zeitlichen Datenmengen können nur auf skalierbaren Plattformen wie Hadoop und Apache Spark verarbeitet werden, die jedoch z.B. die Nachbarschaftsinformation nicht ausnutzen können - was die Ausführung bestimmter Anfragen praktisch unmöglich macht. Die wiederholten Ausführungen der Analyseprogramme während ihrer Entwicklung und durch verschiedene Nutzer resultieren in langen Ausführungszeiten und hohen Kosten für gemietete Ressourcen, die durch die Wiederverwendung von Zwischenergebnissen reduziert werden können. Diese Arbeit beschäftigt sich mit den beiden oben beschriebenen Herausforderungen. Wir präsentieren zunächst das STARK Framework für die Verarbeitung räumlich-zeitlicher Vektor- und Rasterdaten in Apache Spark. Wir identifizieren verschiedene Algorithmen für Operatoren und analysieren, wie diese von den Eigenschaften der zugrundeliegenden Plattform profitieren können. Weiterhin wird untersucht, wie Indexe in der verteilten und parallelen Umgebung realisiert werden können. Außerdem vergleichen wir Partitionierungsmethoden, die unterschiedlich gut mit ungleichmäßiger Datenverteilung und der Größe der Datenmenge umgehen können und präsentieren einen Ansatz um die auf Operatorebene zu verarbeitende Datenmenge frühzeitig zu reduzieren. Um die Ausführungszeit von Programmen zu verkürzen, stellen wir einen Ansatz zur transparenten Materialisierung von Zwischenergebnissen vor. Dieser Ansatz benutzt ein Entscheidungsmodell, welches auf den tatsächlichen Operatorkosten basiert. In der Evaluierung vergleichen wir die verschiedenen Implementierungs- sowie Konfigurationsmöglichkeiten in STARK und identifizieren Szenarien wann Partitionierung und Indexierung eingesetzt werden sollten. Außerdem vergleichen wir STARK mit verwandten Systemen. Im zweiten Teil der Evaluierung zeigen wir, dass die transparente Wiederverwendung der materialisierten Zwischenergebnisse die Ausführungszeit der Programme signifikant verringern kann.
Umfang
148 Seiten; Diagramme, Illustrationen (teilweise farbig)
Sprache
Englisch
Schlagworte
BK-Notation
54.64 Datenbanken