Efficient processing of large-scale spatio-temporal data

Titel: Efficient processing of large-scale spatio-temporal data
verantwortlich: Hagedorn, Stefan (VerfasserIn); Sattler, Kai-Uwe (AkademischeR BetreuerIn); Seeger, Bernhard (AkademischeR BetreuerIn); Gertz, Michael (AkademischeR BetreuerIn); Technische Universität Ilmenau (Grad-verleihende Institution)
Hochschulschriftenvermerk: Dissertation, Technische Universität Ilmenau, 2020
veröffentlicht: Ilmenau: , [2020?]
Erscheinungsjahr: 2020
Erscheint auch als: Hagedorn, Stefan, 1985 - , Efficient processing of large-scale spatio-temporal data, Ilmenau : Universitätsbibliothek, 2020, 1 Online-Ressource (148 Seiten)
Medientyp: Buch Hochschulschrift
Datenquelle: K10plus Verbundkatalog
Tags: Tag hinzufügen

Zugang

Weitere Informationen sehen Sie, wenn Sie angemeldet sind. Noch keinen Account? Jetzt registrieren.

Andere Ausgaben

Hagedorn, Stefan, 1985 - , Efficient processing of large-scale spatio-temporal data, Ilmenau : Universitätsbibliothek, 2020, 1 Online-Ressource (148 Seiten)

Zusammenfassung: Millionen Geräte, wie z.B. Mobiltelefone, Autos und Umweltsensoren senden ihre Positionen zusammen mit einem Zeitstempel und weiteren Nutzdaten an einen Server zu verschiedenen Analysezwecken. Die Positionsinformationen und übertragenen Ereignisinformationen werden als Punkte oder Polygone dargestellt. Eine weitere Art räumlicher Daten sind Rasterdaten, die zum Beispiel von Kameras und Sensoren produziert werden. Diese großen räumlich-zeitlichen Datenmengen können nur auf skalierbaren Plattformen wie Hadoop und Apache Spark verarbeitet werden, die jedoch z.B. die Nachbarschaftsinformation nicht ausnutzen können - was die Ausführung bestimmter Anfragen praktisch unmöglich macht. Die wiederholten Ausführungen der Analyseprogramme während ihrer Entwicklung und durch verschiedene Nutzer resultieren in langen Ausführungszeiten und hohen Kosten für gemietete Ressourcen, die durch die Wiederverwendung von Zwischenergebnissen reduziert werden können. Diese Arbeit beschäftigt sich mit den beiden oben beschriebenen Herausforderungen. Wir präsentieren zunächst das STARK Framework für die Verarbeitung räumlich-zeitlicher Vektor- und Rasterdaten in Apache Spark. Wir identifizieren verschiedene Algorithmen für Operatoren und analysieren, wie diese von den Eigenschaften der zugrundeliegenden Plattform profitieren können. Weiterhin wird untersucht, wie Indexe in der verteilten und parallelen Umgebung realisiert werden können. Außerdem vergleichen wir Partitionierungsmethoden, die unterschiedlich gut mit ungleichmäßiger Datenverteilung und der Größe der Datenmenge umgehen können und präsentieren einen Ansatz um die auf Operatorebene zu verarbeitende Datenmenge frühzeitig zu reduzieren. Um die Ausführungszeit von Programmen zu verkürzen, stellen wir einen Ansatz zur transparenten Materialisierung von Zwischenergebnissen vor. Dieser Ansatz benutzt ein Entscheidungsmodell, welches auf den tatsächlichen Operatorkosten basiert. In der Evaluierung vergleichen wir die verschiedenen Implementierungs- sowie Konfigurationsmöglichkeiten in STARK und identifizieren Szenarien wann Partitionierung und Indexierung eingesetzt werden sollten. Außerdem vergleichen wir STARK mit verwandten Systemen. Im zweiten Teil der Evaluierung zeigen wir, dass die transparente Wiederverwendung der materialisierten Zwischenergebnisse die Ausführungszeit der Programme signifikant verringern kann.
Umfang: 148 Seiten; Diagramme, Illustrationen (teilweise farbig)
Sprache: Englisch
Schlagworte: Big Data > Raumdaten > Rastergrafik > Framework > Apache Spark > Hadoop
BK-Notation: 54.64 Datenbanken

Efficient processing of large-scale spatio-temporal data

Bibliographische Detailangaben

Zugang

Andere Ausgaben