Efficient processing of large-scale spatio-temporal data
Bibliographische Detailangaben
- Titel
- Efficient processing of large-scale spatio-temporal data
- verantwortlich
- ; ; ; ;
- Hochschulschriftenvermerk
- Dissertation, Technische Universität Ilmenau, 2020
- veröffentlicht
-
Ilmenau: , [2020?]
- Erscheinungsjahr
- 2020
- Erscheint auch als
- Hagedorn, Stefan, 1985 - , Efficient processing of large-scale spatio-temporal data, Ilmenau : Universitätsbibliothek, 2020, 1 Online-Ressource (148 Seiten)
- Medientyp
- Buch Hochschulschrift
- Datenquelle
- K10plus Verbundkatalog
- Tags
- Tag hinzufügen
Zugang
Weitere Informationen sehen Sie, wenn Sie angemeldet sind. Noch keinen Account? Jetzt registrieren.
Andere Ausgaben
- Details Klicken Sie hier, um den Inhalt der Registerkarte zu laden.
- Standorte Klicken Sie hier, um den Inhalt der Registerkarte zu laden.
- Internformat Klicken Sie hier, um den Inhalt der Registerkarte zu laden.
- Zusammenfassung
- Millionen Geräte, wie z.B. Mobiltelefone, Autos und Umweltsensoren senden ihre Positionen zusammen mit einem Zeitstempel und weiteren Nutzdaten an einen Server zu verschiedenen Analysezwecken. Die Positionsinformationen und übertragenen Ereignisinformationen werden als Punkte oder Polygone dargestellt. Eine weitere Art räumlicher Daten sind Rasterdaten, die zum Beispiel von Kameras und Sensoren produziert werden. Diese großen räumlich-zeitlichen Datenmengen können nur auf skalierbaren Plattformen wie Hadoop und Apache Spark verarbeitet werden, die jedoch z.B. die Nachbarschaftsinformation nicht ausnutzen können - was die Ausführung bestimmter Anfragen praktisch unmöglich macht. Die wiederholten Ausführungen der Analyseprogramme während ihrer Entwicklung und durch verschiedene Nutzer resultieren in langen Ausführungszeiten und hohen Kosten für gemietete Ressourcen, die durch die Wiederverwendung von Zwischenergebnissen reduziert werden können. Diese Arbeit beschäftigt sich mit den beiden oben beschriebenen Herausforderungen. Wir präsentieren zunächst das STARK Framework für die Verarbeitung räumlich-zeitlicher Vektor- und Rasterdaten in Apache Spark. Wir identifizieren verschiedene Algorithmen für Operatoren und analysieren, wie diese von den Eigenschaften der zugrundeliegenden Plattform profitieren können. Weiterhin wird untersucht, wie Indexe in der verteilten und parallelen Umgebung realisiert werden können. Außerdem vergleichen wir Partitionierungsmethoden, die unterschiedlich gut mit ungleichmäßiger Datenverteilung und der Größe der Datenmenge umgehen können und präsentieren einen Ansatz um die auf Operatorebene zu verarbeitende Datenmenge frühzeitig zu reduzieren. Um die Ausführungszeit von Programmen zu verkürzen, stellen wir einen Ansatz zur transparenten Materialisierung von Zwischenergebnissen vor. Dieser Ansatz benutzt ein Entscheidungsmodell, welches auf den tatsächlichen Operatorkosten basiert. In der Evaluierung vergleichen wir die verschiedenen Implementierungs- sowie Konfigurationsmöglichkeiten in STARK und identifizieren Szenarien wann Partitionierung und Indexierung eingesetzt werden sollten. Außerdem vergleichen wir STARK mit verwandten Systemen. Im zweiten Teil der Evaluierung zeigen wir, dass die transparente Wiederverwendung der materialisierten Zwischenergebnisse die Ausführungszeit der Programme signifikant verringern kann.
- Umfang
- 148 Seiten; Diagramme, Illustrationen (teilweise farbig)
- Sprache
- Englisch
- Schlagworte
- BK-Notation
- 54.64 Datenbanken