Verarbeitung komplexer XML-basierter Massendaten in BigData-Anwendungen

  • Max-Emanuel Keller
  • Peter Mandl
  • Alexander Döschl
  • Daniel Kailer Hochschule München
  • Markus Grimm

Abstract

XML ist ein semi-strukturiertes Datenbeschreibungsformat, das aufgrund weiter Verbreitung und steigender Datenmengen auch als Eingabeformat für eine BigData-Verarbeitung relevant ist. Der vorliegende Beitrag befasst sich daher mit der Nutzung komplexer XML-basierter Datenstrukturen als Eingabeformat für BigData-Anwendungen. Werden umfangreiche komplexe XML-Datenstrukturen mit verschiedenen XML-Typen in einer zu verarbeitenden XML-Datei beispielsweise mit Apache Hadoop verarbeitet, kann das Einlesen der Daten die Laufzeit einer Anwendung dominieren. Unser Ansatz befasst sich mit der Optimierung der Eingabephasen, indem Zwischenergebnisse der Verarbeitung im Arbeitsspeicher abgelegt werden.  Der Aufwand für die Verarbeitung reduziert sich damit zum Teil erheblich. Anhand einer Fallstudie aus der Musikbranche, in der standardisierte XML-basierte Formate wie das DDEX-Format genutzt werden, wird experimentell gezeigt, dass die Verarbeitung mit unserem Ansatz im Vergleich zur klassischen Abarbeitung von Dateiinhalten deutlich effizienter ist.
Veröffentlicht
2017-12-12
##submission.howToCite##
KELLER, Max-Emanuel et al. Verarbeitung komplexer XML-basierter Massendaten in BigData-Anwendungen. AKWI, [S.l.], n. 6, p. 20-27, dez. 2017. ISSN 2296-4592. Verfügbar unter: <https://ojs-hslu.ch/ojs302/index.php/AKWI/article/view/93>. Date accessed: 21 aug. 2018.
Rubrik
Grundlagen