Hadoop Research Cluster Initiative

Motivation und Ziele

Gemeinsam mit Industriepartnern hat das CCWI das Forschungsprojekt HadoopResearchCluster zur Untersuchung und Erprobung von speziellen Anwendungsszenarien für die Quasi-Echtzeit- und Batchverarbeitung und für die Analyse umfangreicher Daten initiiert. Für diese Aufgabe soll ein bereits vorhandener Apache-Hadoop-Cluster verwendet und ausgebaut werden.

Ziel dieses industrienahen Forschungsvorhabens ist es, offene Fragen in der sog. Big Data-Verarbeitung zu beantworten und Best-Practice-Ansätze für die Verarbeitung und Analyse großer Datenmengen insbesondere unter Nutzung des Apache-Hadoop-Frameworks zu erarbeiten. Für spezielle Anwendungszenarien, die große Datenmengen verarbeiten, soll untersucht werden, ob die Nutzung von Apache Hadoop und anderer Werkzeuge einen Mehrwert bei der Verarbeitung bringt und es soll erarbeitet werden, welche fachlichen Problemstellungen ganz besonders für die Verarbeitung mit Apache Hadoop geeignet sind.

Eigene Erfahrung

In den letzten Jahren wurde im bereits laufenden Hochschulprojekt MPI (Massively Adhoc Processing in the Internet) gemeinsam mit der Verwertungsgesellschaft GEMA die Verarbeitung von Musiknutzungen über Online-Anbieter wie Spotify, Amazon und iTunes auf Basis von MapReduce- und NoSQL-Technologien untersucht. Spezielle Algorithmen zur Verarbeitung wurden und werden entwickelt und somit liegen bereits Erfahrungen in der Verarbeitung von umfangreichen Datenbeständen für internetbasierte Anwendungen vor. Diese Erkenntnisse sollen als Basis für die Untersuchung weiterer Anwendungsszenarien genutzt werden.

Weitere Erfahrungen wurden im Projekt WCC bei der Auswertung von Twitter-Streams in Quasi-Echtzeit, im Projekt ReCoM für die Berechnung von Empfehlungen auf Basis von Apache Mahout sowie bei der Auswertung großer Tracking-Datensätze im E-Commerce-Umfeld gesammelt. Berechnungen wurden sowohl über Rechner-Cluster auf Basis der Amazon-Cloud, als auch in eigenen Testumgebungen durchgeführt.

Interessierende Fragestellungen

Das Projekt fällt in das relativ neue Forschungsumfeld rund um die „Big Data“-Verarbeitung, in dem noch viele Fragen ungeklärt sind. Insbesondere ist es heute noch relativ offen, welche Problemstellungen sich nutzbringend mit Big-Data-Technologien wie Apache Hadoop und NoSQL-Datenbanken verarbeiten lassen. Auch die Verarbeitung von Daten in Quasi-Echtzeit wird zwar viel diskutiert, jedoch sind der konkrete Nutzen und die Machbarkeit in bestimmten Anwendungsszenarien oft noch schwer einzuschätzen.

Im HadoopResearchCluster-Projekt sollen zu Fragestellungen in diesem Umfeld mit konkreten praxisrelevanten Problemstellungen aus der angewandten Informatik neue und anwendbare Erkenntnisse erarbeitet werden. Unter anderem sollen folgende Fragestellungen untersucht werden:

  • Welche Anwendungsszenarien eignen sich besonders für die Nutzung von Hadoop- und NoSQL-Technologien und in welchen Kombinationen sind die Technologien sinnvoll einsetzbar. Sind allgemeingültige Muster bzw. Empfehlungen ableitbar?
  • Wie können MapReduce- und NoSQL-Ansätze mit traditionellen Verarbeitungsverfahren sinnvoll kombiniert werden?
  • Welche Alternativen  zu MapReduce gibt es und in welchen Szenarien sind sie sinnvoll?
  • Welche Konsistenzmodelle für die Datenhaltung sind für bestimmte Anwendungsszenarien besonders oder weniger geeignet (CAP-Theorem, PACELC-Theorem in der konkreten Anwendung)?
  • Kann man Big-Bata-Cluster in virtueller Umgebung unterstützen und sinnvoll betreiben?
  • Welche Kosten entstehen insbesondere für die Verarbeitung konkreter Anwendungsszenarien mit Hadoop und NoSQL unter Berücksichtigung der ständig wachsenden Datenmengen (Wirtschaftlichkeitsbetra­ch­tung)?

Teilnahme

Gesucht sind Projektpartner, die in einer Mentorenrolle spezielle Anwendungsszenarien einbringen können, aber auch Projektpartner, die konzeptionell mitwirken und sich an der Diskussion beteiligen. Besonders geeignet sind Unternehmen mit Anwendungsszenarien, die noch nicht erforscht sind und für die auch Testdatensätze erstellt werden können. Willkommen sind vor allem Unternehmen aus dem Versicherungs- und Bankenwesen, Handelsunternehmen (E-Com­merce, Logistik), Unternehmen aus dem öffentlichen Nah- und Fernverkehr, Softwaredienstleister sowie Hochschulen und Universitäten.

Geeignete Anwendungsszenarien verarbeiten große Datenmengen im Batch oder mit höheren Echtzeitanforderungen. Typische Datensätze werden u.a. beim Logging von Ereignissen aus dem CEP-Umfeld, beim Verkauf über Online-Shopsysteme, bei Tracking unterschiedlichster Ereignisse zur Fehlerdiagnose, bei der Datensammlung für die Ermittlung von Empfehlungen, bei der Online-Musiknutzung und bei der Massendatenverarbeitung aus dem Social Media-Umfeld gesammelt.

Nutzen für die Projektpartner

Nur wenige große Unternehmen wie Amazon, Google, Facebook, Yahoo, usw. können es sich leisten, eigene Big-Data/MapReduce-Cluster zu betreiben. Der Aufbau, die Administration und das Monitoring derartiger Umgebungen sind aufwändig. Durch die Bereitstellung und den Betrieb eines Hochschul-Clusters für die Erprobung von Anwendungsszenarien mehrerer Partnerunternehmen sind Synergien und Einsparungen möglich, wobei sich die Kosten der Beteiligten in Grenzen halten.

Gemäß unserem Anspruch Praxis, Forschung und Lehre miteinander zu verbinden soll das Forschungsvorhaben intensiv in die Lehre eingebracht werden (Forschung, die auch der Lehre dient), so dass Studierende ihre Studien- und Abschlussarbeiten im Rahmen von Cluster-Projekten ausführen können. Eine enge Zusammenarbeit der Projektpartner mit unseren Studierenden, wissenschaftlichen MitarbeiterInnen und ProfessorInnen wird damit angestrebt.

Die Projektpartner sind zudem an sehr innovativen Themenstellungen beteiligt und wirken an anwendungsnaher Forschung mit eigenen Problemstellungen in Big-Data-Themenstellungen mit.

Die gesammelten Erkenntnisse werden gemeinsam und in Abstimmung mit den Projektpartnern veröffentlicht.

Aktuelle Forschungsumgebung

Der bestehende Apache-Hadoop-Cluster wird im Labor für Middlewaretechnologien betreut. Der Cluster wird in eine VMware-Virtualisierungsumgebung auf Basis von leistungsstarken ESXi-Servern integriert und wird aktuell um Admini­stra­tionsfunktionalität erweitert. Im Rahmen des Projekts soll der VMWare-Cluster um zusätzlichen Storage und  weitere ESXi-Server ausgebaut werden.

Der Ausbau des Apache-Hadoop-Clusters soll in zwei Stufen zunächst in einer ersten Stufe auf 100 und in einer Ausbaustufe auf 200 virtuelle Nodes (Data Nodes bzw. Task Tracker) erfolgen. Die Ablaufumgebung der Nodes bilden virtuelle Linux-CentOS-Systeme, die in der VMware-Umgebung verwaltet werden. Die zu verarbeitenden Daten sowie die Zwischen- und Endergebnisse der Verarbeitung werden in einem angebundenen Storage Area Network abgelegt.

Teilnahmegebühren

Das Projekt finanziert sich im Wesentlichen über Drittmittel, wobei Sponsoring-Verträge über vier Jahre abgeschlossen werden.

Unsere Sponsoren unterstützen durch einen Jahresbeitrag und bringen in der Rolle aktiver Projektteilnehmer konkrete Anwendungsfälle für die Erprobung ein.

Projektmitglieder und Zusammenarbeit

  • Prof. Dr. Peter Mandl
  • Prof. Dr. Jochen Hertle
  • Prof. Dr.-Ing. Rainer Schmidt
  • Alexander Döschl, M. Sc. (Konzeption, Aufbau und Admini­stra­tion des Apache-Hadoop-Clusters)
  • Leniuska Alvarado-Matthes, Dipl. Inf. (Betreuung der Virtualisierungsumgebung)
  • Hilfswissenschaftler und Studierende aus unseren Bachelor- und Masterstudiengängen Informatik und Wirtschaftsinformatik (Projektstudien, Studienarbeiten, Abschlussarbeiten)
  • Die Mitarbeit der Projektpartner über ein Mentoring (Konzeption, Betreuungsunterstützung bei Abschlussarbeiten usw.) wird angestrebt.

Die Bearbeitung der Anwendungsszenarien erfolgt in kleinen Projektgruppen bestehend aus wissenschaftlichen Mitarbeitern, Mentoren der Projektpartner und Studierenden, die sich regelmäßig abstimmen. Die Koordination übernehmen Mitarbeiter des CCWI.

Projektleitung und Organisation

Bei Fragen zum Projekt wenden Sie sich bitte an: Prof. Dr. Peter Mandl [mandl @ cs.hm.edu]

Wichtige Termine

01.03.2015: Partnerfindung abgeschlossen, Projektstart

01.10.2015: Hadoop-Cluster mit 100 virtuellen Knoten

01.09.2016: Veröffentlichung erster Zwischenergebnisse

01.01.2017: Hadoop-Cluster mit 200 virtuellen Knoten

30.06.2018: Projektabschluss und Abschlussveröffentlichung