Prof. Dr. Volker Markl
Technische Universität Berlin, Fachgebiet Datenbanksysteme und Informationsmanagement
Cloud Computing bietet Dienste aus Soft- und Hardware in einem Pay-as-you-go-Modell an. Speicher, Rechenzeit oder komplexere Dienste können über festgelegte Schnittstellen abgefordert werden, wobei es keine Rolle spielt, auf welcher Hardware diese letztendlich ausgeführt werden. Durch dieses Abrechnungsmodell können auch kleinere Unternehmen rechen- bzw. speicherintensive Dienstleistungen anbieten, ohne eine eigene Infrastruktur zu unterhalten.
Cloud-Computing-Dienste werden auf einer massiv-parallelen Hardwareinfrastruktur (einem Cluster von Rechnern) bereitgestellt. Der Cluster muss die Dienste fehlertolerant bereitstellen und sich an dynamisch verändernde Verarbeitungsbedingungen anpassen (Elastizität, z.B., größere Datenmengen oder schwankende Nutzerzahlen, Ausfall von Rechnern in der Cloud).
Cloud Computing stellt insbesondere ein attraktives Modell für die Analyse von grossen Datenmengen dar. Systeme wie Hadoop oder Google Map/Reduce erlauben exzellente Skalierbarkeit bei komplexen Datenverarbeitungsproblemen, z.B. Data-Mining oder Trendanalyse. In der Datenbankforschungsgemeinschaft werden derartige, zu klassischen Datenbanken alternative Ansätze derzeit aktiv diskutiert und erforscht.
Das Tutorial führt in aktuelle Technologien für die Datenverarbeitung in Cloud-basierten Infrastrukturen ein. Es wird der Nutzen der Technologien im Kontext von komplexen Datenverarbeitungsproblemen diskutiert. Zunächst werden aktuelle Anbieter und deren Cloud-Dienstleistungen vorgestellt. Anschliessend werden Frameworks zu massiv parallelen Datenverarbeitung auf einer Cloud und Open-Source Aktivitäten in diesem Umfeld vorgestellt. Anhand eigener Projekterfahrungen speziell mit Hadoop werden Stärken und Schwächen dieser populären Plattform aufgezeigt und Alternativen vorgestellt. Schließlich werden einige Trends der zukünftigen Entwicklung und Forschung skizziert. Ferner werden die Möglichkeiten und Grenzen der Technologie aufgezeigt.
Gliederung
- Einführung
- Warum Cloud?
- „Economies of Scale“ und Datenverarbeitung in der Cloud
- Einführung in die parallele Anfrageverarbeitung und Anfragesprachen
- Basistechnologien und Architekturen
- Rechner-Cluster und virtuelle Maschinen
- Informationsmanagement in der Cloud
- Verteilte Dateisysteme, am Beispiel des Hadoop File System
- Das Map/Reduce-Programmiermodell
- Deklarative Analyse und Anfragesprachen (z.B. JAQL, HIVE, Pig Latin)
- Systeme: Hadoop, Dryad, HadoopDB, Google Map/Reduce & BigTable, etc.
- Grenzen von Hadoop und Alternativen
- Limitationen von Hadoop
- Anfragebearbeitung mit Nephele und PACTs
- Anwendung: OLAP und Business Intelligence “in der Cloud”
- GoOLAP System
- Aktuelle Entwicklungen und Trends
- DFG Forschergruppe Stratosphere
Der Referent
Prof. Dr. Volker Markl leitet das Fachgebiet Datenbanksysteme und Informationsmanagement (DIMA) an der Technischen Universität Berlin. Zuvor leitete Dr. Markl Forschergruppen am Bayerischen Forschungszentrum für wissensbasierte Systeme (FORWISS) in München sowie am IBM Almaden Forschungszentrum in San Jose, CA, USA. Volker Markl promovierte an der Technischen Universität München. Seine Forschungsinteressen beinhalten Dienste und neue Rechnerarchitekturen für das Informationsmanagement sowie Indexierung, Anfrageverabeitung, Optimierung, Informationsextraktion und Informationsintegration.
Ein großer Fokus seiner Arbeit sind effiziente und effektive Parallelisierung der Informationsverarbeitung. Bisher hat Prof. Dr. Markl über 50 referierte wissenschaftliche Beiträge in hochrangigen internationalen Konferenzen und Fachzeitschriften veröffentlicht, über 100 eingeladene Vorträge bei Industrieunternehmen, Konferenzen und Universitäten gehalten und mehr als 20 Erfindungen zum Patent angemeldet. Seine Forschungsarbeiten wurden bisher in 5 kommerzielle Produkte integriert und haben viele weitere Produkte beeinflusst. Prof. Dr. Volker Markl ist regelmäßig Gutachter in und Vorsitzender von Programmkommittees der weltweit führenden Datenbanktagungen sowie Co-Herausgeber des Datenbankspektrums und von DISDBIS.
Ferner erhielt Prof. Dr. Markl mehrere hochrangige internationale Auszeichnungen, unter anderem den Information Society and Technology (IST) Price 2001 der Europäischen Union, einen IBM Outstanding Technological Achievement Award, einen HP Open Innovation Award sowie den Pat Goldberg Best Paper Award.
english