Big-Data-Analysen mit Google Cloud Dataflow
Cloud Dataflow und andere Big-Data-Werkzeuge
Google Cloud Dataflow ist ein Service, der die Analyse grosser Datenmengen sowohl im Batch-Modus als auch im Streaming-Modus – also nahezu in Echtzeit – erlaubt. Die Hauptmerkmale sind:
- Voll gemanagter Service: Der Nutzer muss sich keine Gedanken um die verwendete Infrastruktur machen, kann aber jederzeit auf die eingesetzten Server und virtuellen Maschinen zugreifen.
- Einfaches Programmiermodell: Der Entwickler übersetzt die logischen Schritte der Analyse in eine Sequenz einfacher Befehle. Die Verteilung der Last auf die einzelnen Knoten und die Optimierung laufen im Hintergrund transparent ab.
- Derselbe Code für Batch-Modus und Streaming: Die Unterscheidung zwischen Batch-Modus und Streaming trifft der Entwickler durch die Wahl der Datenquelle. Die Programmschritte bleiben dieselben.
- Einfache Definition von Zeitfenstern: Dataflow hat eine Zeitvariable integriert. So lässt sich im Streaming-Modus mit nur einer Zeile Code ein Zeitfenster für die Datenanalyse definieren.
- Extrem skalierbar: Der Entwickler kann sein Programm lokal zum Testen und Debuggen verwenden, In-Memory-Daten, Cloud Storage oder Streaming-APIs nutzen, ohne den Code verändern zu müssen. Google verspricht eine Skalierbarkeit bis in den Exabyte-Bereich hinein.
Google Cloud Dataflow ist derzeit als Private Beta verfügbar, für die man sich anmelden kann. Wer sich unter der E-Mail-Adresse Cloud_Dataflow_announce@googlegroups.com registriert, erfährt am schnellsten, wenn es etwas Neues gibt. Eine Aufzeichnung der Präsentation zu Dataflow auf der Entwicklerkonferenz Google I/O ist bei Youtube zu finden.
- Big-Data-Analysen mit Google Cloud Dataflow
- Einheitliches Datenmodell und flexiblere Abfragen
- Google Cloud Dataflow statt Map-Reduce?
- Die Schwächen von Map-Reduce-Berechnungen
- RDD und Spark als Big-Data-Alternativen
- IBM-Statement zur Datenverarbeitung in der Cloud
- Intel-Statement zur Datenverarbeitung in der Cloud
- Cloud Dataflow und andere Big-Data-Werkzeuge