Big-Data-Analysen mit Google Cloud Dataflow

Cloud Dataflow und andere Big-Data-Werkzeuge

Google Cloud Dataflow ist ein Service, der die Analyse grosser Datenmengen sowohl im Batch-Modus als auch im Streaming-Modus – also nahezu in Echtzeit – erlaubt. Die Hauptmerkmale sind:
  • Voll gemanagter Service: Der Nutzer muss sich keine Gedanken um die verwendete Infrastruktur machen, kann aber jederzeit auf die eingesetzten Server und virtuellen Maschinen zugreifen.
  • Einfaches Programmiermodell: Der Entwickler übersetzt die logischen Schritte der Analyse in eine Sequenz einfacher Befehle. Die Verteilung der Last auf die einzelnen Knoten und die Op­timierung laufen im Hintergrund transparent ab.
  • Derselbe Code für Batch-Modus und Streaming: Die Unterscheidung zwischen Batch-Modus und Streaming trifft der Entwickler durch die Wahl der Datenquelle. Die Programmschritte bleiben dieselben.
  • Einfache Definition von Zeitfenstern: Dataflow hat eine Zeit­variable integriert. So lässt sich im Streaming-Modus mit nur einer Zeile Code ein Zeitfenster für die Datenanalyse definieren.
  • Extrem skalierbar: Der Entwickler kann sein Programm lokal zum Testen und Debuggen verwenden, In-Memory-Daten, Cloud Storage oder Streaming-APIs nutzen, ohne den Code verändern zu müssen. Google verspricht eine Skalierbarkeit bis in den Exabyte-Bereich hinein.
Google Cloud Dataflow ist derzeit als Private Beta verfügbar, für die man sich anmelden kann. Wer sich unter der E-Mail-Adresse Cloud_Dataflow_announce@googlegroups.com registriert, erfährt am schnellsten, wenn es etwas Neues gibt. Eine Aufzeichnung der Präsentation zu Dataflow auf der Entwicklerkonferenz Google I/O ist bei Youtube zu finden.




Das könnte Sie auch interessieren