09.09.2013, 00:00 Uhr
Verbesserte Integration von Hadoop mit MongoDB
MongoDB Inc. Hat eine neue Version seines MongoDB Connector for Hadoop zum Download zur Verfügung gestellt. Damit können Hadoop-Anwender ihr System einfacher mit MongoDB integrieren. Der Connector kombiniert die analytischen Fähigkeiten von Hadoops MapReduce mit den Echtzeit-Anwendungsdaten aus MongoDB, um noch schneller Nutzen aus Big Data-Anwendungen ziehen zu können.
Die wichtigsten Verbesserungen der neuen Version:
Unterstützung für Apache Hive mit SQL-ähnlichen Abfragen über Echtzeit-Daten in MongoDB
Unterstützung inkrementeller MapReduce-Jobs für einfache und effiziente Ad-hoc-Analysen
Unterstützung von MongoDB BSON-Daten im Hadoop Distributed File System (HDFS) für weniger Datenverkehr
Der Connector stellt MongoDB als Hadoop-kompatibles Dateisystem dar. Hadoop MapReduce Jobs können somit Echtzeitdaten von MongoDB lesen und verarbeiten - etwa wenn es im Rahmen von Hadoop-basiertem Data Warehousing oder von ETL Workflows darum geht, Daten aus verschiedenen Quellen zu sammeln. Die Ergebnisse der Hadoop Jobs können auch zurück in MongoDB geschrieben werden, was operative Prozesse in Echtzeit und Ad-Hoc-Anfragen ermöglicht.
Der neue Connector unterstützt zudem MongoDBs native BSON (Binary JSON) Backupdateien, die nun lokal in HDFS gespeichert werden können. Das reduziert den Datenverkehr zwischen MongoDB und Hadoop oder lokalen beziehungsweise Cloud-basierten Dateisystemen wie Amazon S3. Die Zugriffsmöglichkeit auf MongoDB Backupdateien kann darüber hinaus die Auslastung stark beanspruchter operativer MongoDB-Cluster verringern.
Ergänzend zum bestehenden Support von MapReduce, Pig, Hadoop Streaming (mit node.js, Python oder Ruby) und Flume ermöglicht der neue MongoDB Connector for Hadoop SQL-ähnliche Abfragen aus Apache Hive über MongoDB-Daten hinweg. Die neueste Version des Connectors erlaubt es Hive, auf BSON-Daten zuzugreifen. Die volle Unterstützung von MongoDB Collections ist für das nächste Release im Laufe des Jahres geplant.
MongoUpdateWriteable ist ein weiteres Feature des Connectors, mit dem Hadoop auch bestehende Collections in MongoDB verändern kann, statt nur in neue Collections schreiben zu können. Anwender können so inkrementelle MapReduce Jobs durchführen und tagesaktuell Trends oder Musterabgleiche bündeln, die sich dann von MongoDB in einer einzelnen Collection effizient abfragen lassen. (ph/w&m)
www.mongodb.com
Unterstützung für Apache Hive mit SQL-ähnlichen Abfragen über Echtzeit-Daten in MongoDB
Unterstützung inkrementeller MapReduce-Jobs für einfache und effiziente Ad-hoc-Analysen
Unterstützung von MongoDB BSON-Daten im Hadoop Distributed File System (HDFS) für weniger Datenverkehr
Der Connector stellt MongoDB als Hadoop-kompatibles Dateisystem dar. Hadoop MapReduce Jobs können somit Echtzeitdaten von MongoDB lesen und verarbeiten - etwa wenn es im Rahmen von Hadoop-basiertem Data Warehousing oder von ETL Workflows darum geht, Daten aus verschiedenen Quellen zu sammeln. Die Ergebnisse der Hadoop Jobs können auch zurück in MongoDB geschrieben werden, was operative Prozesse in Echtzeit und Ad-Hoc-Anfragen ermöglicht.
Der neue Connector unterstützt zudem MongoDBs native BSON (Binary JSON) Backupdateien, die nun lokal in HDFS gespeichert werden können. Das reduziert den Datenverkehr zwischen MongoDB und Hadoop oder lokalen beziehungsweise Cloud-basierten Dateisystemen wie Amazon S3. Die Zugriffsmöglichkeit auf MongoDB Backupdateien kann darüber hinaus die Auslastung stark beanspruchter operativer MongoDB-Cluster verringern.
Ergänzend zum bestehenden Support von MapReduce, Pig, Hadoop Streaming (mit node.js, Python oder Ruby) und Flume ermöglicht der neue MongoDB Connector for Hadoop SQL-ähnliche Abfragen aus Apache Hive über MongoDB-Daten hinweg. Die neueste Version des Connectors erlaubt es Hive, auf BSON-Daten zuzugreifen. Die volle Unterstützung von MongoDB Collections ist für das nächste Release im Laufe des Jahres geplant.
MongoUpdateWriteable ist ein weiteres Feature des Connectors, mit dem Hadoop auch bestehende Collections in MongoDB verändern kann, statt nur in neue Collections schreiben zu können. Anwender können so inkrementelle MapReduce Jobs durchführen und tagesaktuell Trends oder Musterabgleiche bündeln, die sich dann von MongoDB in einer einzelnen Collection effizient abfragen lassen. (ph/w&m)
www.mongodb.com