Wie es der Name schon vermuten lässt, ist ein Data Lake gar nicht so weit weg von einem Data Warehouse, jedoch gibt es einige sehr wichtige Unterschiede, die man kenn sollte. Ein Data Lake hat grundsätzlich eine ganz andere Aufgabe, Daten werden nicht aus einem bestimmten Grund gespeichert, sie werden unverarbeitet in ihrem ursprünglichen Format aufgehoben, bis sie gebraucht werden. Ebenfalls ist die Datenmenge in einem Data Lake viel höher.
Ein Data Warehouse hat eine klare Hierarchie mit Ordnerstrukturen und einheitlichen Formaten, Daten werden erst abgespeichert, wenn sie sich in einem einheitlichen gut benutzbaren Format befinden, ein Data Lake hingegen hat eine sehr flache Architektur, Daten werden nur mit Tags versehen, um sie zu finden, wenn man sie braucht. Der Data Lake ist nicht so nach am Verbraucher, wie das Data Warehouse. Daten werden dann, wenn man sie benötigt in ein brauchbares Format transformiert, um sie verarbeiten zu können, die verarbeiteten Daten können nun beispielhaft in ein Data Warehouse gelangen.
Ein weiterer Unterschied der beiden Technologien ist, dass das sich das Data Warehouse schon relativ stark etabliert hat, ein Data Lake ist im Vergleich dazu noch nicht so weit und wird eher als aufstrebende Technologie bezeichnet. Da die Geschäftswelt aber immer digitaler und Datenorientierter wird, ist es nur eine Frage der Zeit, bis mittelständische Unternehmen mit aufwendigeren Datenanalysen beginnen.
Was ist Hadoop?
Die Begriffe „Data Lake“ und „Hadoop“ fallen oft zusammen, bei Hadoop handelt es sich nämlich um eine Plattform mit der man große Datenmengen, in hoher Geschwindigkeit verarbeiten kann, dementsprechend wird Hadoop oft im Big Data Umfeld genutzt.
Mithilfe eines Hadoop-Clusters Können große, unstrukturierte Datenmengen, automatisiert analysiert und gespeichert werden. Hadoop ist aber nur eine von vielen Technologien, die dafür verwendet werden können, einen Data Lake anzulegen, IBM, Snowflake oder Microsoft bieten ebenfalls geeignete Plattformen an, um in seinem Unternehmen einen Data Lake zu implementieren.