Big data : data warehouse vs data lake, définition, avantages et inconvénients

En matière de gestion de la Big data, le data lake – littéralement lac de données – est une solution de plus en plus utilisée par les entreprises. On l’oppose dorénavant au traditionnel Data warehouse, en lui trouvant plus d’avantages. Pourtant de réels inconvénients sont à prendre en compte. Le point sur ces deux aspects stratégiques de la gestion de données pour une meilleure Business Intelligence.

 

Le Data warehouse, l’entrepôt de données

Le Data warehouse est une base données conçue pour stocker la data dans une optique décisionnelle : les informations qui y sont entreposées sont structurées de telle manière à pouvoir être exploitées en Business intelligence. Les data warehouse sont des outils précieux pour le développement d’une activité. Il s’agit d’une vaste base de données relationnelle.

Les informations qui y sont stockées offrent une vue d’ensemble chronologique afin de pouvoir offrir la meilleure capacité d’analyse possible de la data. Des requêtes y sont effectuées et l’information y est agrégée dans le but de donner la possibilité aux utilisateurs d’y accéder facilement et rapidement.

Au sein d’un Data warehouse, un outil d’extraction, de transport, de transformation et de chargement de données – ETL – est intégré, de même qu’un moteur de traitement analytique en ligne, appelé OLAP pour Online Analytical Processing, et autre application d’analyse client.

L’une des grandes spécificités d’un Data warehouse réside dans le fait que les données y sont classées par sujet (clients, produits…). Les données sont orientées « sujet », « thème ». Aussi, la data est non volatile, statique, ce qui implique qu’aucune mise à jour n’est réalisée sur ces données.

Le grand avantage d’un Data warehouse pour une entreprise est le fait qu’il représente une façon pratique de visualiser les données passées sans affecter les opérations actuelles. Les entreprises exploitent la donnée stockée dans le Data warehouse dans une optique de Business intelligence. Elles peuvent optimiser leurs actions commerciales grâce à une connaissance plus fine de leur marché, de leurs clients, concurrents et prospects.

 

Le Data lake, le lac de données

Le Data lake tend peu à peu à se substituer au Data warehouse. Le « lac de données » est un système informatique pensé pour stocker en un seul et même endroit l’ensemble des données d’une entreprise, issues de son CRM, des réseaux sociaux, du site web…

Quelles sont les différences avec un Data warehouse ?

Le Data warehouse intègre et traite uniquement des données structurées tandis que le Data lake traite tout type de data.

L’avantage d’un Data lake est qu’il offre de la flexibilité quand le Data warehouse est composé d’une structure fixe et verticale. Le Data lake rend la donnée plus malléable, adaptable, transformable.

Dans une approche de Business intelligence, le Data lake apporte à l’utilisateur un traitement de données plus opérationnel car il peut réagir aux données en temps réel. Une flexibilité idéale pour coller à un marché et prendre des décisions stratégiques.

Le Data lake permet de traiter une quantité massive de données hétérogènes, des données brutes encore non exploitées, et de recouper les données internes avec des infos externes : contexte économique, météo, pollution… Tout est possible. En ce sens, le Data lake est intégré au scoring predictif, une approche marketing qui cherche à prédire les futurs comportements des consommateurs.

Les inconvénients du Data lake ?

  • La quantité massive de données peut être telle qu’elle est difficilement exploitable
  • Le manque de structuration et de hiérarchisation de la donnée peut freiner le développement commercial et la prise de décision de l’entreprise
  • Les Data lake sont plus coûteux que les Data warehouse
  • Intrinsèquement lourde, l’infrastructure du Data lake engendre un problème de latence dans le traitement de l’information
  • La confidentialité des données peut être mise à mal, les données pouvant fuitées