Le Big Data constitue depuis quelques années une opportunité de création de valeur pour les entreprises. Il a par exemple permis à ACCOR d’augmenter considérablement le volume de ses réservations. Mais la nouvelle problématique des entreprises est le stockage de cette donnée. Le data lake est donc la proposition technique, qui permet de stocker et centraliser ce flux d’informations. Un dispositif qui peut accueillir l’ensemble de vos données, et en faciliter l’accès pour vos collaborateurs. Coup de projecteur.
Comme son nom l’indique, on peut comparer le data lake à un lac de données. Une base de stockage distribuée sur le cloud, et facile d’accès pour conserver une importante masse d’information sans discrimination de nature. Les données brutes sont conservées avec des données traitées dans une seule et même architecture data lake. Vous pouvez donc retrouver dans un même data lake, des fichiers structurés comme des fichiers XML et des emails ou documents PDF qui sont des données non structurées.
La réelle innovation technique a été de déconstruire les silos verticaux qui segmentent la data. Toute l’information est horizontalisée afin d’en faciliter la recherche et l’extraction. Il est aussi plus facile de traiter cette data en la compilant, pour obtenir une information rare voire unique, donc à forte valeur ajoutée.
L’enjeu de la data pour les entreprises continue de croître aussi vite que le volume de données. On peut d’ailleurs expliquer cette hausse du volume de données par l’importante augmentation du nombre d’objets connectés, qui émettent et reçoivent via les technologies cloud.
Segmenter ces sources de données dans des silos distincts reviendrait ainsi à gâcher un fort potentiel puisque les données des différentes sources ne pourraient pas être croisées. L’architecture data lake permet ainsi de déconstruire les cloisons qui séparent les différents types de données. Ce qui a également l’avantage de rendre plus opérationnel leur traitement.
Le Data lake ne fait pas que des adeptes. Certains émettent des doutes quant à sa structure, qu’ils qualifient de désordonnée et trop coûteuse. Ils pointent ainsi le fait que la data n’est pas hiérarchisée, pas classée, et que cette architecture ne permet pas la recherche et le traitement efficace de l’information.
Selon Adam Wray, le fait que la data ne passe pas par une chaîne de traitement organisée nuit à la valeur qu’elle peut produire. Un manque à gagner que l’entreprise ne pourrait pas combler par la suite. Il faudrait donc ici faire le choix entre une information accessible et la qualification de la ressource. L’opportunité data lake serait donc compliquée à formaliser, et en tirer profit relèverait d’un réel défi pour les entreprises.
Pour les optimistes, cette nouvelle méthode de stockage est l’opportunité d’appliquer les méthodes agiles aux données. L’ouverture à la qualité et l’accessibilité de la donnée prévaut sur son aptitude à rentrer dans un schéma prédéfini. Cette flexibilité permet à toutes les formes de données d’intégrer la base, et de passer entre les mains des analystes. Des données qui restent d’ailleurs très peu de temps au format brut, puisqu’elles intègrent le système pour être rapidement exploitées.
Aussi, un data lake distribué par le cloud bénéficierait des mêmes conditions de sécurité que l’architecture qui l’héberge. Dès lors que vous remplissez les conditions pour accéder au data lake, c’est toute la data présente que vous pouvez mobiliser. Un avantage que vous retrouvez dans la valeur de l’information créée par un agrégat de plusieurs données que vous n’auriez pas pu combiner dans une autre architecture que le data lake.
Centraliser la donnée sur une seule plateforme d’entreprise, c’est permettre aux systèmes de traitement de toutes les croiser. L’intelligence artificielle, les solutions prédictives, les machines virtuelles ou encore le machine learning, toutes ces solutions gagneront en performance si leur base ressource est centralisée. Le développement des machines connectées constitue d’ailleurs une réelle opportunité quant à la création de données à forte valeur ajoutée pour l’entreprise.
Un data lake d’entreprise, c’est également la capacité d’utiliser les données et la puissance de votre cloud pour construire des applications de pilotage par la data. Des données authentiques puisque vous aurez sélectionné leur source, et gardez un contrôle permanent sur l’approvisionnement de votre data lake. De plus, la réactivité et la flexibilité de la recherche permet de garantir un confort d’utilisation optimal.
Nous avons identifié 3 différences majeures : l’architecture, la structure des données recueillies et le volume optimal.
L’architecture d’un data warehouse est fondamentalement verticale. Les silos sont clairement définis, l’information hiérarchisée et classée dans des dossiers et sous-dossiers. Un data warehouse sera également long à restructurer pour adapter son dispositif. Les données reposent sur un même plan et sont disponible depuis la même adresse source, pour faciliter leurs mouvements.
Pour ce qui est de la structure des données, un data lake va pouvoir stocker des fichiers de toutes nature, ordonnées ou non. Alors qu’un entrepôt de données aura son cadre prédéfini pour filtrer l’entrée de la ressource. Aussi, il est possible d’utiliser un data warehouse comme partie d’un data lake, mais la réciproque est impossible.
Enfin, une architecture entrepôt arrivera rapidement à saturation, et stocker des grands volumes dans un data warehouse reviendra rapidement à un coût très élevé. C’est d’ailleurs pour cela que ce dispositif est principalement utilisé sur des faibles volumes. Quant au data lake, il n’a pas de réelle limitation de volume puisqu’il est conçu pour recevoir des grandes quantités à moindre coût. Aucun risque que votre data lake ne déborde en définitive !
Le choix d’un data lake comme dispositif de stockage est lié à un enjeu majeur pour les entreprises : l’adoption d’une infrastructure cloud. Un sujet que nous avons traité dans le livre blanc To cloud or not to cloud ?