Big Data : profiter du cloud pour mieux exploiter ses données

Le Big Data représente les énormes volumes de données, à la fois structurées et non structurées. Leur traitement permet aux entreprises d’obtenir des informations précieuses. Si le Big Data est indépendant du cloud, la puissance et la flexibilité de cet écosystème s’avèrent indispensables dans un monde data-driven.

D’énormes volumes de données dans tous les formats sont produits et échangés en permanence sur l’Internet. Les entreprises ne cessent d’en recueillir et d’en stocker afin de les analyser pour améliorer leurs résultats et leurs performances.

C’est le discours officiel et l’objectif annoncé par les entreprises. Mais qu’en est-il dans la réalité ? Dans le fait, il s’agit plutôt de « Dark data » ! Créé par le cabinet d’analystes Gartner, cette expression définit les informations collectées et archivées qui ne sont pas ou très peu utilisées par les entreprises qui les recueillent : données de géolocalisation, diagnostics de l’IoT (Internet des Objets), rapports d’analyse, sondages ou encore des données RH.

Comme le Big data, le Dark data ne cesse de gonfler. Selon une étude d’IBM, il représente environ 80 % des informations commerciales détenues à ce jour.

Cet énorme volume non exploité confirme que la gestion des données est une tâche difficile et exigeante en temps et en ressources. Elle nécessite une puissante infrastructure informatique, ainsi que des profils spécialisés, pour garantir le succès de leur traitement et de leur analyse.

D’où l’intérêt de s’appuyer sur les performances du cloud, car le système d’information (SI) des organisations montre ses limites. Mais, l’écosystème du cloud n’est pas encore pleinement intégré par les entreprises.

Big Data : enquête de l’INSEE

Sources : Eurostat ; Insee, enquête TIC-entreprises 2018.

En 2018, 77 % des sociétés de 10 personnes ou plus implantées en France et payant pour des services de cloud computing recouraient au stockage de fichiers sur le cloud payant. Comme le montre ce graphique publié par l’INSEE, la majorité se contente de stocker des données, d’échanger des emails et de gérer des bases de données.

Cette étude précisait également que dans les pays où le cloud est « une pratique largement adoptée par les grandes sociétés (250 personnes ou plus), l’analyse de données massives (big data) est aussi plus répandue au sein de ces grandes sociétés. En 2018, dans l’UE, 33 % des sociétés de 250 personnes ou plus ont réalisé ou ont fait réaliser des analyses de données massives. En France, elles sont 37 % et en Belgique et aux Pays-Bas, plus de la moitié ».

Depuis cette enquête, la situation a évolué positivement : l’adoption de technologies analytiques ainsi que de process efficaces de collecte commence à être de plus en plus intégrée dans la stratégie des entreprises.

L’exploitation des Big Data

Mais une étude réalisée par IDC tempère cette mutation. Les directions métiers s’intéressent toutes au big data, mais elles déplorent un manque de stratégie globale autour de l’exploitation des data.

Car avant de s’appuyer sur le cloud, il est indispensable d’optimiser ce patrimoine informatif qui reste en sommeil. Cela implique de procéder à un travail de préparation des données avant de les traiter. Cette phase étant souvent très chronophage en raison des volumes de données concernés, des logiciels automatisant ce processus ont fait leur apparition.

Ces logiciels facilitent notamment l’intégration qui sert à structurer les données de façon sémantiquement cohérente, la diffusion (présentation des données à l’utilisateur, gestion des droits d’accès) et enfin la restitution (l’information la plus visuellement claire possible).

Les outils d’intégration sont essentiels. Ils permettent aux entreprises de regrouper toutes leurs données en un seul endroit (ou sur quelques sites précis) afin de bénéficier d’une vue d’ensemble.

Il existe de nombreux outils et services d’intégration. Mais l’ingestion de données reste un élément essentiel de l’intégration, en particulier lorsqu’il s’agit d’ingérer de grandes quantités de données dans des entrepôts de données (plus connus sous l’expression « data lake »).

Une solution d’ingestion de données doit donc être capable de gérer toutes les sources et tous les types de données sans trop de surveillance manuelle. Il convient de disposer de connecteurs prêts à l’emploi pour les data lake comme Amazon Redshift, Microsoft Azure SQL Data Warehouse, Google BigQuery et Snowflake. Ils doivent également offrir des capacités de synchronisation et de réplication des données.

Parmi les différentes options envisageables, une solution iPaaS peut résoudre les défis de l’intégration en cloud en fournissant à la fois la plate-forme et les outils nécessaires à l’hébergement et à la gestion de cette intégration.

Enfin, le cloud permet d’améliorer les performances de gestion des bases de données et le niveau de sécurité grâce aux capacités de Machine Learning.