Articles IT et Télécoms

Le Big Data ou comment maîtriser le tsunami des données en entreprise

L’expression Big Data découle de l’explosion du volume de données produites par les entreprises. A l’ère d’Internet, le nouveau challenge consiste dans la capacité des organisations à traiter une masse croissante d’informations afin de prendre rapidement les décisions pertinentes.

Avec la montée en puissance du Cloud Computing, la tendance marquante de cette nouvelle année sera certainement le « Big Data ». Le Gartner Group a notamment cité le Big Data parmi les technologies stratégiques pour 2012.

Les entreprises peinent en effet à gérer un volume de données en progression constante. Il ne s’agit pas uniquement de stocker ces données mais plutôt d’être en mesure de les analyser afin d’en extraire les informations nécessaires à la prise de décision.

Ce constat n’est pas récent puisqu’il a été évoqué au début des années 2000.

Dès cette époque, les fournisseurs de solutions de gestion de données et les spécialistes du stockage ont commencé à déployer leurs applications de Business Intelligence.

Mais alors que ces dernières portaient sur l’analyse de données structurées en provenance de leurs applications métiers, la situation a profondément évolué ces dernières années avec la montée en puissance de l’internet fixe et, plus récemment, du web mobile. L’analyse en temps réel de multiples sources d’informations est devenue un enjeu économique majeur.

Les analystes résument ces nouveaux défis en énonçant la règle dite des « 3 V » : volume, variété et vélocité.

Le premier V a trait au volume des données à traiter. Une récente étude d’IDC a montré que les volumes de données enregistraient une progression de… 400% par an. Les unités de mesure employées passent en effet du téraoctet au pétaoctet, en raison de la multiplication de leurs types (vidéos, photos, sons…).

Le second V fait référence à la variété des sources : banques de données, sites, blogs, réseaux sociaux, multiplication des terminaux connectés à l’instar des smartphones, des tablettes, des ordinateurs sans oublier les GPS, les puces RFID, les capteurs, les caméras… Dans la majorité des cas, ces données sont dites « non structurées », c’est-à-dire qu’elles ne sont pas aisément gérables et analysables par les outils traditionnels que sont les moteurs de base de données.

Afin d’améliorer la pertinence des analyses et d’être en mesure de présenter des résultats compréhensibles, les solutions de Big Data doivent donc structurer toutes les informations.
Ces outils s’appuient sur tous les moyens disponibles « informatiquement » (statistique, linguistique et sémantique). En combinant ces techniques d’analyse, elles doivent pouvoir faire émerger une structure hors de portée des instruments traditionnels.

A noter que pour de nombreuses entreprises ayant une activité à l’international, cette diversité des sources est également géographique.

Le troisième V enfin concerne la vélocité ou l’obligation économique de prendre une décision pertinente très rapidement. A l’ère d’internet, les prises de décision doivent être rapides afin de ne pas être dépassé par les concurrents.

Des moteurs « intelligents » pour le Business Search

Pour répondre à ces trois défis, les solutions de Big Data s’appuient principalement sur des moteurs de recherche développés spécialement pour le Business Search.

Ces outils sont beaucoup plus efficaces et « intelligents » que Google dont les résultats s’appuient uniquement sur la popularité (d’un point de vue statistique) d’une information.

Ces applications de Business Search, comme par exemple celle développée par la société française Sinequa, s’appuient sur l’analyse statistique et sémantique afin d’accroître la pertinence des analyses.

C’est en effet la seule méthode permettant de trouver LA bonne information dans d’importants volumes de données qui sont à la fois « structurées » (bases de données, applications métier) et « non structurées » (emails, documents, fichiers, audio, vidéo, etc.).

NoSQL et Hadoop, les briques technologiques du Big Data

Afin d’analyser des sources d’informations hétérogènes et à forte volumétrie, les solutions commerciales reposent sur différentes technologies comme les mémoires DRAM ou flash, les bases de données massivement parallèles (Massively Parallel Processing) ou encore les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL.

L’approche Big Data consiste à s’appuyer sur un modèle linéaire dans lequel on parallélise les traitements sur des grappes de serveurs.

Pour ce faire, les fournisseurs utilisent très souvent le framework Open Source d’analyse de données en masse Hadoop, à l’instar de Microsoft et d’IBM. On commence à trouver des appliances Hadoop destinées à faciliter le déploiement de solutions d’analyse.

Le langage naturel

En sus du défi représenté par les 3V (volume, variété et vélocité), les solutions de Big Data doivent également répondre aux besoins spécifiques des entreprises.

A titre d’exemple, une enseigne d’articles de sport souhaitera analyser les commentaires laissés sur ses pages Facebook ainsi que sur des blogs spécialisés et reconnus. Un site de e-commerce exprimera le besoin de comprendre les comportements de ses visiteurs afin de transformer une visite en un acte d’achat.

Un acteur de la grande distribution peut vouloir créer des prix spécifiques pour chacun de ses magasins.

Enfin, une bonne gestion d’un réseau télécom oblige les opérateurs à connaître en temps réel et en permanence l’activité data.

Si l’on prend l’exemple d’un site de e-commerce, les solutions de Business Search doivent interpréter des requêtes d’internautes posées en langage naturel.

L’application de Business Search doit à la fois fournir des réponses précises (même si les questions ont été mal formulées) et repérer la bonne information parmi les données hétérogènes du site.

Cet exemple montre que seules les solutions de Big Data maîtrisant tous les rouages et subtilités de l’information et du langage pourront relever ces multiples défis.

Advertisements

Discussion

Les commentaires sont fermés.

%d blogueurs aiment cette page :