Vous utilisez Internet Explorer version 6 ou inférieur.

Votre nagivateur a plus de 10 ans, il est désormais incapable de gérer certaines fonctionnalités du web.

Merci de le mettre à jour afin de pouvoir profiter pleinement de ce site.

- Dernière version de firefox
- Dernière version de chrome
- Dernière version de internet explorer

Concevoir sa plateforme Big Data

Introduction

Les Entreprises évoluent dans un contexte économique difficile leur imposant de maximiser leurs profits et de réduire leurs dépenses. Elles ont besoin de cibler au mieux leur clientèle, de comprendre les canaux de distribution, de réussir à vendre leurs offres, ainsi que de satisfaire leurs actionnaires. Par ailleurs, chaque fois qu'une Entreprise lance de nouveaux produits ou souhaite évaluer ses performances, elle il doit savoir répondre à certaines questions telles que : Quels types de produits intéressent mes clients ? Quel est le canal de distribution le plus efficace ? ... Pour répondre à ces questions, l'Entreprise doit exploiter au mieux ses données. En ce sens, les outils d'exploitation des bases de données jouent un rôle primordial. Les Data Warehouse (DW) sont-ils adaptés à cet usage?

Il est important de comprendre comment un DW traditionnel fonctionne. Les données proviennent d'une base de données (RDBMS), de fichiers plats / xml, ou encore de systèmes ERP. Dans un DW traditionnel, les données sont extraites, nettoyées et converties dans le format souhaité, puis chargées dans le système de stockage. Une fois les données disponibles dans le DW central, des outils de requêtage ou de génération de rapports sont utilisés pour effectuer des analyses. De plus, pour réaliser une analyse complexe ou une prévision, des outils d'extraction de données sont utilisés.

La question est toutefois de savoir si ces DW sont aptes à faire face au phénomène Big Data.

Limitations des Data Warehouse traditionnels

Les Data Warehouse (DW) traditionnels ne répondent plus aux attentes quand il s'agit de traiter des quantités importantes de données (Big Data), principalement compte tenu des raisons suivantes :
•  Incapacité à gérer les gros volumes de données, en particulier ceux liés au nouveaux contenus (photos, vidéos, ...)
•  Limitations dans la caractérisation et la gestion des données
•  Incapacité à réaliser des prévisions à partir des données
•  Augmentation importante des coûts matériels nécessaire pour l'exploitation des Big Data
•  Augmentation significative des temps de traitement pour analyser des Big Data

Les solutions traditionnelles de bases de données relationnelles ne sont pas forcément plus adaptées que les DW pour traiter la plupart des ensembles de données. Les données non structurées et / ou trop volumineuses ne peuvent être gérées efficacement avec un SGBDR traditionnel. Ces Big Data ne peuvent être analysées au moyen de technologies SQL ou de technologies similaires. En fait, les structures de base de données ne permettent pas de définir ni de gérer des formats de données non structurées complexes au sein des DW traditionnels. Par ailleurs, traiter ces nouveaux ensembles volumineux de données en utilisant des technologies traditionnelles impliquerait également des coûts très élevés.

De toute évidence, les environnements DW existants, qui ont été conçus il y a des déjà plusieurs décennies, n'ont pas la capacité de capturer et de traiter les nouveaux formats de données dans un temps de traitement acceptable. De plus, ces DW traditionnels ont des capacités limitées lorsqu’il s’agit d’analyser les données comportementales de l'utilisateur.

Les caractéristiques majeures d'une plateforme Big Data

Des évolutions technologiques telles que la puissance des processeurs, les mémoires flash, ou l’augmentation des volumes de stockage permettent d’envisager des gains de performance importants. Pour gérer les Big Data, de nouvelles technologies Open Source et propriétaires, capables d'optimiser ces nouvelles ressources matérielles ont vu le jour. Une plateforme Big Data, dite «Big Data Analytics platform», permet de collecter et de traiter ces nouveaux ensembles de données.

La plateforme Big Data idéale devrait satisfaire aux exigences suivantes :
•  elle devrait être scalable afin d'absorber un accroissement important du volume de données (de l'ordre du terabyte ou du petabyte),
• la puissance de calcul devrait être répartie sur plusieurs processeurs indépendamment de toute contrainte géographique,
•  elle devrait permettre de fournir une réponse rapide aux requêtes très complexes ainsi que de supporter une grande variété de sources de données,
•  elle devrait intégrer des fonctionnalités pour gérer l'apprentissage automatique, fournissant des recommandations, et exécutant ainsi des analyses sur les données entrantes, comme par exemple celles provenant de log, en temps réel
•  elle devrait permettre de fournir un environnement pour permettant de gérer les requêtes pré-enregistrées,
•  elle devrait être capable de gérer des données provenant d'environnements hétérogènes, tout en offrant des performances élevées pour le chargement et l'analyse,
•  la capacité à gérer le fail-over, en garantissant un haut niveau de disponibilité.

Les différentes approches pour construire une plateforme Big Data

Il est important de comprendre que pour la construction d'une plateforme «Big Data Analytics», une technologie fournisseur unique peut s’avérer insuffisante. La plateforme doit présenter certaines capacités pour être à même de répondre à un ensemble de besoins spécifiques. On distingue deux approches différentes dans la manière de concevoir une plateforme «Big Data Analytics».

La première approche consiste à utiliser le Massive Parallel Processing (MPP) et les bases de données en colonnes (Columnar Databases). Cette solution peut permettre d'absorber les pics de distribution, de charge, de temps de réponse et d'adresser les questions relatives à la gestion du mécanisme de fail-over. En outre, elle peut aussi présenter certaines capacités spécifiques lui permettant de s’adapter à un domaine particulier spécifique et peut fournirr ainsi une solution sur mesure.

La deuxième approche consiste à utiliser MapReduce. Ce framework, initialement utilisé par Google pour effectuer des recherches sur le web, est maintenant disponible au travers du projet Apache Open Source appelé Hadoop. L'un des avantages principaux de MapReduce est qu'il permet la répartition de la charge sur un grand nombre de serveurs grâce à une abstraction totale des mécanismes de parallélisation sous-jacents. Parmi les autres avantages, on peut citer la facilitée de programmation, ainsi que la robustesse nécessaire pour traiter de très gros volumes de données.

Les entreprises ont donc la possibilité de choisir entre les solutions Open Source et les solutions propriétaires commercialisées par des éditeurs. Toutefois, une troisième possibilité peut être envisagée, consistant à créer une solution hybride, qui associe différentes technologies et capacités pour gérer ce phénomène des Big Data.

L'approche Open Source pour construire une plateforme Big Data

Toute organisation, quelle que soit sa taille, est désormais axée sur la réduction des dépenses informatiques. Malgré cela, l'analyse des données à des fins commerciales reste un critère différenciateur important pour les Entreprises dans la conquête de nouvelles affaires. Si les solutions propriétaires permettent de gérer des volumes importants de données et de réaliser des analyses complexes, cela peut entraîner des coûts de licence exorbitants.

A cet égard, les Entreprises peuvent privilégier une mise en œuvre autour des technologies Open Source qui sont disponibles. La réduction des coûts, l'extensibilité et les facilités d'intégration sont quelques-uns des avantages que les organisations vont pouvoir retirer des solutions Open Source. De plus, la communauté est très active et ne cesse de faire des efforts pour améliorer les caractéristiques, et ajouter de nouvelles fonctionnalités à ces solutions.

Parmi ces solutions Open Source, on peut citer Jasper soft et Pantaho reporting pour les outils d'analyse et de reporting, Talend pour les outils d'ETL (Extract Transform Load), Apache Hadoop et Cassandra pour l'implémentation de la technologie MapReduce.

Un apperçu des principales plateformes propriétaires du marché


DW Gartner magic quadrant 2011

Parmi les solutions proposées par les acteurs majeurs du marché on peut citer les plateformes suivantes :
•   Teradata : Teradata platform (DW) / Teradata Value Analyser (Data analytics) / Aster Data Analytic Platform (Data analytics)
•   Oracle : Oracle Data Integrator (Data analytics) / Oracle Exadata Database Machine (Acquisition + Traitement) / Oracle Data Warehousing (DW)
•   Oracle (nouvelles solutions) : Oracle NoSQL Database (Acquisition) / Oracle Big Data Appliance (DW) / Oracle Loader for Hadoop (Data transformation) / Oracle R Enterprise (Data analytics)
•    EMC : Greenplum solutions (DW + Data analytics + Appliance)
•    IBM : InfoSphere platform (DW + Data analytics) / Netezza solutions (DW appliances)
•    SAP : Sybase IQ VLDP Option (DW + Data analytics)

Une évaluation des différentes plateformes proposées par ces acteurs a été menée par le cabinet Forester au cours du troisième trimestre 2010.

DW Forrester benchmarkOpter pour une solution hybride

Cette approche hybride consiste à utiliser une solution Open Source (pour l'ETL ou la BI) associée à une solution propriétaire (pour l'Analytics). Par exemple, les solutions Hadoop et MPPs peuvent fonctionner ensemble, de la même façon qu'un outil d'ETL peut être associé à une solution propriétaire de Data Analytics. Les bases de données MPP et les bases de données en colonne peuvent être utilisées alternativement, avec MapReduce pour fournir une solution hybride parfaitement adaptée. Quand il y a des volumes considérables de données à analyser, il est préférable pour les organisations d'utiliser des solutions Open Source. Hadoop est une des meilleures solutions Open Source qui peut les aider à gérer ces volumes de données de manière rentable. Il est également judicieux d'utiliser le parallel processing ou d'autres mécanismes d'optimisation du temps de traitement, tout en essayant d'importer des données à partir du système source ou d'exporter des données vers le système cible.

Le temps réel est une chimère dans un environnement Big Data. C'est pour cela que le DW doit prévoir dès sa conception de limiter les données à analyser en temps réel, soit par leur volume, soit par leur durée.

Il est possible de réutiliser une partie des investissements déjà réalisés dans le développement d'un DW pour la mise en place d'une plateforme Big Data.

Rentabiliser les actifs dans la construction d'une plateforme Big Data

L’infrastructure technique existante contenant des bases de données relationnelles ou des outils d’analyses et de reporting peut être réutilisée dans la construction d’une plateforme Big Data. Le code existant et les algorithmes peuvent être également réutilisés après quelques modifications mineures pour leur permettre de s'exécuter sur une nouvelle architecture. Dans cette perspective, des outils comme MATLAB peuvent être intégrés avec des technologies comme Hadoop.

Une autre façon d'utiliser les investissements déjà réalisés dans les DW traditionnels consiste à étendre leur capacité puis à les connecter avec une solution DW Big Data. Hadoop, par exemple, est une solution rentable pour caractériser des données archivées, réaliser des analyses complexes et fournir des rapports synthétiques à un DW existant. Cette stratégie peut aussi consister à réutiliser les outils de reporting existants. De même, les outils ETL existants peuvent être modifiés pour utiliser le DW Big Data comme un puits de données. Des outils comme Talend ou Informatica fournissent des connecteurs pour utiliser Hadoop et les solutions propriétaires de MPPs en tant que puits de données.

La stratégie de développement et de testing peut également être réutilisée. La plupart des nouvelles solutions de DW Big Data supportent SQL, ou Java comme d'autres langages de programmation, ce qui permet la réutilisation des développements existants et l'exploitation des dossiers de tests.

Conclusion

En conclusion, on peut dire que les DW traditionnels n'ont pas la capacité à faire face à la forte croissance des données imposée par l'ère Big Data. Pour l'heure, la nécessité pour les Entreprises est de concevoir puis de mettre en œuvre une plateforme d'analyses de données Big Data pour gérer, stocker et extraire des prévisions de toutes ces données numériques.

En outre, une alternative technologique basée sur un fournisseur unique ne permet pas de répondre pleinement aux enjeux véhiculés par le phénomène Big Data. Il est recommandé que les organisations optent plutôt pour une solution hybride constituée d'une solution propriétaire et de solutions Open Source pour construire leur plateforme d'analyses de données Big Data.

Quand il y a un volume considérable de données à analyser, il est préférable d’un point de vue économique (coûts de licence élevés avec les solutions propriétaires) d'utiliser une solution Open Source, en ce sens Hadoop constitue à ce jour la meilleure alternative. Le succès d'une plateforme d'analyse de données Big Data dépend entièrement des outils qui sont choisis. Par conséquent, les outils pour qu’ils soient les plus appropriés doivent être rigoureusement sélectionnés parmi toutes les options disponibles. De surcroît, les entreprises peuvent également réutiliser leurs DW existants pour construire leur plateforme Big Data.


Sources : Impetus, Gartner, Forrester Research

BUSINESS CASE

NEWSLETTER

S'inscrire Se désinscrire