Vous utilisez Internet Explorer version 6 ou inférieur.

Votre nagivateur a plus de 10 ans, il est désormais incapable de gérer certaines fonctionnalités du web.

Merci de le mettre à jour afin de pouvoir profiter pleinement de ce site.

- Dernière version de firefox
- Dernière version de chrome
- Dernière version de internet explorer

Big Data : 10 points majeurs à considérer pour leur gestion et leur analyse

Aperçu général

L'ère de la gestion des importants volumes de données (Big Data) et de leur analyse ouvre de nouvelles opportunités significatives de différenciation concurrentielle en utilisant des analyses avancées. Il y a dix bonnes raisons pour lesquelles les organisations se tournent vers de nouvelles solutions de gestion de données pour gérer leur volume croissant de données et l'évolution des besoins en terme d’analyses. De nouvelles plateformes combinant le stockage et l’analyse des données au sein d’un même système permettent de relever le nouveau défi proposé par le phénomène des Big Data. Le stockage des données est géré par une base de données disposant d’une architecture permettant un important degré de parallélisation. Le traitement des données est géré par un moteur intégré d'analyse, ainsi l'analyse est opérée directement en base de données.
Les principaux avantages de ces nouvelles plateformes sont :
•    Une gestion optimisée des coûts de stockage ;
•    Des performances de traitement accrues ;
•    Une analyse plus riche des données.

1 - Une gestion rentable des données – Big Data sur du matériel standard

Tous les 18 mois, le volume de données d'une organisation double. La plupart des organisations sont maintenant confrontées à des téraoctets de données disponibles pour analyse. Le stockage de volume de données important (du Téraoctet au Pétaoctet) met en exergue les limites des modèles classiques de base de données et de Data Warehouse (DW), qui ne sont plus rentables pour faire face à ces quantités de données énormes. Les coûts du matériel pour optimiser le traitement des Big Data sur les DW traditionnels, car ils sont poussés au-delà des téraoctets, deviennent étonnamment difficile à justifier. Plus grave pour l'entreprise, l’exécution de requêtes critiques pour l’activité peut nécessiter plusieurs heures sur des systèmes traditionnels au lieu de quelques secondes sur de nouvelles plateformes. Par conséquent, les coûts matériels importants imposés par les architectures traditionnelles contraignent les organisations à supprimer des données qui pourraient être conservées pour une analyse plus approfondie de leur activité.
Une nouvelle approche technologique est nécessaire.  Il devient alors nécessaire de disposer d’une architecture de gestion de données avec un traitement massivement parallèlisable (MPP) qui parallélise les requêtes sur un cluster de serveurs plutôt que de se limiter aux performances d’un seul serveur. Cette architecture MPP devrait paralléliser toute les tâches de gestion des données, y compris les requêtes, les chargements, les sauvegardes, et les exportations. Tous les systèmes MPP ne présentent pas forcément ce type de fonctionnement. Ceux qui parallélisent les tâches fournissent de meilleures performances (entre 10 et 1000 fois supérieures selon les cas) que les systèmes traditionnels de bases de données relationnelles.

2 - Au-delà des coûts matériels - scalabilité facilitée et linéaire

En moyenne 70 à 80% des données de toute organisation vie en dehors du DW traditionnel. Ces données sont générées rapidement et stockées dans de nouveaux espaces de stockage en forte croissance, cela inclut internet, les micro transactions, et les données générées par les machines (souvent sous la forme de fichiers de log). Les systèmes traditionnels de bases de données relationnelles n’ont pas évolué avec la croissance des sources de données ou avec le changement de la typologie de traitement des données. Pour répondre à l'augmentation imprévisible des volumes de données et leur traitement, vous devez adopter un modèle évolutif qui ne dépend pas de la capacité matérielle.
Ce modèle en plus d’être rentable, devrait être agile et progressif.
•    Le coût : la possibilité d'utiliser du matériel de base plutôt que des appliances personnalisées ou des serveurs coûteux est un élément clé de la décision qui rend les prix abordables.
•    L'agilité : vous devriez être en mesure d’installer un nouveau serveur dans le réseau local et d'effectuer son intégration en un clic via une interface web. Vous ne devriez pas avoir à acheter une nouvelle suite analytique complète.
•    La linéarité: votre plateforme devrait être suffisamment souple pour permettre l'augmentation indépendante des capacités par fonction (par exemple le chargement, la sauvegarde, le traitement des requêtes) afin que votre capacité réponde à vos besoins spécifiques.

3 - Stockage et requettage – optimiser les deux

Big Data est seulement l’une des deux tendances essentielles du marché. L'autre tendance est un basculement vers des analyses complexes. De nouvelles organisations performantes se différencient par une gestion des données qui va au-delà des simples reporting et de la Business Intelligence (BI) standard, pour identifier des modèles et des tendances comportementales, et effectuer de l'analyse prédictive. Certains systèmes et architectures sont très efficaces pour le stockage des données (par exemple haute compression, heavy disk usage, …), mais à contrario ne sont pas performants en ce qui concerne la gestion complète des requêtes. Une solution performante a besoin de fournir les deux à la fois.

4 - Requêtes analytiques avancées – Vers une simplification

Approfondissez la vision de votre business grâce à des systèmes qui offrent des techniques avancées d'analyse. Le reporting et la BI standard apportent une visibilité sur la performance benchmark de votre organisation qui appartient au passé. Ces requêtes sont prévisibles, prédéfinies, et bien connues. Mais des analyses plus avancées (y compris l'analyse de modèles, le taux de désabonnement prévisionnel, l'analyse des tendances, l’analyse comportementale et prédictive, etc.) fournissent une vision sur le présent et le futur. Cette analyse est itérative et ad hoc, ainsi la découverte d'une tendance conduit à une autre question, itérativement, jusqu'à ce qu'un modèle soit affiné. Les systèmes traditionnels n'ont pas été conçus pour ce type d'analyse. Pour répondre à l'exigence d'analyse itérative, vous devez adopter un système avec une architecture qui peut évoluer à mesure que vos besoins analytiques augmentent, au-delà des simples reporting et des besoins de BI standard. Les principales caractéristiques devraient permettre d’optimiser à la fois le traitement des requêtes prévisibles, celui des requêtes itératives, et celui des requêtes multi-pass. Une plateforme de stockage et d'analyse de données devrait fournir les meilleurs niveaux de performance pour le volume d'analyse dont votre organisation a besoin aujourd'hui et dans l'avenir.

5 – Concurrence et performance – gestion des différents traitements

Les DW et plateformes analytiques se sont imposés comme jamais auparavant pour suivre la croissance de nouveaux utilisateurs. Dans une enquête récente d'IDC, plus de 50% des personnes interrogées ont déclaré qu’après avoir ajouter plus d'utilisateurs à leur DW, les performances se sont considérablement dégradées.
Gérer les besoins d’accès concurrents pour garantir la satisfaction des utilisateurs signifie une capacité à anticiper les performances et des niveaux de service garantis quelque soit les traitements réalisés. Un système qui prend en charge une forte concurrence sur des traitements simples ne nécessite pas nécessairement un même niveau de performance que pour des traitements qui deviennent plus complexes. Afin de s'assurer que les requêtes critiques sont traitées immédiatement, vous devriez être en mesure de réaffecter dynamiquement les ressources CPU et celles de stockage en se basant sur les transactions en cours. Cette gestion dynamique de charges doit travailler sur des centaines de traitements mixtes simultanés. Une mesure ne doit pas être basé sur les utilisateurs connectés, mais sur ceux actifs, et sur les traitements simultanés.

6 - Analyses programmables – fonctions prédéfinies réutilisables ou sur mesure

La BI et le reporting peuvent être réalisés avec des requêtes SQL standards, mais des analyses avancées nécessitent des techniques qui repoussent les limites du SQL standard. L'analyse avancée comprend le traitement des mesures statistiques, l'identification des modes de comportement, le traitement de l'analyse graphique, ou encore effectuer une analyse chronologique, gérer des sources de données granulaires comme des micro transactions, s’adapter à des nouveaux flux ou à des journaux système. Le nouveau framework SQL MapReduce permet de réaliser facilement un panel complet d'analyses avancées. Les analyses préconfigurées et les analyses personnalisables SQL MapReduce sont extrêmement flexibles, avec une assistance pour la gestion dynamique des schémas de données d'entrée et de sortie. Cela permet de coder une seule fois les fonctions SQL MapReduce, puis de les utiliser ensuite à de multiples reprises. Recherchez une plateforme qui exécute des analyses SQL MapReduce intégralement en base de données pour une meilleure productivité des traitements d’analyse de données avec une réutilisation complète et la puissance nécessaire pour traiter des analyses riches, ad hoc.

7 - Analyse en base de données – déplacer votre analyse dans les données

Alors que les bases de données traditionnelles peuvent exécuter la logique de l'application au-delà du SQL (comme les procédures stockées ou des fonctions définies par l'utilisateur : UDFs), ces approches sont souvent limitées. Pour les organisations qui ont besoin d’une réactivité très proche du temps réel, vous devez être capable d'exécuter 100% des analyses en base de données. L'architecture sous-jacente pour l'exécution doit maintenir une séparation entre la gestion des données et celle des processus de demande d'analyse et dans le même temps s'assurer que les données et les processus de demande sont traités comme des citoyens de première classe. Ce n'est que par cette architecture que vous bénéficiez du véritable avantage de la performance de l’analyse en base de données, souvent avec un facteur d’amélioration (entre 8 et 10 fois supérieur) par rapport à des approches d’analyse en dehors des bases de données. Cette approche sous forme de plateforme devrait également vous permettre de développer et d'exécuter une multitude d'analyses codées dans des langages standards tels que Java, C / C + +, C #,. Net, Python, et Pearl au sein de la base de données. De nouveaux framework  innovants pour la parallélisation analytique comme MapReduce devraient également être intégrés nativement pour l’analyse en base de données pour fournir la parallélisation automatique des analyses en bases de données.

8 - Une disponibilité permanente – la fin de votre maintenance

Comme les analyses deviennent plus critiques pour les entreprises, les utilisateurs attendent une haute disponibilité des bases de données. Cela signifie que votre plateforme doit permettre en simultanée des opérations de chargement / exportation lors de l’exécution de requêtes, des opérations de sauvegarde et de récupération en ligne, une restauration en ligne, une augmentation des capacités, le tout sans avoir besoin de temps d'arrêt programmé. Bien sûr, tous les temps d'arrêt ne sont pas prévus. Les interruptions imprévues peuvent survenir en raison d'une défaillance matérielle ou de sinistres sur un site. Pour prévenir ces types de défaillances, vous avez besoin d’une tolérance par rapport aux pannes majeures avec un système de réplication, d’un système de basculement automatique et d’un dispositif de backup en cluster. Si un composant système venait à tomber, la redistribution de charge intelligente devrait minimiser cette charge sur les nœuds actifs, avec une restauration gérée en parallèle permettant la récupération immédiate de l'état optimal du système.

9 – Facilité d’utilisation - pour les analystes et développeurs

Pour l'adoption généralisée des analyses avancées, vous avez besoin d'une plateforme qui soit aussi simple d’utilisation pour les développeurs que pour les analystes métier. Le développeur a besoin d’un environnement intuitif entièrement intégré pour le codage, les tests et le déploiement d'applications analytiques élaborées. Cela devrait être complété par une gamme complète de fonctions analytiques préconfigurées pour accélérer le développement d'applications. Pour que les analystes métier puissent profiter de la plateforme, les applications écrites par les développeurs doivent être accessibles par la norme SQL standard ou par des outils SQL. L'analyste peut alors étendre et modifier les paramètres d'une application sans nécessiter de longs cycles de développement.

10 – Les choix de déploiement - ne vous limitez pas

Il y a différents types de projets et d'initiatives pour la mise en œuvre d’applications analytiques. Certains sont menés à court terme portés par une vision concurrentielle ou stratégique, d'autres sont menés à long terme comme les applications à dimension opérationnelle. Les systèmes de bases de données traditionnelles vont vous forcer à faire des lourds investissements matériels, limitant ainsi votre capacité à lancer des projets à plus court terme, qui pourraient s’avérer pourtant très percutants. Votre organisation devrait avoir le choix entre différents scénarios de déploiement, le déploiement de solutions en interne, le déploiement d'appliance en interne, ainsi que le déploiement externalisé en mode Cloud.

Conclusion

Vous avez probablement beaucoup de questions sur la gestion des Big Data, sur ce que les analyses avancées peuvent signifier pour votre entreprise, et comment commencer. Cette nouvelle plateforme appelée «serveur d’analyses de données»  combinant stockage de données et traitement analytique sur une même plateforme est un outil puissant pour votre organisation pour relever le défi des Big Data. Le stockage des données doit être adressé par une nouvelle architecture de base de données massivement parallélisée, le traitement des données doit être géré par un moteur complet et intégré d'analyses, de sorte que les analyses soient exécutées intégralement en base de données. Le résultat est une solution de stockage de données présentant une haute performance d’analyse de données, et permettant de réaliser des analyses plus riches.
Pour en savoir plus sur cette nouvelle génération de plateforme à valeur ajoutée pour les organisations comme la vôtre, vous pouvez nous contacter à l’adresse : contact@precodata.com

BUSINESS CASE

NEWSLETTER

S'inscrire Se désinscrire