Archive

Archive for the ‘Big Data’ Category

Le BigData dévoile un visage humain : EMC Human Face of Big Data

HUMAN FACE of BIG DATA

 

EMC vient de  lancer une opération d’envergure mondiale au travers de son initiative « Measure Our World », qui invite depuis le 26 septembre et pendant 1 semaine les détenteurs de smartphones et tablettes du monde entier à partager et comparer leur vie en temps réel via une application innovante fondée sur un questionnaire interactif.

Cette initiative qui intervient dans le cadre de The Human Face of Big Data est l’un des projets les plus ambitieux jamais créés pour appréhender l’impact sociétal du Big Data et lui apporter une dimension humaine, initié par le photographe Rick Smolan.

Et si vous aviez votre clone de l’autre côté de la planète ???

    Téléchargez l’application ipad ou Android en cliquant l’image

3 ateliers « Mission Control » sont organisés le 2 octobre 2012 à New York, Londres et Singapour. Des experts et précurseurs du Big Data présenteront leur travail et leurs innovations à l’occasion d’un « Big Data Lab » interactif. afin d’analyser, de visualiser et d’interpréter les données collectées.

Et le 8 novembre 2012 aura lieu la journée « Data Detectives », au cours de laquelle des élèves de 6 à 12 ans dans le monde entier seront amenés à collecter et analyser des données sur le monde, ainsi qu’à confronter leurs opinions, réflexions, préoccupations et croyances illustrées par des graphiques et visualisations de données.

Autre point d’orgue du progamme, un ouvrage réunissant photographies, essais et œuvres infographiques sera édité le 20 novembre 2012.  Ce livre présentera 140 cas d’utilisation Big Data aussi extraordinaires qu’innatendus comme des Eléphants de mer équipés d’antennes pour cartographier les océans ; des satellites utilisés pour traquer les moustiques ; la lutte contre la vente de médicaments contrefaits par SMS au Ghana ;un smartphones prédisant un futur état dépressif ; des cartes de crédit permettant de détecter 2 ans à l’avance les risques de divorce ; des comprimés qui transmettent des informations directement du corps au médecin, …

L’initiative en collaboration avec Rick Smollan de AAOP et sponsorisée par EMC est fondée sur le constat que l’accès en temps réel aux données collectées par les satellites et par des milliards de capteurs, étiquettes d’identification par radiofréquences (RFID) et smartphones avec GPS, partout dans le monde, permet à l’homme d’appréhender, de comprendre et d’influer sur des aspects de son existence par des moyens que nos ancêtres n’auraient pas pu imaginer, même dans leurs rêves les plus fous.

Le concept du Big Data est le fruit de travaux menés en laboratoire par les experts et chercheurs les plus éminents de l’industrie informatique. Nous constaterons tous bientôt ses impacts sur nos modes de vie, de travail et de divertissement, ainsi que sur nos comportements. The Human Face of Big Data est le projet extrêmement ambitieux qui vise à expérimenter concrètement l’impact sociétal du Big Data et lui apporter une dimension humaine. Nul doute que ses répercussions seront significatives et durables.

Etude EMC Big Data Index : un intérêt réel des entreprises en dépit d’un retard à l’allumage de la DSI

Au delà des résultats du Big Data Index, l’étude que j’ai lancé récemment avec IDC, a le mérite de mettre en avant la maturité et l’attitude face au Big Data, à la fois des responsables des études et métiers et des responsables informatiques et d’infrastructures.

Une méthodologie adaptée à la réalité de ces projets informatiques qui impliquent fortement les métiers. Le Big Data, c’est un renversement de modèle qui va au delà de transformation de l’IT. Et cela nécessitera sans doute la mise en place d’organisation métier et technologique spécifique complètement dédiée à gestion de l’information.

Des projets qui commencent juste à émerger dans les entreprises françaises

Le Big Data Index a pour objectif de mieux analyser la perception qu’ont les entreprises françaisesdu Big Data et la réalité des initiatives prises dans ce domaine. Il repose sur deux enquêtes conduites en France en juin et juillet 2012 auprès de 160 entreprises de plus de 200 salariés.

Deux populations ont été interrogées : les études et les responsables informatiques et d’infrastructures. Sans surprise au regard de la jeunesse du concept, 70% des entreprises interrogées par IDC  déclarent ne pas avoir d’initiatives ou de réflexion dans le domaine du Big Data et une entreprise sur deux a le sentiment d’être très en retrait avec la moyenne de la profession dans ce domaine.

Les raisons invoquées se situent principalement dans le domaine des compétences et de l’organisation. Le manque d’expertise technologique en interne est ainsi perçu comme le principal frein et pour 64% des équipes IT, ayant répondu à cette étude, la collaboration des services informatiques et des entités métiers devront être renforcées.

Comme le confirme l’étude, le Big Data commence juste à émerger en France. Ainsi, 18 %  seulement des entreprises interrogées déclarent utiliser des solutions « Big Data » et 11% ont prévu ou envisagent d’investir.

Pour IDC, les initiatives de ces entreprises « volontaristes » restent limitées par leur nombre et par l’ampleur des projets. Seule une moitié déploie, ou a déployé, des technologies portant à la fois sur les dimensions «stockage» et «analytiques» du Big Data.

Tendance plus positive pour l’avenir : 31% des entreprises interrogées ont esquissé, avec des entités métier, des réflexions et des discussions de type « Big Data », voire des déploiements technologiques, sans pour autant revendiquer une démarche « Big Data », ni même faire le lien avec le concept.

Un intérêt plus large et plus dynamique qu’il n’y paraît

Si, selon les résultats de l’étude, plus de la moitié des projets Big Data concernent l’analyse financière (58%), donc le secteur bancaire, et la connaissance client (53%),  on sait que la réalité du Big Data sur le terrain est plus diversifiée que cela. EMC insiste notamment beaucoup sur le coté prédictif du Big Data et pas seulement dans les secteurs innovants du commerce électronique ou de la publicité en ligne. Dans le temps, les domaines concernés seront plus vastes que l’on ne peut l’imaginer aujourd’hui.

Pour le prouver, nous avons d’ailleurs lancé différentes initiatives visant à illustrer tous les champs d’application possibles au quotidien. Au delà des usages possibles, le Big Data est perçu comme un projet très innovant.

Selon 75% des responsables « Etudes » interrogés, « le Big Data pourrait contribuer à renforcer d’une manière ou d’une autre la capacité d’innovation de leur organisation ». Grâce aux technologies Big Data, 59% estiment qu’elles pourraient tirer parti de données jusqu’alors inaccessibles. 40% indiquent que le Big Data rend possible de nouveaux modèles économiques basés sur la réactivité et l’interactivité en temps réel.

En conclusion, les résultats de l’étude témoignent encore d’une différence de maturité et d’intérêt pour le Big Data entre les entités « métiers » et « informatiques » de l’entreprise, mais aussi entre les équipes « Etudes » et « Infrastructures » au sein des directions informatiques.

La grande majorité des responsables des départements Etudes, interrogés au sein des Directions des Services Informatiques françaises, observent une demande croissante de la part des entités métier (Marketing et Finance en particulier). Et ce, en matière d’analyses plus fines et plus fréquentes, portant à la fois sur les volumes de données croissants, mais également sur des contenus plus variés.

Dans la série BigData : Il était une fois HADOOP

27 septembre 2012 1 commentaire

Lorsque l’on évoque la question du Big Data et les données non structurées…

…une des premières technologies qui vient à l’esprit de nombre d’entreprises est Hadoop, le framework analytique Java développé au sein de la fondation Apache. Hadoop reste toutefois un mystère pour nombre d’utilisateurs. SolutionITPME a donc décidé de faire le point sur Hadoop, sur son histoire et sur les différentes briques technologiques qui composent le framework.

 

Doug Cutting, le créateur d’Hadoop et l’éléphant qui servait de doudou à son fils, et fait aujourd’hui figure de logo pour le framework Java

Hadoop trouve ironiquement ses racines dans des technologies propriétaires de Google. En 2004, le moteur de recherche a publié un article de recherche présentant son algorithme MapReduce, conçu pour réaliser des opérations analytiques à grande échelle sur un grand cluster de serveurs, et sur son système de fichier en cluster, Google Filesystem (GFS). Doug Cutting, qui travaillait alors sur le développement du moteur de recherche libre Apache Lucene et butait sur les mêmes problèmes de taille qu’avait rencontré Google, s’est alors emparé des concepts décrits dans l’article du géant de la recherche et a décidé de répliquer en open source les outils développés par Google pour ses besoins.

Employé chez Yahoo, il s’est alors lancé dans le développement de ce qui est devenu le projet Hadoop – pour la petite histoire, Hadoop est le nom de l’éléphant qui servait de doudou à son jeune fils.

 

 

 

Un framework modulaire

Hadoop n’a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse, une mission qui reste largement l’apanage des grands systèmes de DataWarehouse. La spécialité du Framework, c’est le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio…

Les différents composants de la distribution Hadoop MapR, revendue par EMC sous le nom Greenplum MR

Au cœur d’Hadoop se trouve avant tout un système de fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS est conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem est conçu pour assurer la sécurité des données en répliquant de multiples fois l’ensemble des données écrites sur le cluster (par défaut chaque donnée est écrite sur trois nœuds différents). Il est optimisé pour maximiser les débits de données et non pas pour les opérations transactionnelles aléatoires. La taille d’un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à 4 Ko dans la plupart des filesystem traditionnels Cette taille de bloc s’explique par le fait que Hadoop doit analyser de grandes quantités de données en local. Avec HDFS certains nœuds ont en charge la gestion des métadonnées (les name nodes) tandis que d’autres stockent les données (data nodes). Historiquement, une des fragilités d’HDFS était qu’il ne pouvait y avoir qu’un namenode dans un cluster, mais cette fragilité a été corrigée. Un autre « défaut » est que HDFS n’est pas conforme au standard POSIX et que certaines commandes familières sur un filesystem traditionnel ne sont pas disponibles.

Il est à noter que si HDFS est le filesystem par défaut d’Hadoop, le framework peut aussi être déployé sur des filesystem tiers, souvent grâce à des couches de compatibilité. MapR l’un des pionniers d’Hadoop et partenaire d’EMC, a ainsi développé son propre système de fichier qui règle le problème de fragilité lié aux namenodes d’HDFS et qui ajoute aussi des fonctions avancées comme les snapshot, la réplication ou le clonage. Isilon a quant à lui développé un pont entre HDFS et son filesystem OneFS de façon à ce que les données d’un cluster soient stockées sur un cluster Isilon.

Le second composant majeur d’Hadoop est MapReduce, qui gère la répartition et l’exécution des requêtes sur les données stockées par le cluster. Le moteur MapReduce a pour but de distribuer les travaux d’analyses entre les différents nœuds du cluster. Il inclut un mécanisme de distribution de « jobs » – le JobTracker – et un mécanisme de suivi de l’exécution de ces jobs – le TaskTracker. Ce dernier est distribué sur l’ensemble des nœuds et fait remonter au JobTracker l’état des jobs en cours. Il est à noter que la distribution des jobs inclut des mécanismes d’optimisation de telle sorte que les jobs sont placés au plus près des données qu’ils doivent manipuler.

De nouveaux outils et langages pour faciliter les requêtes sur Hadoop

Les API clés de MapReduce sont accessibles en Java, un langage certes populaire mais qui requiert des compétences bien plus pointues que la maîtrise d’un langage d’interrogation comme SQL. Plusieurs langages ont donc émergé pour tenter de simplifier le travail des utilisateurs d’Hadoop, dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de données. Le langage de Pig est PigLatin, complété par un runtime destiné à exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique assez simple. Il permet de charger des données, puis de les manipuler (appliquer des filtres, des groupements, des opérations mathématiques…).

Chez Facebook, des développeurs ont quant à eux conçu Hive, pour permettre à des développeurs familiers du langage SQL de manipuler des données dans Hadoop. Hive dispose d’un langage baptisé HQL (Hive Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster.

Au fil des ans, Hadoop  a continué à s’enrichir de nouvelles applications, comme la base de données Hbase, qui fournit des services similaires au service BigTable de Google. Hbase est une base de données en colonnes (dans la mouvance NoSQL) qui s’appuie sur HDFS pour le stockage de ses données. Hbase est notamment utile pour ceux qui ont besoin d’accès aléatoires en lecture/écriture à de grands volumes de données. Parmi les autres composants connus, on peut aussi citer la technologie d’apprentissage Apache Mahout, ainsi que la technologie d’administration de cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet de coordonner l’ensemble des processus distribués sur le cluster, mais aussi de gérer les configurations de ses différents éléments.

Signalons pour terminer que le périmètre d’Hadoop continue de s’élargir, les différents développeurs de distributions Hadoop ajoutant progressivement de nouveaux composants, outils ou langages afin d’enrichir les composants de base du Framework. Un signe évident du dynamisme de l’écosystème Hadoop, mais aussi de sa relative jeunesse.

Source :SolutionsITPME de septembre http://www.solutionitpme.fr/2012/09/10/lecon-n7-a-la-decouverte-dhadoop-1645

VMworld 2012 : L’innovation continue avec Pat et le BigData et la Virtualisation du Stockage

Pat Gelsinger, le nouveau* PDG de VMware, réaffirme que l’innovation est coeur de la stratégie de la société et qu’il continuera à faire des acquisitions.

* Pat Gelsinger a remplacé Paul Maritz à la tête de VMware depuis le 1er septembre… Paul Maritz prend la responsabilité de la stratégie chez EMC.

Les annonces faites sur la virtualisation du datacenter et sur l’entreprise mobile démontrent que l’innovation est le moteur de l’entreprise. Nous sommes en train de réinventer la façon de créer le datacenter en virtualisant l’ensemble de ses composants. Cela mobilise de l’énergie, des équipes d’ingénieurs pour intégrer l’ensemble de ces évolutions  réalisées en interne, mais aussi par de la croissance organique ». VMworld 2012 a montré une consolidation de ces projets au sein des suites annoncées, vCloud et Horizon.

Pat Gelsinger, CEO de VMware

Pat Gelsinger, CEO de VMware

Big Data et  virtualisation du stockage

Au cours de cet évènement, nous avons néanmoins entendu parler de deux projets, uniquement sur la partie infrastructure. Le premier projet s’appelle Serengeti, il s’agit d’optimiser Hadoop dans un environnement virtualisé.  Une démonstration vidéo est disponible sur YouTube où Hadoop est couplé avec la solution GreenPlum EMC et sur des NAS haut de gamme Isilon, deux autres branches du groupe EMC. L’objectif est de rendre  »scalable » les capacités de Hadoop au sein d’un cluster virtualité.

Le projet Serengeti de VMware
Le projet Serengeti de VMware

Un autre projet pour les infrastructures concerne le stockage. Avec la virtualisation du datacenter, l’éditeur suit attentivement les évolutions de cette brique. Lors de VMworld 2012, il a lancé des pistes de travail sur la virtualisation des LUN, à travers une solution baptisée vVolume. La mémoire flash via les SSD, mais aussi la mémoire cache des serveurs est matière à réflexion à travers la solution vCache. Plus globalement, la notion de vSAN a été également évoquée. Ces éléments ont juste été annoncés furtivement par Pat Gelsinger, lors de la présentation de vCloud Suite, sans donner plus de détails.

Des acquisitions toujours à l’étude

Les deux grandes annonces ont donc éclipsé ces différents projets, mais VMware place toujours l’innovation au coeur de sa stratégie. Pat Gelsinger a réaffirmé ce principe et indique que pour cela la société « continuera à faire des acquisitions ».Il reste bien évidement muet sur les profils des potentiels candidats.  Il souligne néanmoins la bonne opération avec le rachat de Nicira, qui est « pionnier dans la virtualisation du réseau et nous donne une position importante dans le domaine du SDN ». Au point d’inquiéter Cisco ? Non répond le dirigeant « nous avons un partenariat privilégié avec Cisco et nous travaillons avec lui sur les sujets réseaux au sein de VCE ».

EMC FORUM 2012 : UNE NOUVELLE VISION DE L’ENTREPRISE, DE L’IT ET DE VOTRE MÉTIER


Paris – 15 novembre 2012

Carrousel Du Louvre

EMC FORUM 2012 : UNE NOUVELLE VISION DE L’ENTREPRISE, DE L’IT ET DE VOTRE MÉTIER

Préparez vous pour l’EMC Forum version 2012 ! Cette édition 2012  va transformer votre vision de l’avenir de l’entreprise, de l’IT et de votre métier.

  • Découvrez pourquoi le cloud computing et la virtualisation sont essentiels pour faire face aux nouvelles réalités IT.
  • Découvrez comment vous pouvez optimiser votre business grâce au Big Data.
  • Approfondissez les connaissances, les compétences et découvrez les dernières innovations qui vous aideront à relever les défis à venir.

EMC Forum est une occasion unique de rencontrer vos paires mais aussi d’échanger avec les experts et intervenants EMC Français et internationaux, et d’assister à des témoignages et études de cas sur les dernières solutions intégrées d’EMC et de nos partenaires.

Vous pourrez également tester nos solutions en situation sur le vLab!

Inscrivez-vous dès aujourd’hui à EMC Forum 2012 pour ne pas manquer cet événement!

PARIS

Date : 15 novembre 2012

Horaire : 08:30 – 17:30

Lieu

Carrousel Du Louvre
99, rue de Rivoli
75001, Paris

Plan d’accès >>

 Rejoignez la Communauté
Gardez le contact avec EMC et suivez toutes les actualités d’EMC, de ses partenaires, mais aussi de vos homologues !
Suivez EMC sur les réseaux sociaux

FacebookTwitterFlickrYouTubeEMC Community Network

Les architectures NAS en cluster séduisent de plus en plus les entreprises?

Alors que le volume de données non structurées progresse à un rythme exponentiel dans les entreprises, une technologie de stockage séduit de plus en plus les responsables informatiques. Il s’agit de la technologie NAS en cluster aussi appelée scale-out NAS. L’intérêt pour cette technologie est principalement liée à son évolutivité et à sa simplicité. Elle promet en effet aux entreprises de pouvoir faire évoluer leur capacité de stockage d’une façon quasi illimitée, par simple ajout de nœuds de stockage additionnels à leur infrastructure existante et ce sans avoir à remplacer l’infrastructure d’origine. Ce concept simple est aujourd’hui mis en œuvre dans un nombre croissant de systèmes et séduit de plus en plus les acheteurs de systèmes de stockage de données.

Un système de stockage évolutif assemblé à partir de multiples noeuds physiques

Le principe même d’un système de stockage NAS en cluster est qu’il se compose de plusieurs nœuds physiques reliés entre eux par des interfaces réseaux rapides (Infiniband ou 10 Gigabit Ethernet) et assemblés en un seul système de stockage NAS logique par le biais d’un système d’exploitation en général propriétaire. Du fait de sa nature « scale-out », un système de stockage NAS en cluster évolue par simple ajout de nœud. Cette opération permet à la fois d’augmenter la capacité du système mais aussi ses performances ainsi que, dans certains cas, sa tolérance aux pannes. Les plus évolutifs des systèmes de stockage en cluster ont la capacité de gérer plusieurs Petaoctets de données sur plus de 100 nœuds, mais ils sont accessibles et gérés comme un seul système grâce à l’utilisation d’un système de fichiers distribués ou d’un système d’espace de nommage global.

Un système de stockage NAS en cluster se compose typiquement de multiples nœuds de stockage x86 disposant d’une configuration standard (quantité fixe de CPU, de mémoire cache et de disques durs). Lorsque la capacité du système approche la saturation, l’entreprise peut faire évoluer sa configuration existante en ajoutant simplement de nouveaux nœuds au cluster existant. Cette approche évolutive est particulièrement adaptée aux entreprises devant gérer de grandes quantités de fichiers, mais elle séduit aussi de plus en plus des entreprises ayant des besoins de stockage généralistes. Le scale out NAS permet en effet des migrations en douceur, plus simplement que les systèmes traditionnels.

Architecture typique d’un système NAS en Cluster EMC Isilon (ici l’architecture inclut un cluster performant à base de noeuds Isilon S200 et un second cluster à base de noeuds Isilon NL relié au premier par un lien WAN pour l’archivage et la reprise après sinistre).

Historiquement, les systèmes de stockage NAS en cluster ont connu leurs premiers succès dans le monde des applications nécessitant des bandes passantes et un débit élevé, notamment dans les secteurs des médias, du divertissement, du calcul à haute performance, de la bio-informatique, et dans le secteur de la recherche pétrolière et gazière. Mais ce succès s’étend désormais bien au delà de ces secteurs. Les premiers systèmes scale-out n’étaient en effet pas optimisés pour les applications traditionnelles d’entreprises, mais les évolutions apportées récemment par certains spécialistes du genre comme la division Isilon d’EMC, promettent d’ouvrir ces systèmes à un panel d’usage bien plus large, comme la virtualisation.

Une adoption qui s’accélère dans le monde des applications d’entreprise

Terri McClure, un analyste senior chez Enterprise Strategy Group (ESG) à Milford, explique ainsi qu’au fur et à mesure que les constructeurs optimisent leurs systèmes pour obtenir de meilleurs résultats avec les applications d’entreprises, les architectures NAS en cluster apparaîssent de plus en plus dans les datacenters d’entreprise.

Le leader emblématique du secteur Isilon Systems, racheté par EMC à la fin 2010. Isilon propose trois options de nœuds différentes pour ses systèmes en cluster : les nœuds de la série S sont conçus pour délivrer des performances élevées pour les applications nécessitant des grands volumes d’entrées/sorties sur de petits fichiers ; les X-Series sont des nœuds intermédiaires conçus pour le stockage d’un moins grand nombre de fichiers plus volumineux ; enfin les NL-Series sont des nœuds très capacitifs et économiques conçus pour l’archivage et le stockage en volume de grandes capacités de données. En l’état de la technologie, un système Isilon peut comprendre jusqu’à 144 nœuds pour un total de 15,5 Po de données, stockées dans un système de fichiers unique, ce qui simplifie grandement l’administration. Côté performance, un système à base de nœuds S200 équipé en partie de disques SSD a une capacité maximale inférieure (2 Po), mais offre une bande passante agrégée de 85 Gbit/s et peut traiter 1,2 million d’IOPS NFS, encore une fois avec seul système de couvrant un cluster de 144 nœuds.

Si Isilon est parti avec une bonne longueur d’avance, tous les constructeurs s’intéressent aujourd’hui au monde du stockage en cluster et nombre d’analystes font le pari que cette technologie détrônera à terme les systèmes de stockage NAS traditionnels. Randy Kerns, un analyste chez Evaluator Group à Broomfield, Colorado, est un peu plus prudent et estime qu’il y a beaucoup de cas d’utilisation où les clients préféreront des NAS traditionnels, notamment pour les plus petites configurations. « Il y a de la place pour les deux », a déclaré Kerns. « Je pense que les systèmes scale-out NAS et les NAS traditionnels sont tous les deux là pour longtemps ».

Étiquettes :

EMC promeut la notion de chaine de valeur #BigData !

  • Quelle valeur apporte le big data aux entreprises ?
  • Quels sont les défis qu’il faut surmonter (outils architectures, infrastructures, technologiques) ?
  • Le big data se limite-t-il au décisionnel ? Quelle pertinence existe-t-il entre le cloud et le big data ?

 

Un constat s’impose : le big data n’a de sens que dans l’usage et l’exploitation des analyses dans les processus métiers.

Le big data n’est pas une simple démonstration technologique. L’explosion de la volumétrie des données est sans précédente,35,2 zeta octets à l’horizon 2020 et la donnée non structurée représente désormais 90 % de nos données !

Pour manipuler, stocker, traiter, analyser, cette masse d’informations structurées et non structurées, il faut des outils adaptés. Une donnée non exploitée n’a aucune valeur pour l’entreprise.

“Big Data ne concerne ni la création de contenu, ni sa consommation. Il s’agit d’analyser toutes les informations liées au contenu” précise IDC.

Un exemple : un responsable marketing dans le B2C exécute des analyses et organise son CRM autour des données clients disponibles au sein du système d’information. Aujourd’hui, il doit prendre en compte les informations présentes au travers de sources externes : dans les réseaux sociaux pour effectuer des agrégations/corrélations, des analyses comportementales, de la géolocalisation, des études macro ou micro économiques, des résultats de recherches démographiques, etc.

Cette masse d’information est une pression supplémentaire pour les DSI. En 2020, le volume des données sera multiplié par 50 mais avec des équipes techniques limitées et des contraintes budgétaires toujours fortes.

La chaine de valeur proposée par big data : un enjeu crucial pour les entreprises!

Spécialiste si il en est de la gestion des volumes, EMC préconise la mise en place d’une chaine de valeur autour du big data.

C’est en effet à travers ce concept qu’il défend une nouvelle manière de penser la donnée, son utilisation dans le modèle économique de l’entreprise. Car le big data c’est d’abord la possibilité offerte aux organisations d’obtenir les données stratégiques pour prendre des décisions et agir rapidement. Par exemple, comment proposer en temps réel du ticketing ciblé à des clients de sites internet ? Comment afficher une campagne publicitaire répondant aux attentes, aux envies d’un internaute ? Il faut pouvoir agir et réagir immédiatement. Les actions marketing reposent sur les capacités à collecter et à traiter les informations pertinentes et à fournir des analyses immédiatement.

Pour EMC, la chaine de valeur du big data repose sur trois éléments :

– Collecter, stocker les données : partie infrastructure

– Analyser, corréler, agréger les données : partie analytique.  L’analyse hyper performante en temps réel quelque soit l’importance du volume de données.

– Exploiter, afficher l’analyse big data : comment exploiter les données et les analyses, comment monétiser le résultat, comment partager ces informations cruciales pour l’entreprise ? Comment les utilisateurs peuvent afficher et utiliser les résultats.

Cette démarche nécessite une infrastructure big data propre aux données, des outils d’analyses et les capacités à agir (moteur d’action). Le spécialiste du stockage couvre dès aujourd’hui l’ensemble de la dimension big data mais veut aller au-delà des fameux 3V défini par Gartner : volume, variété, vélocité.

Car le big data n’a de sens que s’il est exploité et utilisé. Il ne faut pas se focaliser sur la technologie mais aussi et surtout l’usage. C’est là que se trouve la valeur de la donnée. Cette problématique est adressée à travers l’Action Engine (moteur d’action). L’objectif du moteur d’action est de diffuser en temps réel la quintessence de l’information – ce qui en fait la richesse – aux métiers et aux utilisateurs (après traitements des données et des analyses).

EMC Documentum est la colonne vertébrale de cette chaine de valeur. Cette solution va apprécier la donnée pour permettre de prendre des décisions à travers des processus métiers (c’est là qu’intervient Big Data Action Engine).

Acteur global de l’exploitation de la donnée EMC pose les fondations technologiques du big data avec l’infrastructure et les outils d’analyse et de traitement :

Sur le stockage, il faut une infrastructure à forte montée en charge et automatisée, capable de supporter plusieurs petaoctets de données tout en ayant des performances linéaires.

La gamme Isilon s’adapte parfaitement aux contraintes de capacité, de performances et de montée en charge. Hadoop, le framework big data de référence est disponible sur la plate-forme. La gamme Atmos répond aux besoins en termes d’infrastructures distribuées fonctionnant en ilots de stockage (un tenant, plusieurs systèmes) ou présentant un pool unique de stockage (plusieurs tenants, un seul système).

Sur la partie analytique EMC abat ses cartes par le biais de la solution Greenplum. Disponible sous la forme d’un logiciel traditionnel ou d’une appliance (HW et SW), Greenplum propose la solution idéale pour le Bigdata analytique. Complément indispensable pour l’analyse des données non structurées, Greenplum intègre nativement une version supporté du framework Hadoop.

Le cloud computing démocratise l’usage du big data!

De quelle manière une entreprise, une startup, une TPE / Web, un site de ecommerce peut mettre en œuvre du big data sans investir dans les infrastructures ? La réponse est le cloud computing. Le stockage des données et leurs analyses consomment énormément de ressources et les pics d’activité sont difficilement absorbables pour une infrastructure classique. Les services cloud (IaaS ou PaaS) permettent alors de prendre le relai et de mobiliser les ressources nécessaires en quelques minutes.

Pour une petite entreprise ou une startup, le cloud est l’infrastructure flexible idéale. Il est facile de provisionner des instances, de souscrire à du stockage supplémentaire pour répondre aux besoins immédiats de l’activité de l’entreprise. Surtout, les traitements et analyses se déportent aussi sur le cloud computing. De plus en plus d’outils analytiques sont disponibles sous forme de services cloud. Hadoop est disponible chez de nombreux fournisseurs de IaaS et de PaaS. Et les services SaaS et services cloud s’intègre avec le big data pour afficher et exploiter les analyses.

Étiquettes : , ,