2012 in review

Les lutins statisticiens de WordPress.com ont préparé le rapport annuel 2012 de mon blog.

En voici un extrait :

600 personnes ont atteint le sommet de l’Everest en 2012. Ce blog a été vu 9 200 fois en 2012. Pour que chaque personne ayant atteint le somment de l’Everest puisse visiter ce blog, 15 ans auraient été nécessaires.

Cliquez ici pour voir le rapport complet.

Bonne année 2013


ANALYSIS : Past, Present and Future Converge at EMC

Je souhaitais partager avec vous une analyse de Charles King. Charles est principal analyst à Pund-IT, il a rédigé cette note dans la foulée du récent Analyst Summit EMC.


Past, Present and Future Converge at EMC


By Charles King
E-Commerce Times
12/07/12 5:00 AM PT




I came away with from EMC’s 2012 Industry Analyst Summit impressed by how dynamic and elemental the company’s transformation has been since 2001, when Joe Tucci became president and CEO. The past decade has seen EMC essentially move from being a preeminent maker of enterprise storage to becoming a vendor whose interests and influence extend to wherever data resides — which is virtually everywhere.

This year’s EMC Industry Analyst Summit included numerous highlights familiar to regular IT conference attendees: a self-generated report card on the previous year’s activities and a discussion of plans for the year ahead, for example.

Few, however, offer the level of access EMC does by holding candid and unscripted Q&A sessions with senior executives including Chairman and CEO Joe Tucci.

Doing this quietly suggests a level of self-confidence that many of its competitors lack, an ironic point given the histrionic public displays of confidence some seem to prefer.

Past, Present, Future

During the EMC Summit, I attended three roundtables that, in retrospect, seemed to tangibly reflect the company’s past, present and future:

  1. Back-up and Recovery Services (BRS) — If any one EMC division accurately mirrors the company’s past life, it is probably BRS. That’s due to the central role data back-up and recovery has long played in storage. However, BRS is also home to some notable EMC acquisitions, including Legato (i.e. Networker), Avamar and Data Domain. As a result, BRS both reflects a host of EMC achievements and provides insights into how the company stays fresh and innovative.Of recent acquisitions, Avamar (2006) and Data Domain (2009) have easily been the most transformative for BRS. Both focus on data deduplication — a technology that searches, finds and removes duplicate documents and multiple copies of other data from information stores, thus significantly, sometimes radically opening fresh hard drive space, improving back-up/recovery process performance and enhancing ROI.

    Not surprisingly, de-dupe plays well in EMC’s long-held strategy of advocating that customers remove tape storage entirely from their back-up and recovery environments. In fact, more than 1,000 EMC customers have done just that, noted Shane Jackson, the VP of marketing for BRS who hosted the roundtable. Jackson also discussed a number of major BRS customer wins during Q3 2012 and detailed how its new Avamar Business Edition, a dedupe appliance for the mid-market, is gaining traction among clients and channel partners.

  2. VCE — The joint venture owned by EMC and Cisco (with equity stakes held by VMware and Intel), VCE touches several critical IT trends. As the tech industry continues to consolidate, elemental changes are occurring in the characters and cultures of existing and aspiring system vendors. At one end of the scale, Dell is steadily acquiring and developing the assets it needs to deliver end-to-end business IT solutions. At the other end, Oracle’s purchase of faltering Sun Microsystems provided the company the means to set itself up as a software/hardware juggernaut apparently modeled on IBM in the 60s and 70s.Most all system vendors are developing and promoting converged infrastructure solutions designed to maximize performance and business value for specific enterprise use cases, applications and workloads. Occasionally, third-party solutions play a role in these efforts — SAP’s HANA in-memory database is one great example. But more often, solutions consist of vertical stacks of an individual vendor’s assets. Oracle’s Exadata highlights this approach.

    Where does that leave best-of-breed players like EMC and Cisco? They’re pursuing creative partnerships like VCEIDC estimates that while converged infrastructure solutions make up about 6 percent of the enterprise IT market today, they are expected to be a dominant (65 percent) share by 2017, the company’s president, Frank Hauck, noted. So developing ways to effectively pursue that opportunity is critical for EMC and Cisco.

    How are they doing so? VCE’s vBlocks are converged infrastructure solutions based on the partners’ technologies that support central IT drivers for enterprise customers. They include x86 scale-out hardware, emerging workloads like cloud and big data, new applications, including virtual desktop infrastructures (VDI) and next-generation data center design and development. In fact, EMC’s new data center in Durham, NC is based on VCE’s vBlock architecture.

    VCE has more than 550 vBlock customers and is approaching a US$1 billion annual run rate. Just as importantly, the company has 150 partners, including major ISVs and service providers, who support its platforms and market strategies.

  3. RSA — RSA is a division that represents EMC’s future, due in part to the value it delivers today. It also reflects the central — yet continually expanding — role of security in virtually every corner of the IT world. Security is in a state of radical change that will transpire over the next two to four years, noted Brian Fitzgerald, RSA’s VP of marketing.Why? Because the nature of security is changing, and so is the nature of threats. In the past, viruses, worms and other examples of malignant code were often standalone entities. Today, RSA is seeing continually expanding reuse of powerful technologies like Stuxnet when they emerge in the wild, increasing the sophistication of a wide range of threats. RSA also believes a blurring of lines is occurring between groups involved in security threats. As an example, Fitzgerald noted rising collaborations between nation-state hackers — those supported in some way by governments or government entities — and organized crime groups in those same locales.

    What is RSA doing about this? First, it is developing new tools and techniques designed to shorten the dwell time of malignant code when it resides in a target environment quietly collecting information and doing damage.

    « Modern security management is a classic big-data problem, » Fitzgerald noted, suggesting the company may have interesting news to share on the subject at next year’s RSA Conference.

Final Analysis

I came away with from EMC’s 2012 Industry Analyst Summit impressed by how dynamic and elemental the company’s transformation has been since 2001, when Tucci became president and CEO. The past decade has seen EMC essentially move from being a preeminent maker of enterprise storage to becoming a vendor whose interests and influence extend to wherever data resides — which is virtually everywhere.

Much of EMC’s evolution has been due to the more than 40 acquisitions the company completed during that time but more has transpired within. In any case, these strategic developments have certainly delivered practical benefits: In 2002, EMC’s annual revenues were $5.4B, while in 2012, they were quadruple that amount: $21.6B.

Far more importantly, the company’s visionary expansion has left it optimally positioned related to the key trends and opportunities of today’s IT, including the growth of x86-based data center solutions, virtualization becoming a way of life for companies of every size, software as a core solution differentiator, the critical importance of centralized IT management, cloud computing evolution and the crucial nature of information and infrastructure security.

In the Q&A session with Tucci and EMC President, David Goulden, someone asked about EMC’s M&A strategy. Tucci replied, « If you’re going to buy a company, you should remember that the people are as important as the technology, if not more important. Revenues are the least important factor. »

« There’s a huge difference between want and need. You have to focus first on what you need — not what you want. That may come along later, » Tucci said, paraphrasing the Rolling Stones.

By doing just that, Tucci, Goulden, Howard Elias and other EMC leaders have built a company which is difficult at best to beat in its core markets. More importantly, they have fashioned an organization that, while building on the past and maintaining a focus on successfully addressing today’s most critical issues, also keeps its gaze fixed clearly on future opportunities and challenges. 

E-Commerce Times columnist Charles King is principal analyst for Pund-IT, an IT industry consultancy that emphasizes understanding technology and product evolution, and interpreting the effects these changes will have on business customers and the greater IT marketplace. Though Pund-IT provides consulting and other services to technology vendors, the opinions expressed in this commentary are King’s alone.

La révolution du stockage est en route : Quelle vision technologique pour EMC en 2013 ?

A l’occasion d’EMC Forum 2012, Sébastien Verger, notre CTO EMC France, a levé le voile sur les évolutions de l’offre EMC attendues pour 2013 en mettant l’accent, sans trop de surprise pour les amateurs de stockage EMC, sur l’intégration de la technologie Flash de bout en bout entre serveurs et baies de stockage…

La mémoire Flash va jouer un rôle clé dans la transformation des architectures de stockage des prochaines années. C’est ce que Seb a pointé du doigt pendant le keynote  d’EMC Forum 2012 qui se tenait à Paris, au Carrousel du Louvre le 15 novembre dernier.

La raison fondamentale de l’importance de la Flash tient à une question d’architecture des systèmes informatiques : si la performance des processeurs a explosé au cours des dernières années, celle des disques durs n’a pas suivi ce qui fait que le stockage est devenu un goulet d’étranglement pour les performances.

Un goulet qu’il est possible de faire disparaître avec la mémoire Flash.


L’impact de la Flash sur les systèmes de stockage est lié à ses caractéristiques uniques en matière de rapport performances/prix.

Pour se faire une idée du fossé qui s’est creusé entre stockage et « compute » il suffit de comparer le temps d’accès d’une mémoire vive, d’un disque dur et d’une mémoire Flash. La première a un temps d’accès de 2 nanosecondes, tandis que le second a un temps d’accès typique de 5 à 6 millisecondes (pour un disque SAS) et du double pour un disque SATA.

Une mémoire Flash de dernière génération, de son côté, a un temps d’accès de l’ordre de 60 nanosecondes. Ecrit ainsi les différences ne sont pas parlantes mais si on les ramène à une échelle plus courante la différence est criante : posons comme hypothèse que le temps d’accès de la mémoire vive est de 1s, ce qui nous amène, en gardant les mêmes proportions, à un temps d’accès pour la mémoire Flash de 30s alors qu’il estde 28 jours et 23 heures pour un disque dur SAS ! Cela veut dire qu’au lieu d’attendre 1s pour atteindre une donnée en mémoire vive, le processeur doit attendre 30s, s’il doit la chercher dans une carte flash locale et près d’un mois s’il lui faut aller la lire sur le disque dur… Le pire est que ce différentiel va croissant : le temps d’accès aux mémoires continue de s’améliorer, tandis que celui des disques durs n’a plus évolué depuis bientôt dix ans. Comme l’explique Sébastien Verger, l’ironie est que les utilisateurs comprennent bien la différence, en tout cas ceux qui ont équipé leur ordinateur d’un SSD, le simple remplacement du disque dur par un disque à mémoire Flash apportant une amélioration des performances sans commune mesure avec celle permise par l’utilisation d’un processeur plus rapide.


Un usage judicieux des disques SSD permet d’améliorer considérablement la performance d’une baie de stockage tout en réduisant ses coûts.

Fort de ce constat, EMC entend utiliser au mieux les bénéfices que procure la mémoire Flash sur l’ensemble de la chaine reliant serveurs et stockage. Le premier étage auquel EMC a appliqué la technologie est bien évidemment les baies de stockage. Selon Sébastien, il suffit d’installer 2,5 à 10% de la capacité d’une baie de stockage en disques SSD pour doper de façon significative les performances, tout en abaissant les coûts et la consommation électrique.

L’utilisation de disques SSD permet en effet d’éliminer le recours à des disques SAS coûteux mais aussi très gourmands en énergie et de les remplacer par des disques SATA. Le système de tiering des baies permet alors de cibler les opérations d’I/O les plus intensives vers la Flash et d’utiliser le pool de capacité SATA pour le stockage « à froid » des données.

Actuellement, plus de 60% des baies VNX et VNXe vendues embarquent un étage de stockage Flash.


La baie 100% Flash « Project X » promet des performances explosives couplées à une très grande simplicité d’utilisation

L’étape suivante sur le marché des baies de stockage est l’arrivée d’une nouvelle catégorie de systèmes de stockage basés à 100% sur la mémoire Flash afin d’offrir des performances aussi élevées que possible. Comme l’explique Sébastien, c’est le « Project X » d’EMC, qui s’appuie sur la technologie rachetée à l’Israélien XtremIO.

La baie de stockage qui en résultera promet des performances inconnues à ce jour, à savoir plus d’un million d’IOPS soutenus, et ce quel que soit le type d’application. La baie combine l’usage de la Flash comme support de stockage avec un usage systématique de la déduplication de données (afin de minimiser l’usure de la Flash mais aussi d’optimiser l’usage de la capacité). Son architecture étant basée sur un concept scale-out, la performance augmente avec le nombre de nœuds dans le cluster de stockage. L’objectif est aussi de faire en sorte que la baie s’auto-optimise de telle sorte qu’elle ne nécessite ni tuning ni allocation manuelle de ressources.

Olivier Parcollet, architecte IT chez Keolis, par ailleurs connu pour son rôle au sein du groupe utilisateurs de VMware, est venu témoigner de son utilisation d’un prototype de la baie ProjectX lors d’EMC Forum. Avec deux nœuds, Olivier Parcollet indique « que le niveau de performance est assez bluffant ».

Lors de tests de montée en charge, Keolis a ainsi pu obtenir plus de 200 000 IOPs avec une latence d’1 ms, sur l’ensemble des volumes depuis un seul serveur vSphere 5 sur une carte bi-canal FC 4Gb/s. Et on rappelle que ce n’était qu’avec deux nœuds et une version prototype loin d’être finalisée…

Gérer la performance en optimisant l’usage de la Flash de bout en bout Si EMC continue à développer les usages de la Flash dans les baies de stockage, nous mettons aussi l’accent sur le bon usage de la Flash sur l’ensemble de la chaine reliant les serveurs au stockage.

Nous avons ainsi fait un premier pas dans le monde des serveurs en introduisant cet été la carte VFCache. Cette carte PCI-express Flash s’installe directement dans le serveur qui accède aux données, et elle offre des performances optimale car le bus sur lequel elle est installée (PCI Express) a une latence bien inférieur aux connexions SAN. et sur un bus qui n’est pas un goulet d’étranglement. Elle peut être utilisée à la fois comme un étage de stockage local à très hautes performances ou comme un cache vers les données stockées sur les baies de stockage. La proximité de la Flash du processeur permet notamment de minimiser la latence d’accès et de répondre aux besoins des applications les plus sensibles à la latence comme les applications transactionnelles, les bases de données… Les tests menés sous Oracle ont ainsi montré des gains de performance de l’ordre d’un facteur de trois. L’un des problèmes de l’usage des cartes PCIe Flash est toutefois leur coût. EMC travaille donc à une appliance de cache partagée baptisée « Thunder » dont l’objectif est de permettre la mutualisation de plusieurs cartes Flash VF Cache par un grand nombre de serveurs. « Thunder » s’appuiera sur un bus de communication rapide comme Infiniband pour communiquer avec les serveurs et minimiser ainsi au mieux l’impact du bus de connexion sur la latence. L’idée est de servir de cache partagé et sécurisé pour un groupe de serveurs en frontal des baies de stockage SAN.


Des technologies qui pourront être déployées individuellement ou conjointement avec un degré d’optimisation supplémentaire grâce à l’utilisation de la technologie FAST de bout en bout. Ces technologies pourront bien sûr être déployées de façon autonome.

Mais EMC travaille à coordonner leurs bénéfices individuels au sein d’une architecture optimisée. L’idée est d’appliquer la technologie de tiering FAST de bout en bout entre les serveurs et les baies de stockage par exemple pour pré-peupler le cache d’une carte VFCache avec des données d’une baie de stockage. L’objectif est bien sûr d’assurer une protection maximale des données tout en optimisant encore un peu plus les performances.

RecoverPoint et VPLEX à l’honneur en 2013

La mémoire Flash n’était toutefois pas la seule technologie à l’honneur lors de l’intervention de Sébastien à EMC Forum.

Ce dernier a aussi mis en avant la technologie de réplication continue RecoverPoint, de plus en plus utilisée par les clients pour protéger leurs environnements de stockage et garantir un redémarrage aussi rapide que possible avec aussi peu de pertes de données que possible en cas de sinistre sur leur centre informatique primaire. L’année 2013 devrait voir la généralisation du support de RecoverPoint à l’ensemble des gammes EMC (la technologie est déjà supportée sur VNX et VMAX).


VPLEX rend possible la mise en oeuvre d’architectures virtualisées distribuées entre deux datacenters géographiquement distant en mode actif/actif.

Sébastien Verger a aussi évoqué les progrès considérables réalisés par EMC avec son « appliance » de stockage distribué VPLEX qui permet de concevoir des architectures informatiques virtualisées réparties entre plusieurs datacenters en mode actif-actif.

L’année 2013 devrait voir se concrétiser la promesse d’une version globale de VPLEX (la technologie supporte déjà le fonctionnement sur deux datacenters en mode actif/actif sur une distance de 200km)..

Le BigData dévoile un visage humain : EMC Human Face of Big Data



EMC vient de  lancer une opération d’envergure mondiale au travers de son initiative « Measure Our World », qui invite depuis le 26 septembre et pendant 1 semaine les détenteurs de smartphones et tablettes du monde entier à partager et comparer leur vie en temps réel via une application innovante fondée sur un questionnaire interactif.

Cette initiative qui intervient dans le cadre de The Human Face of Big Data est l’un des projets les plus ambitieux jamais créés pour appréhender l’impact sociétal du Big Data et lui apporter une dimension humaine, initié par le photographe Rick Smolan.

Et si vous aviez votre clone de l’autre côté de la planète ???

    Téléchargez l’application ipad ou Android en cliquant l’image

3 ateliers « Mission Control » sont organisés le 2 octobre 2012 à New York, Londres et Singapour. Des experts et précurseurs du Big Data présenteront leur travail et leurs innovations à l’occasion d’un « Big Data Lab » interactif. afin d’analyser, de visualiser et d’interpréter les données collectées.

Et le 8 novembre 2012 aura lieu la journée « Data Detectives », au cours de laquelle des élèves de 6 à 12 ans dans le monde entier seront amenés à collecter et analyser des données sur le monde, ainsi qu’à confronter leurs opinions, réflexions, préoccupations et croyances illustrées par des graphiques et visualisations de données.

Autre point d’orgue du progamme, un ouvrage réunissant photographies, essais et œuvres infographiques sera édité le 20 novembre 2012.  Ce livre présentera 140 cas d’utilisation Big Data aussi extraordinaires qu’innatendus comme des Eléphants de mer équipés d’antennes pour cartographier les océans ; des satellites utilisés pour traquer les moustiques ; la lutte contre la vente de médicaments contrefaits par SMS au Ghana ;un smartphones prédisant un futur état dépressif ; des cartes de crédit permettant de détecter 2 ans à l’avance les risques de divorce ; des comprimés qui transmettent des informations directement du corps au médecin, …

L’initiative en collaboration avec Rick Smollan de AAOP et sponsorisée par EMC est fondée sur le constat que l’accès en temps réel aux données collectées par les satellites et par des milliards de capteurs, étiquettes d’identification par radiofréquences (RFID) et smartphones avec GPS, partout dans le monde, permet à l’homme d’appréhender, de comprendre et d’influer sur des aspects de son existence par des moyens que nos ancêtres n’auraient pas pu imaginer, même dans leurs rêves les plus fous.

Le concept du Big Data est le fruit de travaux menés en laboratoire par les experts et chercheurs les plus éminents de l’industrie informatique. Nous constaterons tous bientôt ses impacts sur nos modes de vie, de travail et de divertissement, ainsi que sur nos comportements. The Human Face of Big Data est le projet extrêmement ambitieux qui vise à expérimenter concrètement l’impact sociétal du Big Data et lui apporter une dimension humaine. Nul doute que ses répercussions seront significatives et durables.

Etude EMC Big Data Index : un intérêt réel des entreprises en dépit d’un retard à l’allumage de la DSI

Au delà des résultats du Big Data Index, l’étude que j’ai lancé récemment avec IDC, a le mérite de mettre en avant la maturité et l’attitude face au Big Data, à la fois des responsables des études et métiers et des responsables informatiques et d’infrastructures.

Une méthodologie adaptée à la réalité de ces projets informatiques qui impliquent fortement les métiers. Le Big Data, c’est un renversement de modèle qui va au delà de transformation de l’IT. Et cela nécessitera sans doute la mise en place d’organisation métier et technologique spécifique complètement dédiée à gestion de l’information.

Des projets qui commencent juste à émerger dans les entreprises françaises

Le Big Data Index a pour objectif de mieux analyser la perception qu’ont les entreprises françaisesdu Big Data et la réalité des initiatives prises dans ce domaine. Il repose sur deux enquêtes conduites en France en juin et juillet 2012 auprès de 160 entreprises de plus de 200 salariés.

Deux populations ont été interrogées : les études et les responsables informatiques et d’infrastructures. Sans surprise au regard de la jeunesse du concept, 70% des entreprises interrogées par IDC  déclarent ne pas avoir d’initiatives ou de réflexion dans le domaine du Big Data et une entreprise sur deux a le sentiment d’être très en retrait avec la moyenne de la profession dans ce domaine.

Les raisons invoquées se situent principalement dans le domaine des compétences et de l’organisation. Le manque d’expertise technologique en interne est ainsi perçu comme le principal frein et pour 64% des équipes IT, ayant répondu à cette étude, la collaboration des services informatiques et des entités métiers devront être renforcées.

Comme le confirme l’étude, le Big Data commence juste à émerger en France. Ainsi, 18 %  seulement des entreprises interrogées déclarent utiliser des solutions « Big Data » et 11% ont prévu ou envisagent d’investir.

Pour IDC, les initiatives de ces entreprises « volontaristes » restent limitées par leur nombre et par l’ampleur des projets. Seule une moitié déploie, ou a déployé, des technologies portant à la fois sur les dimensions «stockage» et «analytiques» du Big Data.

Tendance plus positive pour l’avenir : 31% des entreprises interrogées ont esquissé, avec des entités métier, des réflexions et des discussions de type « Big Data », voire des déploiements technologiques, sans pour autant revendiquer une démarche « Big Data », ni même faire le lien avec le concept.

Un intérêt plus large et plus dynamique qu’il n’y paraît

Si, selon les résultats de l’étude, plus de la moitié des projets Big Data concernent l’analyse financière (58%), donc le secteur bancaire, et la connaissance client (53%),  on sait que la réalité du Big Data sur le terrain est plus diversifiée que cela. EMC insiste notamment beaucoup sur le coté prédictif du Big Data et pas seulement dans les secteurs innovants du commerce électronique ou de la publicité en ligne. Dans le temps, les domaines concernés seront plus vastes que l’on ne peut l’imaginer aujourd’hui.

Pour le prouver, nous avons d’ailleurs lancé différentes initiatives visant à illustrer tous les champs d’application possibles au quotidien. Au delà des usages possibles, le Big Data est perçu comme un projet très innovant.

Selon 75% des responsables « Etudes » interrogés, « le Big Data pourrait contribuer à renforcer d’une manière ou d’une autre la capacité d’innovation de leur organisation ». Grâce aux technologies Big Data, 59% estiment qu’elles pourraient tirer parti de données jusqu’alors inaccessibles. 40% indiquent que le Big Data rend possible de nouveaux modèles économiques basés sur la réactivité et l’interactivité en temps réel.

En conclusion, les résultats de l’étude témoignent encore d’une différence de maturité et d’intérêt pour le Big Data entre les entités « métiers » et « informatiques » de l’entreprise, mais aussi entre les équipes « Etudes » et « Infrastructures » au sein des directions informatiques.

La grande majorité des responsables des départements Etudes, interrogés au sein des Directions des Services Informatiques françaises, observent une demande croissante de la part des entités métier (Marketing et Finance en particulier). Et ce, en matière d’analyses plus fines et plus fréquentes, portant à la fois sur les volumes de données croissants, mais également sur des contenus plus variés.

Dans la série BigData : Il était une fois HADOOP

27 septembre 2012 1 commentaire

Lorsque l’on évoque la question du Big Data et les données non structurées…

…une des premières technologies qui vient à l’esprit de nombre d’entreprises est Hadoop, le framework analytique Java développé au sein de la fondation Apache. Hadoop reste toutefois un mystère pour nombre d’utilisateurs. SolutionITPME a donc décidé de faire le point sur Hadoop, sur son histoire et sur les différentes briques technologiques qui composent le framework.


Doug Cutting, le créateur d’Hadoop et l’éléphant qui servait de doudou à son fils, et fait aujourd’hui figure de logo pour le framework Java

Hadoop trouve ironiquement ses racines dans des technologies propriétaires de Google. En 2004, le moteur de recherche a publié un article de recherche présentant son algorithme MapReduce, conçu pour réaliser des opérations analytiques à grande échelle sur un grand cluster de serveurs, et sur son système de fichier en cluster, Google Filesystem (GFS). Doug Cutting, qui travaillait alors sur le développement du moteur de recherche libre Apache Lucene et butait sur les mêmes problèmes de taille qu’avait rencontré Google, s’est alors emparé des concepts décrits dans l’article du géant de la recherche et a décidé de répliquer en open source les outils développés par Google pour ses besoins.

Employé chez Yahoo, il s’est alors lancé dans le développement de ce qui est devenu le projet Hadoop – pour la petite histoire, Hadoop est le nom de l’éléphant qui servait de doudou à son jeune fils.




Un framework modulaire

Hadoop n’a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse, une mission qui reste largement l’apanage des grands systèmes de DataWarehouse. La spécialité du Framework, c’est le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio…

Les différents composants de la distribution Hadoop MapR, revendue par EMC sous le nom Greenplum MR

Au cœur d’Hadoop se trouve avant tout un système de fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS est conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem est conçu pour assurer la sécurité des données en répliquant de multiples fois l’ensemble des données écrites sur le cluster (par défaut chaque donnée est écrite sur trois nœuds différents). Il est optimisé pour maximiser les débits de données et non pas pour les opérations transactionnelles aléatoires. La taille d’un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à 4 Ko dans la plupart des filesystem traditionnels Cette taille de bloc s’explique par le fait que Hadoop doit analyser de grandes quantités de données en local. Avec HDFS certains nœuds ont en charge la gestion des métadonnées (les name nodes) tandis que d’autres stockent les données (data nodes). Historiquement, une des fragilités d’HDFS était qu’il ne pouvait y avoir qu’un namenode dans un cluster, mais cette fragilité a été corrigée. Un autre « défaut » est que HDFS n’est pas conforme au standard POSIX et que certaines commandes familières sur un filesystem traditionnel ne sont pas disponibles.

Il est à noter que si HDFS est le filesystem par défaut d’Hadoop, le framework peut aussi être déployé sur des filesystem tiers, souvent grâce à des couches de compatibilité. MapR l’un des pionniers d’Hadoop et partenaire d’EMC, a ainsi développé son propre système de fichier qui règle le problème de fragilité lié aux namenodes d’HDFS et qui ajoute aussi des fonctions avancées comme les snapshot, la réplication ou le clonage. Isilon a quant à lui développé un pont entre HDFS et son filesystem OneFS de façon à ce que les données d’un cluster soient stockées sur un cluster Isilon.

Le second composant majeur d’Hadoop est MapReduce, qui gère la répartition et l’exécution des requêtes sur les données stockées par le cluster. Le moteur MapReduce a pour but de distribuer les travaux d’analyses entre les différents nœuds du cluster. Il inclut un mécanisme de distribution de « jobs » – le JobTracker – et un mécanisme de suivi de l’exécution de ces jobs – le TaskTracker. Ce dernier est distribué sur l’ensemble des nœuds et fait remonter au JobTracker l’état des jobs en cours. Il est à noter que la distribution des jobs inclut des mécanismes d’optimisation de telle sorte que les jobs sont placés au plus près des données qu’ils doivent manipuler.

De nouveaux outils et langages pour faciliter les requêtes sur Hadoop

Les API clés de MapReduce sont accessibles en Java, un langage certes populaire mais qui requiert des compétences bien plus pointues que la maîtrise d’un langage d’interrogation comme SQL. Plusieurs langages ont donc émergé pour tenter de simplifier le travail des utilisateurs d’Hadoop, dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de données. Le langage de Pig est PigLatin, complété par un runtime destiné à exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique assez simple. Il permet de charger des données, puis de les manipuler (appliquer des filtres, des groupements, des opérations mathématiques…).

Chez Facebook, des développeurs ont quant à eux conçu Hive, pour permettre à des développeurs familiers du langage SQL de manipuler des données dans Hadoop. Hive dispose d’un langage baptisé HQL (Hive Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster.

Au fil des ans, Hadoop  a continué à s’enrichir de nouvelles applications, comme la base de données Hbase, qui fournit des services similaires au service BigTable de Google. Hbase est une base de données en colonnes (dans la mouvance NoSQL) qui s’appuie sur HDFS pour le stockage de ses données. Hbase est notamment utile pour ceux qui ont besoin d’accès aléatoires en lecture/écriture à de grands volumes de données. Parmi les autres composants connus, on peut aussi citer la technologie d’apprentissage Apache Mahout, ainsi que la technologie d’administration de cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet de coordonner l’ensemble des processus distribués sur le cluster, mais aussi de gérer les configurations de ses différents éléments.

Signalons pour terminer que le périmètre d’Hadoop continue de s’élargir, les différents développeurs de distributions Hadoop ajoutant progressivement de nouveaux composants, outils ou langages afin d’enrichir les composants de base du Framework. Un signe évident du dynamisme de l’écosystème Hadoop, mais aussi de sa relative jeunesse.

Source :SolutionsITPME de septembre http://www.solutionitpme.fr/2012/09/10/lecon-n7-a-la-decouverte-dhadoop-1645

XtremIO : Stockage SSD avec déduplication inline, le couple idéal ? par Olivier Parcollet

Post intégral extrait du blog DS45 d’Olivier Parcollet


Update : les grands esprits se rencontrent, à lire sur le MagIT

Quoique l’on dise, le disque SSD a révolutionné le petit monde du stockage qui ne s’attendait pas à de tels niveaux de performance. Certains à l’image de NetAPP décide de l’utiliser en tant qu’extension de cache dans le contrôleur voir dans le serveur en amont, d’autres mixent SSD et traditionnels disques mécaniques avec l’artificiel et très consommateur auto-tiering de données plaçant les blocs les plus consultés à l’instar de Dell Compellent ou de l’EMC VNX, Oracle Pillar lui préfère laisser à l’application le soin de piloter le placement et puis enfin, la dernière voie est encore l’apanage du leader EMC qui s’oriente vers des baies 100% native SSD à l’instar de VFcache ou mieux d’XtremIO.

Ca tombe bien. Pour compléter nos chères baies Oracle Pillar mixte SATA/SSD, accélérer le provisionning VDI, remplacer et optimiser les fenêtres de sauvegardes, nous avons choisis de nous orienter vers de l’XtremIO.

Nous avons donc déployé depuis presque deux mois la solution avec un retour d’expérience plutôt positif.

La bête se présente sous la forme d’un contrôleur d’administration 1U dédié qui pilote des enclosures 4U SSD pourvues de ports Fiber Channel et 10 Giga Ethernet.

Après avoir paramétré l’adresse IP d’administration, la machine se pilote au travers d’une interface java à télécharger sur votre PC. Après s’être identifié, on accès à un ‘Dashboard’ présentant une synthèse des informations sur l’état de santé de la machine, son taux d’utilisation et le niveau de performance délivré. Pas de chichi, juste ce qu’il faut ! L’ajout d’un ou plusieurs volumes est simplissime, s’opérant au travers de l’icône dédiée.

On peut indiquer l’alignement lors de la création des volumes

Il suffit ensuite de mapper les volumes aux machines dédiées … ou pas, c’est-à-dire à tous.

J’adore le côté VM-Aware de la machine qui supporte nativement VAAI : gestion du multipathing et de la perf sans prise de tête quoi …

Le niveau de performance est assez bluffant. Au cours de nos tests de montée en charge, nous avons pu obtenir plus de 200 000 IOPs avec une latence d’1 ms sur l’ensemble des volumes depuis un seul serveur vSphere 5 sur une carte bi-canal FC 4Gb/s !

Associé en tant que volume à l’outil de sauvegarde Netbackup 7.5, voir Datarecovery, on atteint les 3,2To/H sauvegardés soit un débit soutenu de 800 Mo/s le tout dans un volume tout rikiki : bref, c’est le beurre, l’argent du beurre et puis peut-être même un peu la crémière …

Merci Olivier !!

Publié par dunestudio45 – DS45

Liens vers ce message Libellés : XtremIO retour expérience vSphere VMware EMC