LE BIG DATA, LA NOUVELLE STAR DES SI
Le concept du cloud computing à peine digéré, place au phénomène big data. Il s'agit ni plus, ni moins de traiter de gros volumes de données non structurées, provenant de texte, logweb, vidéo, etc. «Le big data rassemble des données collectées et issues de multiples sources pour les stocker et les analyser afin d'en tirer des enseignements significatifs», précise Cyril Chantrier, alliance manager de Coheris, éditeur de solutions logicielles. Qu'elles proviennent du téléphone, du Web, des courriels, des réseaux sociaux, les données prolifèrent à très grande vitesse.
Face à cette avalanche d'informations, les entreprises doivent pouvoir apporter une réponse de manière à comprendre les relations, qu'elles soient B to B ou B to C. Dès lors, le big data entre en jeu.
JEROME CORNILLET, BUSINESS SOLUTION MANAGER CHEZ SAS
« Le big data est un mix entre l'univers du décisionnel et du data mining. »
FAIRE PARLER LES DONNEES RAPIDEMENT
Grâce à une analyse pointue des stocks, des commandes en cours, des impayés ou des arrêts maladie des collaborateurs, le big data peut jouer un rôle crucial sur les plans d'économies. Selon une étude publiée en 201 1 par le cabinet McKinsey, le big data permettrait au secteur américain de la santé de gagner 300 milliards de dollars par an, dont 200 milliards d'économies. L'enjeu d'un projet big data est de pouvoir collecter et stocker un volume d'informations toujours plus consistant. Une fois ces données stockées, il s'agit ensuite de les «faire parler» pour en tirer des enseignements. «On se rend compte rapidement que le big data est en quelque sorte un mix entre l'univers du décisionnel et du data mining», souligne Jérôme Cornillet, business solution manager chez SAS, éditeur de solutions de business analytics et business intelligence. Le rôle des analystes sera de rendre «audibles» les informations recueillies et d'en déduire un sens métier, pour une prise de décision rapide lorsqu'il s'agit de fixer, par exemple, des objectifs commerciaux, comptables ou encore financiers. Tout l'enjeu, pour les entreprises, consiste à interpréter rapidement les données et à ne pas passer à côté d'informations précieuses qui seraient noyées dans la masse. «Or, un projet big data permet de réduire d'un facteur de 50 à 100 le temps des requêtes pour l'analyse des données», avance Pierre Delort, président de l'ANDSI (Association nationale des directeurs des systèmes d'information) et DSI de l'Inserm (Institut national de la santé et de la recherche médicale).
A NOTER
Selon l'étude TMT (technologies, médias et télécommunications) de Deloitte, l'importance prise par le big data ne cesse de progresser: il figure en 3e position des problématiques évoquées par les entreprises pour 2012. Toujours en 2012, 90 % des grandes sociétés lanceront un grand chantier de gestion des données, générant un chiffre d'affaires de 1 à 1,5 milliard de dollars, contre 100 millions en 2009, soit dix fois plus. Dans l'univers de l'e-commerce, la quantité d'informations disponibles sur leur infrastructure ou leurs clients double tous les deux ans. Selon la SSII française Ysance, le marché big data pesait un milliard de dollars fin 2011, soit 1 % du marché des services autour de la donnée.
PIERRE DELORT, président de l'ANDSI (Association nationale des directeurs des systèmes d'information) et DSI de l'Inserm (Institut national de la santé et de la recherche médicale)
TROIS QUESTIONS A ... PIERRE DELORT
Le big data, c'est un volume incroyablement supérieur à celui de la fin des années 2000
Quelle définition pourrait-on donner du big data ?
Apparu pour la première fois en 2008, il désigne un travail exercé sur les données en fonction d'une échelle non atteinte auparavant. Pour véritablement comprendre le phénomène, les bases de données atteignaient, jusqu'à la fin des années 2000, un volume situé autour du gigaoctet. Evoquer le big data, c'est parler d'un volume de données mesuré en tera, voire en petaoctets, soit 1 000 à 1 million de fois supérieur. De plus, entrer dans l'univers du big data implique la maîtrise du décisionnel et du data mining.
Comment expliquer l'avènement du big data ?
Il s'explique par trois phénomènes concomitants. D'une part, la technologie hardware ne cesse d'évoluer : vitesse accrue des processeurs, adressage plus important en quantité de mémoires, systèmes d'exploitation augmentés de 32 à 64 bits, permettant le traitement d'une plus grosse quantité de données, etc. D'autre part, l'offre commerciale logicielle s'est élargie ces dernières années avec l'arrivée sur le marché de généralistes (Microsoft, HP, IBM notamment) en complément d'acteurs plus spécialisés (Teradata, SPSS, SAS...). Enfin, la prise de conscience de devoir utiliser plus fréquemment les statistiques inductives (celles qui permettent des analyses de résultats plus précises) contribue à l'essor d'une telle activité.
Quelles sont les principales règles pour mener un projet de big data ?
Il faut à la fois s'équiper avec un matériel adapté au traitement de volumes de données importants et acquérir une offre logicielle répondant à ses besoins. Bien évidemment, les sauvegardes des données doivent être rigoureusement planifiées sans sous-évaluer les notions de sécurité, afin d'éviter les pertes d'accès à ces données. Surtout, le paramètre humain est primordial dans ce type de projet. Il convient d'être vigilant sur les compétences pour acquérir des analystes chevronnés, sachant que ces profils s'avèrent assez rares, compte tenu de la nouveauté de la discipline.
DES PARAMETRES A RESPECTER AVEC PRECISION
Pour atteindre cet objectif d'interprétation intelligente de tant de données, certains prérequis sont incontournables. A commencer par l'établissement précis de sa problématique métier tout en cernant les limites à ne pas dépasser. « Il est facile d'aller trop loin en matière de données. Un projet peut rapidement être dépassé par les trois V : volume, vitesse et vélocité», explique Alan F. Nugent, le CEO de Mzinga, éditeur de solutions analytiques. Une fois le champ d'action délimité, place aux architectes (issus soit du service informatique, soit des SSII) qui devront bâtir le projet et construire les fondements autour du hardware et du software. « Il n'est plus forcément nécessaire de disposer de grandes salles informatiques pour traiter les masses d'informations, en raison des progrès considérables effectués par les ordinateurs. Il faut simplement s'assurer que le couple matériel/logiciel soit performant et compatible», précise Cyril Chantrier (Coheris). Pour cela, un audit mené par une SSII ou une société de conseil (Hurence, Spie Communications...) sera nécessaire. Le choix de la technologie mise en oeuvre doit également être examiné à la loupe. Quatre directions sont possibles. D'abord, celle qui consiste à choisir un éditeur utilisant des bases de données traitées en parallèles (massively parallel processing), tel que Teradata. Le choix peut également porter sur une solution utilisant des formats de bases de données non relationnelles, basées sur NoSQL (utilisé par certains gros éditeurs comme Microsoft, IBM, Oracle), dont la performance n'est plus à démontrer - des géants du Web comme Facebook, Twitter ou encore LinkedIn ont d'ailleurs fait confiance à cette technologie. Enfin, pourquoi ne pas choisir une solution type open source telle que Hadoop, qui a largement fait ses preuves. Microsoft Fast Track, Oracle Exadata ou IBM Netezza s'appuient en effet sur cette technologie. Ne pas oublier non plus certains acteurs spécialistes de la donnée qui se sont positionnés sur ce marché : EMC Greenplum, SAS, SPSS, Coheris, Informatica...
Quant au budget, il est impossible à quantifier. Le principe est de miser sur un coût global, en prenant en compte l'aspect logiciel et matériel, sans oublier le recrutement et la formation. Cet aspect ne doit surtout pas être négligé puisque, selon les acteurs interrogés, recruter les bonnes compétences s'avère être un exercice périlleux face à la rareté de l'offre.