Retours d`expériences Big Data en entreprise
Transcription
Retours d`expériences Big Data en entreprise
REX Retours d’expériences Big Data en entreprise www.bigdataparis.com by Retours d’expériences Big Data en entreprise SOMMAIRE ACCENTURE - E-COMMERCE . . . . . . . . . . . . . 3 ACCENTURE - MEDIA. . . . . . . . . . . . . . . . . . . . 3 ACCENTURE - COMMERCIAL PROPERTY. . . . 5 ACCESS INSIGHT - RENAULT . . . . . . . . . . . . . 7 ATOS - MÉTÉO-FRANCE. . . . . . . . . . . . . . . . . . 9 ATOS - ORANGE BUSINESS SERVICES . . . . 10 ATOS - STADE TOULOUSAIN. . . . . . . . . . . . . 10 BAKAMAP - CCI. . . . . . . . . . . . . . . . . . . . . . . . 12 BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13 CAPGEMINI - CLOUDERA. . . . . . . . . . . . . . . . 14 COMPLEX SYSTEMS - TELE SHOPPING. . . . 16 COUCHBASE - AMADEUS. . . . . . . . . . . . . . . . 19 CRAY - INSTITUTE FOR SYSTEMS BIOLOGY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22 CSC - ASSURANCES AUTO . . . . . . . . . . . . . . 23 CSC - VOYAGISTE ONLINE . . . . . . . . . . . . . . 24 DATA PUBLICA - CEGID . . . . . . . . . . . . . . . . . 26 DATA PUBLICA - CCI PARIS . . . . . . . . . . . . . . 26 DATA PUBLICA - B-POST . . . . . . . . . . . . . . . . 27 DATAIKU - BLABLACAR . . . . . . . . . . . . . . . . . 28 DATAIKU - CHRONOPOST . . . . . . . . . . . . . . . 29 DATAIKU - CITYVOX. . . . . . . . . . . . . . . . . . . . 30 DATAIKU - PAGESJAUNES. . . . . . . . . . . . . . . 31 DATAIKU - PARKEON . . . . . . . . . . . . . . . . . . . 32 DELL - DANSKE BANK . . . . . . . . . . . . . . . . . . 33 DELTAMU - SANOFI-PASTEUR. . . . . . . . . . . . 35 DELTAMU - TRAITEMENT THERMIQUE . . . . . 35 HP - AT&T . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 HP - BLABLACAR . . . . . . . . . . . . . . . . . . . . . . 38 HP - METROPOLITAN POLICE DE LONDRES . . . . . . . . . . . . . . . . . . . . . . . . . 39 INFORMATICA - WESTERN UNION. . . . . . . . . 41 MAPR - ANCESTRY.COM . . . . . . . . . . . . . . . . 43 MAPR - COMSCORE. . . . . . . . . . . . . . . . . . . . 44 MARKLOGIC - DE GRUYTER . . . . . . . . . . . . . 45 MARKLOGIC - ELSEVIER. . . . . . . . . . . . . . . . 46 MARKLOGIC - HEALTHCARE.GOV. . . . . . . . . 49 MARKLOGIC - OXFORD UNIVERSITY PRESS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 MARKLOGIC - PRESS ASSOCIATION. . . . . . . 56 MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT. . . . . . . . . . . . 57 MARKLOGIC - RSC. . . . . . . . . . . . . . . . . . . . . 59 MICROPOLE - L’OBS. . . . . . . . . . . . . . . . . . . . 62 MICROSOFT - PIER IMPORT . . . . . . . . . . . . . 63 MICROSOFT - THYSSENKRUPP. . . . . . . . . . . 63 MICROSOFT - CARNEGIE. . . . . . . . . . . . . . . . 64 MONGO DB - BOSCH . . . . . . . . . . . . . . . . . . . 67 MONGO DB - METLIFE. . . . . . . . . . . . . . . . . . 68 MONGO DB - OTTO. . . . . . . . . . . . . . . . . . . . . 70 MONGO DB - WEATHER CHANNEL. . . . . . . . 72 NEO4J - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . 74 NEO4J - GAMESYS. . . . . . . . . . . . . . . . . . . . . 75 NEO4J - GLASSDOOR . . . . . . . . . . . . . . . . . . 76 NEO4J - SNAP INTERACTIVE. . . . . . . . . . . . . 77 NEO4J - TELENOR . . . . . . . . . . . . . . . . . . . . . 78 NEO4J - WALMART. . . . . . . . . . . . . . . . . . . . . 79 SAP - MOBILINK . . . . . . . . . . . . . . . . . . . . . . . 80 SAP - COX. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 SAP - BELGACOM. . . . . . . . . . . . . . . . . . . . . . 81 SAP - BANGLALINK DIGITAL COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82 SAP - VODAFONE. . . . . . . . . . . . . . . . . . . . . . 82 SAP - XL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 SAP - AVIVA. . . . . . . . . . . . . . . . . . . . . . . . . . . 83 SAP - ELDORADO. . . . . . . . . . . . . . . . . . . . . . 84 SAP - SAMSE . . . . . . . . . . . . . . . . . . . . . . . . . 85 SAP - HSE24. . . . . . . . . . . . . . . . . . . . . . . . . . 86 SAP - MONEXT . . . . . . . . . . . . . . . . . . . . . . . . 86 SAP - AMERICAN AUTOMOBILE ASSOCIATION. . . . . . . . . . . . . . . . . . . . . . . . . 87 SAP - SKYROCK. . . . . . . . . . . . . . . . . . . . . . . 87 SAP - COOPERATIVA ITALIANA DI RISTORAZIONE. . . . . . . . . . . . . . . . . . . . . . . . 88 SAP - TIPP24.COM . . . . . . . . . . . . . . . . . . . . . 89 SAP - KAESER KOMPRESSOREN . . . . . . . . . 89 SAP - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . . . 90 SAS - SANTIANE. . . . . . . . . . . . . . . . . . . . . . . 92 SAS - ELFE/INED . . . . . . . . . . . . . . . . . . . . . . 93 SAS - UTAC-OTC. . . . . . . . . . . . . . . . . . . . . . . 95 SAS - BANK OF AMERICA. . . . . . . . . . . . . . . . 96 SAS - FRAPORT . . . . . . . . . . . . . . . . . . . . . . . 98 SAS - MACY’S. . . . . . . . . . . . . . . . . . . . . . . . . 99 SAS - NESTLÉ. . . . . . . . . . . . . . . . . . . . . . . . . 100 SAS - RABOBANK. . . . . . . . . . . . . . . . . . . . . . 102 SAS - TELECOM ITALIA. . . . . . . . . . . . . . . . . . 103 SENTELIS - ASSURANCE MUTUELLE . . . . . . 105 SENTELIS - CRÉDIT À LA CONSOMMATION . . . . . . . . . . . . . . . . . . . . . . 106 SENTELIS - MUTUELLE D’ASSURANCE . . . . 107 SENTELIS - ÉNERGIE. . . . . . . . . . . . . . . . . . . 108 SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110 SENTELIS - EDITEUR SOFTWARE. . . . . . . . . 110 SOFT COMPUTING. . . . . . . . . . . . . . . . . . . . . 113 SYNCSORT - SFR. . . . . . . . . . . . . . . . . . . . . . 115 SYNCSORT - PAGESJAUNES. . . . . . . . . . . . . 115 SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT. . . . . . . . . . . . . . . . . . . . . . 116 TABLEAU SOFTWARE - BNP PARIBAS. . . . . . 118 TABLEAU SOFTWARE - CROIX ROUGE. . . . . 119 TABLEAU SOFTWARE - ISCOOL . . . . . . . . . . 120 TABLEAU SOFTWARE - NOKIA. . . . . . . . . . . . 122 TABLEAU SOFTWARE - PHARMASECURE . . 123 TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124 TALEND - LENOVO. . . . . . . . . . . . . . . . . . . . . 126 TALEND - BUFFALO . . . . . . . . . . . . . . . . . . . . 126 VELVET - PAIEMENT. . . . . . . . . . . . . . . . . . . . 129 VELVET - TELECOM . . . . . . . . . . . . . . . . . . . . 129 YSANCE - ARKENA. . . . . . . . . . . . . . . . . . . . . 130 YSANCE - ANOVO. . . . . . . . . . . . . . . . . . . . . . 131 Document réalisé par la Société Corp Events - Janvier 2015 2 Retours d’expériences Big Data en entreprise ACCENTURE - E-COMMERCE ACCENTURE’S IMPLEMENTS PATENTED DIGITAL OPTIMIZATION (ADO) & ACCENTURE RECOMMENDATION ENGINE (ARE) SOLUTIONS HELP SUSTAIN HIGH GROWTH AND MAXIMIZE SHAREHOLDER VALUE CLIENT PROFILE A leader China’s B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company was exploring alternative growth areas, beyond category expansion. BUSINESS CHALLENGE The currently recommended system’s was below industry benchmarks. Especially in contribution to sales. Over a given week, many changes were applied to the website, but there was no good way to measure its ROI. Each web-page change was slow and not many were tested each time. The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3 billion page views per month. For this reason, it needs to optimize its data management, processes and system. HOW ACCENTURE HELPED Derived insight from the data and identified links between data that drive conversion from recommendations. Identified key data drivers including transactional data (product, customer and purchase history) as well as behavioral data (browser behavior, search data, page views), in order to increase the richness of data analysis. Accenture’s patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recommendation efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed thousands of design variations to be tested. HIGH PERFORMANCE DELIVERED Machine learning algorithms improved using ARE. Number of users given irrelevant product recommendations minimized Conversion rates increased. This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large volume of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about $200 million per year. ACCENTURE - MEDIA HIGH-PERFORMANCE CUSTOMER ANALYTICS WITH A MAJOR PLAYER IN EUROPE: INSIGHT CREATES COMPETITIVE ADVANTAGE FOR TV OPERATOR CLIENT PROFILE This media client is a leading pay television service operator in Europe transmitting live programs and video-ondemand via cable, satellite, digital terrestrial television and broadband. The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million customers receiving hundreds of channels. Document réalisé par la Société Corp Events - Janvier 2015 3 Retours d’expériences Big Data en entreprise BUSINESS CHALLENGE Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer discretionary income and diminished usage of its pay channels. Free-of-charge TV channels increased their market share, and Internet service providers launched competing video-on-demand services. Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far beyond generalities such as household size, preferred program type and equipment. As a result, customer campaigns tended to be broad in scope and relatively expensive to implement. Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online interactions. Using customer analytics, virtually every interaction with media player services can be added to a continually updated log and analyzed for insight. To compete more effectively, our media customer launched a large-scale program on usage and services statistical analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their executives turned to us for assistance with customer and marketing analytics, all aligned with high performance. HOW ACCENTURE HELPED Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the technology solutions, build prototypes, promote these within the organization and monitor the gains. The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture Interactive organized a pilot for each initiative to gauge potential return on investment. The project leverages TV digitalization and the ability to gather data per household on television activity, such as switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily, providing a strong foundation to: Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels? Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is used to refine targets. Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and services data with internal and external evaluations of programs and movies. Accenture developed a unique algorithm to identify “best for you” programs by combining viewer habits and discovery. Each new recommendation engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules - such as a customer’s preferred themes, or the likelihood of discovering something new he or she would like – the engine offers a tailored selection of TV programs every evening for each household. The recommendation engine is embedded within applications, including the electronic TV program guide, customer Website, newsletters, and call-center scripts. HIGH PERFORMANCE DELIVERED In an increasingly competitive media market, Accenture has worked closely with its client over four years, contributing to reduced churn, increased customer satisfaction and restoration of the company’s reputation for innovation. Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less among recommendation engine users), improve service and boost revenue. Today, the statistical analysis of usage and services project is: More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns and newsletters 25 million personal recommendations calculated daily Helping boost TV consumption among recommendation engine users, which is up more than 20% More than 2.5 million of our client’s households are expected to enjoy the capabilities of personalized viewing recommendations in 2013, with a forecast of 3 million by the end of 2014. “Our recommendation engine goes a step beyond Google” in the words of the media client’s Chief Executive Officer. “Our customers don’t have to seek because our tool anticipates their needs and suggests appealing programs”. Customer analytics capabilities continue to be refined throughout the media client’s organization, with additional features offered to millions of subscribers. In addition, the growing base of detailed information about viewing preferences has become an asset in itself that can be monetized and sold to other businesses. Document réalisé par la Société Corp Events - Janvier 2015 4 Retours d’expériences Big Data en entreprise ACCENTURE - COMMERCIAL PROPERTY HIGH-PERFORMANCE BIG DATA ANALYTICS IN SHOPPING MALLS: BIG DATA IMPROVES KEY BUSINESS DECISIONS FOR COMMERCIAL PROPERTY COMPANY CLIENT PROFILE The client is one of the leading commercial property companies in the world. BUSINESS CHALLENGE In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions. Previously, the Client made rent calculations and decisions for store renewals based on financial performance. Operational performance measures data, such as customer traffic, were used as well but lacked precision and insights. As a result, a large portion of the operational value of the shopping mall was misunderstood. Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and day per mall could be used to follow traffic more precisely. Coupled efficiently with stores’ financial performance, this massive amount of data gives a better picture of their true performance. This commercial property company asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing data in order to better assess the true value of its stores and make the right business decisions. HOW ACCENTURE HELPED Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this Big Data. Insightful key performance indicators were developed in two malls through a pilot phase. By combining new and existing data, the shopping malls were able to: Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic synergies between stores. Estimate the rental value of stores more accurately: by putting stores’ financial results into perspective with their operational performance to improve area pricing Make better marketing investments: by evaluating the return on investment of different marketing events. HIGH PERFORMANCE DELIVERED Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the maximum value from the Data: 10 sources of data were combined 180 million logs were analyzed 6 data quality algorithms were implemented … through a Big Data environment: Cloud-based Hadoop platform Tableau, html and iPad reports R, Python, Quantum JS The project has already improved the key business decisions of the shopping malls: for instance, two undefined renewal decisions were resolved much faster and the variety of the stores was maintained because of the new insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would be improved by extending the analysis to new shopping malls with new data and insights for consistently faster and better business decisions. Document réalisé par la Société Corp Events - Janvier 2015 5 Retours d’expériences Big Data en entreprise CONTACT Jean-David Benassouli : Managing Director Digital & Analytics j-david.benassouli@accenture.com Clara Landry : Digital Marketing Associate Manager c.landry@accenture.com ABOUT ACCENTURE Accenture is a global management consulting, technology services and outsourcing company, with approximately 319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive capabilities across all industries and business functions, and extensive research on the world’s most successful companies, Accenture collaborates with clients to help them become high-performance businesses and governments. The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home page is www.accenture.com. Document réalisé par la Société Corp Events - Janvier 2015 6 Retours d’expériences Big Data en entreprise ACCESS INSIGHT - RENAULT CASE STUDY RENAULT : CONSTRUCTEUR AUTOMOBILE DE RÉFÉRENCE Constructeur automobile Français de référence, Renault a vendu plus de 2,6 millions de véhicules en 2013, un chiffre en hausse de 3,1% comparativement à 2012. Très présent sur le marché des particuliers, le constructeur répond également avec brio aux besoins actuels des entreprises (moteurs compétitifs en terme de consommation et de fiscalité, pertinence des offres utilitaires) ce qui lui a valu d’être classé numéro un des ventes sur ce secteur. «En un instant, nous avons rendu la démarche de prospection de nos vendeurs interactive» Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Véhicules Utilitaires LE CHALLENGE Le service Marketing Flotte Entreprise acquiert régulièrement des données publiques stratégiques concernant le marché automobile Français. Compilées à d’autres sources de données possédées par Renault sur son marché cible, ces informations regorgent d’opportunités à identifier et à exploiter. Mais un problème se pose : comment croiser et retranscrire ces données de façon simple et interactive à leurs équipes opérationnelles ? Renault se met donc à la recherche d’un outil qui permettrait à ses équipes commerciales et marketing non seulement de pouvoir accéder à ces informations de façon instantanée et en toute autonomie mais aussi de pouvoir interagir avec les données. L’accès aux données aura deux buts principaux : 1) Permettre aux vendeurs du réseau de concessionnaires et managers grands comptes d’avoir une vision précise de la part de marché de Renault sur leur secteur et de la façon de l’accroitre. Ces informations permettront d’optimiser l’effort commercial et de préparer un argumentaire sur mesure. Pour se faire, l’outil devra permettre de pouvoir « zoomer » en profondeur sur chaque secteur et entreprise pour révéler toutes les informations au moment voulu. 2) Permettre aux services marketing nationaux ou régionaux d’accéder à une vue globale du marché et des performances de Renault (part de marché par secteur, taux facilement des campagnes ciblées qui répondent aux attentes des performances commerciales. La solution devra être interactive et permettre de donner non seulement une vision globale de la situation du marché mais également une vision précise par secteur et même par commune pour chaque manager. «La démonstration de l’outil en interne a eu un réel succès. D’autres services ont immédiatement imaginé se servir d’Access Insight pour leurs projets » Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Véhicules Utilitaires LE CHOIX Renault était déjà équipé de nombreuses solutions de Business Intelligence. Cependant, Access Insight s’est présenté comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en réseau par un grand nombre d’utilisateurs. L’outil s’est également distingué des autres car il permettait une mise en place rapide avec un démarrage en mode SaaS, ne nécessitant pas d’interventions majeures de la part du service IT. LA SOLUTION Pour répondre aux besoins de Renault, Access France a présenté au service marketing sa solution de tableaux de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution, Renault a choisi d’utiliser la solution dans le « Cloud » Document réalisé par la Société Corp Events - Janvier 2015 7 Retours d’expériences Big Data en entreprise IMPLÉMENTATION « En deux semaines nous avons délivré une première version opérationnelle, en intégrant les données d’immatriculation achetées par Renault et en réalisant les premiers tableaux de bord pour que l’équipe marketing France de Renault puisse les tester » Matthieu Chabeaud, Directeur Commercial Access France LES RÉSULTATS Une détection immédiate des opportunités pour les vendeurs du réseau L’accès à des informations précises sur les entreprises de leur secteur permet aux vendeurs d’identifier en un instant lesquelles sont susceptibles de renouveler leur flotte ou peuvent être intéressées par de nouveaux véhicules. Bien informés, les commerciaux se concentrent ainsi sur l’essentiel. Un argumentaire ciblé : les commerciaux savent exactement quels arguments adopter face à leurs prospects. Les tableaux de bord leur permettent de pouvoir se préparer en conséquence et d’identifier les opportunités en filtrant et creusant dans les données. Un accès instantané à des analyses du marché pour le marketing : Alors que l’accès à des analyses poussées du marché prenait un temps non acceptable avant le début du projet, le service marketing accède maintenant aux informations clés sur l’ensemble de ses cibles en un instant et peut planifier plus. Fort du succès rencontré par l’outil au sein des différents services, Renault prévoit d’étendre cette utilisation. POST-IMPLEMENTATION Plus de 600 chefs des ventes et managers grands comptes utilisent à ce jour la solution Access Insight. de pénétration par rapport aux concurrents, caractéristiques de la flotte des entreprises…). Toutes ces informations permettront une connaissance optimale des entreprises et un ciblage précis. Un message adapté répondant presque à coup sûr aux besoins de chaque segment pourra facilement être établi. RÉSUMÉ Access Insight permet au service marketing et commercial de Renault entreprise une vue instantanée sur ses performances, sur le marché et sur ses cibles. L’outil permet non seulement une vision globale mais également une vision par secteur et par prospect ou client pour une préparation optimale des argumentaires commerciaux. Un avantage concurrentiel non négligeable pour Renault. Avant la mise en place d’Access Insight, les vendeurs avaient accès à des listings de prospections basiques crées à la demande par le service marketing. Aujourd’hui grâce à Access Insight, ils ont directement accès à des informations précises sur les entreprises les plus pertinentes, susceptibles d’acquérir des véhicules ou de renouveler leur flotte. A PROPOS D’ACCESS INSIGHT La solution de business intelligence nouvelle génération d’Access permet aux décisionnaires d’analyser rapidement les performances de leur activité, d’identifier les problèmes et de déceler les opportunités en temps réel. Son coté “user-friendly”, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un outil adapté aux besoins actuels des utilisateurs. Document réalisé par la Société Corp Events - Janvier 2015 8 Retours d’expériences Big Data en entreprise ATOS - MÉTÉO-FRANCE MÉTÉO-FRANCE CHOISIT LA NOUVELLE GÉNÉRATION DE SUPERCALCULATEURS BULL, MARQUE TECHNOLOGIQUE DU GROUPE ATOS, D’UNE PUISSANCE CRÊTE TOTALE DE PLUS DE 5 PÉTAFLOPS À L’HORIZON 2016 Météo-France développe et utilise un système de collectes de données météorologiques temps réel, mises à jour toutes les heures pour alimenter ses systèmes de modélisation et ainsi piloter et suivre les évolutions climatiques et les risques liés à la météo en vue d’informer et de protéger les citoyens, les industriels, les agriculteurs… Ce système a une double mission : les prévisions météorologiques quotidiennes et la recherche sur le climat. LES OBJECTIFS DE MÉTÉO FRANCE • Améliorer et rendre plus précises les prévisions et la localisation des phénomènes météorologiques pour une prévention des risques plus efficace et de meilleure qualité, pour plus de sécurité au quotidien. • Diversifier l’offre de services de Météo France : prévisions court terme, définition de nouveaux marchés et de nouveaux supports de diffusion de l’information météo. LA SOLUTION D’ATOS : • Système 12 fois plus puissant que le système précédent • Architecture évolutive : la puissance système peut être multipliée par 3 • Supercalculateur conçu pour une efficacité énergétique optimale: consommation électrique optimisée, empreinte carbone réduite grâce à une technologie de refroidissement innovante. LE PROJET Les supercalculateurs sont installés à Toulouse. Dotés d’un système de refroidissement innovant ultra performant, équipés des processeurs Intel® Xeon® de dernière génération, les supercalculateurs bullx livrent actuellement une puissance de calcul d’environ 1 Petaflops, puis à l’horizon 2016, une performance totale dépassant 5 Petaflops. Cette augmentation des moyens de calcul de Météo-France se double d’une évolution technologique importante : le passage de la technologie vectorielle à la technologie scalaire qui repose sur les standards du marché et permet de fournir une puissance de calcul parallèle nettement supérieure, pour un TCO moindre. POURQUOI ATOS ET LES TECHNOLOGIES BULL ? Le choix de Météo-France souligne le savoir-faire développé par Atos en matière de parallélisation des codes applicatifs utilisés dans les domaines de la météorologie et des sciences du climat. Une plus grande parallélisation est essentielle pour l’utilisation optimale des nouvelles machines scalaires. Elle exige une évolution indispensable des codes de calcul qui représente en elle-même un grand challenge, auquel sont confrontés tous les instituts météorologiques dans le monde. « Atos est fier du choix de Météo-France pour nos plus récents et nos plus puissants supercalculateurs bullx. » déclare Philippe Vannier, Vice-Président Exécutif d’Atos, Big Data & Security. « Le choix de Météo-France confirme la capacité d’Atos, appuyé par ses technologies Bull, à aider les grandes organisations dans la modernisation de leurs infrastructures de calcul, dans les domaines vitaux pour la société et stratégiques pour les États que sont aujourd’hui la prévision météorologique et l’étude du climat » conclut Philippe Vannier. Document réalisé par la Société Corp Events - Janvier 2015 9 Retours d’expériences Big Data en entreprise ATOS - ORANGE BUSINESS SERVICES UNE SOLUTION DE SUPERVISION RÉSEAU QUI FOURNIT DES RÉFÉRENTIELS ET PERMET LA PRODUCTION D’INDICATEURS, POUR GARANTIR UN SERVICE DE HAUTE QUALITÉ Le projet OpenStat assure en temps réel la collecte d’informations sur les équipements du réseau ou sur les systèmes de médiation, la consolidation des indicateurs et la production d’un reporting interactif pour plus de 15 000 clients entreprise en « near real-time » consultable en IHM, aux formats papier et M2M. LES OBJECTIFS D’ORANGE BUSINESS SERVICES • Faire évoluer un système obsolète datant de 15 ans pour assurer le reporting d’usage et de performance des offres entreprises • Réduire les coûts de maintenance, d’exploitation et d’évolution • Accroître l’agilité - collecter les données et éditer un reporting sans pâtir des évolutions systèmes permanentes et des contraintes d’un SI hétérogène - revoir la définition et la liste des indicateurs LA SOLUTION D’ATOS • Une solution basée sur l’OpenSource, tirant parti des avancées des solutions NoSQL • Une base NoSQL de type Graphe (OrientDB) pour le référentiel, apportant une grande souplesse dans la modélisation du réseau et de la performance dans son utilisation • Une Base NoSQL de type Clé/Valeur (Cassandra) permettant d’absorber le flux continu et important de données, tout en les parcourant en temps réel pour produire les indicateurs • Une architecture SOA et 100% évolutive basée sur JEE 7 • La description en XML de la présentation, de la navigation dans l’IHM du calcul du reporting à destination de l’application en « map reduce » de production des indicateurs LE PROJET La solution d’Atos mise en œuvre permet, en toute fiabilité, la captation et le stockage de 10 millions d’indicateurs bruts toutes les cinq minutes. Sur la base de cette énorme masse de données, des centaines d’indicateurs sont construits par OBS à destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en temps réel sur différents types de supports. Ce projet permet de réduire de manière drastique la production de nouvelles offres – divisée par environ trois - et rend possible le prototypage en agilité. ATOS - STADE TOULOUSAIN LE STADE TOULOUSAIN PREND LE POULS DE SES SUPPORTERS, FAVORISE LA COMMUNICATION PROACTIVE ET DÉVELOPPE UNE RELATION SOLIDE AVEC SES PARTENAIRES ET CLIENTS. Le Stade Toulousain a choisi une solution permettant l’analyse des informations circulant sur les réseaux sociaux, et en particulier Twitter. Il convient, dans cette énorme volumétrie de données, de trouver l’information utile et utilisable. Ce qui se dit sur le Stade Toulousain et ce qu’expriment les fans est collecté et analysé, des rapports sont ensuite construits. Cet outil permet d’adapter l’offre aux tendances et aux souhaits des supporters et de développer ainsi de nouveaux business. Document réalisé par la Société Corp Events - Janvier 2015 10 Retours d’expériences Big Data en entreprise LES OBJECTIFS DU STADE TOULOUSAIN • Développer une vision client 360° • Mieux connaître les fans, identifier influenceurs et ambassadeurs pour adapter les offres • Mettre en place un marketing ciblé • Fidéliser les supporters et en attirer de nouveaux. • Augmenter les ventes de produits dérivés et remplir les stades à plus de 90% LA SOLUTION FASTCONNECT D’ATOS La solution s’articule autour de quatre composants majeurs • Une solution Tibco pour la collecte des données. • Une plateforme Hadoop et des composants de son écosystème • Un socle BI temps réel • Spotfire de Tibco pour le reporting et la construction de tableaux de bord « Social Network Analytics ». Quelques détails de la solution : FLUME collecte les différents tweets alors que des données sont collectées via les outils Tibco et déposées au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et le calcul statistique. De plus des composants de l’écosystème Hahoop sont utilisés : OOZIE orchestre les traitements, HIVE/IMPALA observe les données et les résultats, OPENNLP gère l’analyse sémantique. A cet ensemble est associé un Datawarehouse pour la consolidation d’information structurée. Enfin la Solution Spotfire de Tibco prépare et présente le reporting ainsi que les tableaux de bord. POURQUOI ATOS ? Ce projet est à l’initiative de FastConnect, société du Groupe Atos, partenaire du Stade Toulousain depuis de nombreuses années : il a été proposé et présenté au Stade Toulousain, la démarche très innovante a séduit, la solution est en production. La proposition d’Atos représente le compromis gagnant entre un prix compétitif, un savoir-faire fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, société du Groupe Atos, pour son expertise dans le Big Data et le support qu’il apporte à une équipe SI client restreinte. Document réalisé par la Société Corp Events - Janvier 2015 11 Retours d’expériences Big Data en entreprise BAKAMAP - CCI LA CCI DE RÉGION NORD DE FRANCE ET BAKAMAP Le service Innovation de la CCI de Région Nord de France réalise des prestations dans le domaine de la veille, pour les PME-PMI, pôles d’excellence et de compétitivité de la région. Afin d’améliorer la qualité de son offre de services, CCI Innovation s’est dotée en 2011 d’une plateforme de visualisation cartographique de l’information. Depuis le lancement du projet, CCI Innovation confie le développement de son outil et ses évolutions à l’agence Bakasable. Quatre années de travail qui ont déjà aboutit à une véritable «Formule 1» dans le domaine de la datavisualisation. De nouvelles fonctionnalités seront implémentées d’ici juin 2015 pour améliorer d’avantage la performance de l’outil existant. EXPLORER DES DONNÉES TEXTUELLES PAR LA CARTOGRAPHIE Basée sur l’analyse de l’information (corpus de textes) et la cartographie temporelle, la solution Bakamap, développée pour la CCI de Région Nord de France, est un véritable outil d’aide à la décision stratégique. Ainsi, elle permet : - d’accéder facilement et intuitivement aux informations associées à une thématique (acteur, technologie, etc); - de naviguer dans un grand volume de données sans se perdre : plus de 20 000 articles, issus de 60 sources web sont rapidement accessibles grâce la visualisation; - de filtrer ou de cumuler les thématiques, afin d’affiner la recherche et se focaliser sur une partie du corpus; - de percevoir les évolutions des thématiques dans le temps - à l’aide d’une timeline et d’un système de régression linéaire - et de détecter les technologies émergentes; - de découvrir les interactions entre les acteurs, les technologies, les zones géographiques (navigation de proche en proche), - d’exporter en vectoriel le résultat de la recherche. Aujourd’hui, Jean Dufour, conseiller veille au sein de la CCI de Région Nord de France, utilise la cartographie pour aider les entreprises à identifier des marchés, des acteurs, des technologies en pointe sur un secteur d’activité, mais aussi à se positionner dans l’écosystème de sa région. NOUVEAU : BRING YOUR OWN DATA ! QUAND LA DATAVISUALISATION S’OUVRE AU GRAND PUBLIC ! La visualisation de l’information, c’est beau (souvent), utile (parfois)…mais au fond qu’est ce que c’est ? Pour répondre à cette question, l’agence Bakasable propose aujourd’hui un système de datavisualisation et de cartographie de l’information accessible et compréhensible à tous ! Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses propres bases de données (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un exemple concret et personnel. Les multiples interactions existantes, peu évidentes sur un tableau classique, sont visibles immédiatement grâce à une représentation claire et graphique. L’utilisateur peut donc visualiser n’importe quel jeu de données, découvrir les interactions qui les lient entre elles (quels sont les noeuds ? où sont les liens ?), et naviguer facilement à travers son patrimoine informationnel ! Un tableau de bord permet d’accompagner l’utilisateur dans la configuration de sa carte. Il aura ainsi le choix d’afficher entre 2 à 5 catégories pour découvrir les interactions entre toutes ses données, mais aussi d’exporter au format PNG le résultat obtenu. Ce service gratuit est actuellement en version Bêta. Il s’accompagnera d’une offre payante, d’ici l’été 2015, donnant accès à d’autres fonctionnalités pour aller encore plus loin dans l’exploitation de ses données. CONTACT Heidi GHERNATI : 1 rue Suffren - 44000 NANTES 06 03 55 16 78 - ghernati.h@bakasable.fr Document réalisé par la Société Corp Events - Janvier 2015 12 Retours d’expériences Big Data en entreprise BIME - WEEKENDESK BIGDATA & CLOUD : WEEKENDESK.COM, BUSINESS ANALYTICS 100% EN LIGNE 1. OBJECTIFS Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts séjours en Europe. Le site génère plus de 46M€ de Volume d’Affaires sur les 3 pays que sont la France, la Belgique et l’Espagne. Porté par le département Finance & Business Analytics, leur projet BigData s’articulait d’abord sur une logique de sortie du Reporting en silo, dû à l’hétérogénéité de leurs sources de données. Il s’agissait en priorité d’agréger des données financières et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs. 2. PRÉSENTATION a. Nature des données traitées Weekendesk est un site web marchand dont les 25 000 commandes par mois génèrent un important volume de données transactionnelles entre les clients et les hôtels. Weekendesk analyse aussi constamment l’évolution de son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les données transactionnelles de réservation sont stockées dans des bases de données SQL et un ERP propriétaire en ligne. D’autres données sont disponibles dans le Google Drive de l’entreprise. b. Ressources et méthodologie (compétences humaines, outils techniques, fonctionnement du traitement de la donnée) Le Reporting était précédemment produit via Excel avec une multitude de tableaux croisés dynamiques associés et d’onglets, pour couvrir tous les indicateurs clés des différents départements métiers. Ce Reporting a rapidement atteint les limites techniques d’Excel (volumétrie croissante et problème de disparité des données), devenant difficilement exploitable. En sélectionnant BIME, Weekendesk peut désormais reproduire son schéma de Reporting initial avec comme amélioration majeure la fluidité de se connecter nativement à toutes les sources de données (SQL, Google Analytics et Drive) depuis un seul et même endroit, puis d’agréger les informations en quelques clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les différents départements. c. Calendrier de déploiement Le projet a démarré en avril 2014. La Direction analyse les tableaux de bord depuis août 2014. Weekendesk a fait appel à un intégrateur pour travailler en amont les connexions on premise aux bases de données SQL. 3. ASPECT NOVATEUR Weekendesk est une société 100% web, orientée cloud et mobilité. Chaque employé doit impérativement accéder à ses données métiers depuis n’importe où. La solution de Business Intelligence de BIME, 100% web correspond parfaitement à cet ADN. Grâce à la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise son temps de production des analyses. Un même tableau de bord, agrégeant plusieurs sources de données, peut en effet être partagé avec le Comité de Direction et les départements métiers. Le Comité accède aux informations globales de l’entreprise tandis que les métiers (vente, marketing) ne voient qu’un périmètre autorisé. 4. VALORISATION OBSERVÉE DE LA DONNÉE Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, à la volée, au même endroit et en ligne. Production simplifiée de graphiques visuels permettant une compréhension rapide des performances des canaux d’acquisition. Visibilité accrue des résultats des ventes web par région, par canal de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un contexte croissant de volume de données. Actualisation real time des indices de compétitivité des offres, disponibles en ligne pour les métiers, chacun étant capable d’exécuter des requêtes adhoc pour répondre à leur question. 5. ETAPES À VENIR ET DÉMARCHE BIG DATA DANS L’ENTREPRISE Optimisation, augmentation et mix des collectes de données de ventes et de réservations pour renforcer la granularité de l’analyse au client près. Objectif : migrer les données CRM (dont Salesforce) & Marketing (dont les données d’Attribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients et de leurs comportements d’achats, le plus rapidement possible. Bénéficier des technologies Cloud pour rester fidèle à l’ADN Web de Weekendesk et disposer d’une plateforme d’analyse puissante connectée en direct à toutes les sources de l’entreprise, pouvant grandir à l’infini. Document réalisé par la Société Corp Events - Janvier 2015 13 Retours d’expériences Big Data en entreprise CAPGEMINI - CLOUDERA ONE OF THE WORLD’S LARGEST HR FIRMS IS USING CLOUDERA ENTERPRISE TO MATCH JOB SEEKERS WITH OPENINGS AND BUILD NEW SERVICES FOR ITS CLIENTS Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets THE SITUATION The client is one of the world’s largest HR service providers, operating in approximately 40 countries. It faced a challenge around the sheer volume of information that is increasingly becoming available in job markets today. Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job opportunities. The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography. They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a Big Data solution that would help them gain faster access to higher quality information. The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim of developing entirely new HR services for governments and companies. This would include becoming far more proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements. THE SOLUTION A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved. Capgemini and Cloudera experts worked closely with the client’s team to list and prioritize the use-cases relevant for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a specific geography - in this case, France. Capgemini’s solution involved implementing four major elements not present in the existing system: • Cloudera Enterprise to store all data and run the data modeling engine • An analytical SQL database running in conjunction with Cloudera Enterprise • A data visualization product • A solution to geo-code the geographical data As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag similarities. The solution also delivers data from the visualization product to the existing reporting tools which are already familiar to business users. Document réalisé par la Société Corp Events - Janvier 2015 14 Retours d’expériences Big Data en entreprise THE RESULT The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight into job markets in a specific geography. This enables users to more proactively match job seekers with relevant openings. The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents (including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the analysis, with the feedback that “users have been amazed” by the accuracy of the system. After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business use-cases. These include features such as the ability to have the amount of employment contracts signed per month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job offer. Document réalisé par la Société Corp Events - Janvier 2015 15 Retours d’expériences Big Data en entreprise COMPLEX SYSTEMS - TELE SHOPPING KNOWLBOX : PLATE-FORME DE DATA MARKETING UNIQUE, LE PLUS COURT CHEMIN VERS UNE STRATÉGIE MARKETING OPTIMISÉE LE BESOIN Les big data ont envahi l’espace médiatique depuis quelques années. Si nombre d’articles détaillent les bénéfices qu’elles procurent, tant en termes de connaissance client, d’optimisation de processus ou d’amélioration des capacités de prévision des entreprises, peu s’attardent sur les méthodes qui permettent de les matérialiser. C’est certainement la raison pour laquelle seulement 25% des entreprises déclarent avoir déjà mis en place un marketing personnalisé, alors qu’elles sont 80% à souhaiter exploiter davantage leurs données pour optimiser les actions marketing. LA SOLUTION: KNOWLBOX, plate-forme de data marketing unique vous aide à utiliser de manière optimale toutes vos données. KNOWLBOX propose directement une palette de modules d’analyse métier. Toute l’expertise nécessaire est dans l’outil. Les résultats présentés sont validés par des tests de significativité statistique. Le déploiement des modèles sur l’univers de production est réalisé dans le même flux que l’analyse, donc sans risque d’erreur, très simplement et extrêmement rapidement. Connecté en permanence avec la base de données, les modèles sont mis à jour en temps réel. LES AVANTAGES: Simplicité, rapidité, flexibilité, rentabilité. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de tirer des conclusions justes pour prendre les décisions en toute sérénité. Vous améliorez ainsi le retour sur investissement de votre stratégie omnicanale, personnaliser vos offres pour fidéliser vos clients, et faire croitre votre entreprise grâce aux data. LA DÉMONSTRATION AVEC TELESHOPPING: Filiale à 100% de TF1, et première société française de téléachat, TELESHOPPING s’appuie sur 4 canaux de diffusion produits. La télé (1), avec 18 000 heures de programmes par an, qui permet de découvrir près de 300 nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions d’envois annuels. Le catalogue, qui présente une offre produits beaucoup plus étendue que la télé, est un élément central de la stratégie de fidélisation aux côtés de des cartes de fidélité et des leviers digitaux. Mais pour Olivier Dubois, responsable du Département Fidélisation e-CRM et Marketing Digital, la question était : Le catalogue papier est il encore rentablement efficace? «Nous devions mesurer, dans des temps très courts, l’impact du catalogue sur les ventes, notamment au regard de l’impact du web et des émissions. Ceci impliquait d’arrêter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des volumétries en jeu et du fait qu’il était nécessaire de reconstituer différentes cohortes de clients sur plusieurs années, c’était un vrai projet big data.» «KNOWLBOX est conçue pour répondre directement à toutes sortes de problématiques marketing, de connaissance client et d’analyse prédictive… La solution répondait tout à fait à nos besoins : quelques jours ont suffi pour son déploiement, à la fois pour intégrer nos données – 1.2 millions de clients, et l’intégralité de leur historique de comportement - et pour la paramétrer. Et ceci sans aucun impact sur notre SI. A partir de là, l’analyse détaillée de l’impact du catalogue sur nos ventes a été menée, conformément à la promesse de l’outil, en quelques clics ! Nous avons mesuré avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue, et démontré que la réception du catalogue augmente les ventes de l’émission télé de 20%. Au final, c’est la durée de vie du client même qui est impactée. Cette étude nous a aussi permis de découvrir la puissance, alliée à une grande simplicité, de la plateforme analytique KNOWLBOX, avec laquelle des scores d’appétence catalogue ont aussi été développés et déployés. A TELESHOPPING, nous n’avons plus aucun doute sur la place du catalogue papier dans une stratégie de fidélisation client.» C’est ainsi qu’à contre-courant d’une bonne partie des VADistes, TELESHOPPING démontre que son catalogue papier est un facteur de développement des ventes. Document réalisé par la Société Corp Events - Janvier 2015 16 Retours d’expériences Big Data en entreprise AVEC SA NOUVELLE PLATE-FORME BIG DATA ANALYTIQUE KNOWLBOX, COMPLEX SYSTEMS PERMET À TOUTES LES ENTREPRISES DE PRENDRE LES DÉCISIONS BASÉES SUR LEURS DATA. A la fois éditeur de solutions data analytiques pour le marketing et bureau d’études depuis près de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet à toutes les entreprises, quelles que soient leurs contraintes budgétaires, techniques ou humaines, de pouvoir enfin prendre des décisions reposant sur leurs données. LA PUISSANCE DE L’ANALYTIQUE À LA PORTÉE DE TOUTES LES ENTREPRISES La plate-forme KNOWLBOX permet à toutes les entreprises qui ont des données de pouvoir enfin les utiliser pour optimiser leurs décisions marketing. Elle supprime les freins à la mise en place d’une démarche data driven - manque d’expertise, coût des logiciels et temps - et permet une montée en compétence interne progressive et adaptée sur les sujets data. La tarification sous forme d’abonnement fonction de l’utilisation garantit un budget maitrisé. Avec KNOWLBOX, COMPLEX SYSTEMS donne à toutes les entreprises le moyen de s’engager simplement, selon leurs besoins et en toute sécurité dans une démarche marketing data driven gagnante. KNOWLBOX PLATE-FORME BIG DATA MARKETING FLEXIBLE ET SANS ENGAGEMENT KNOWLBOX est une plate-forme big data marketing, déployée et paramétrée en 2 jours sur tout type de base ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de données, encapsulant une véritable intelligence datamining et dédiée aux problématiques marketing, KNOWLBOX simplifie drastiquement l’expérience utilisateur. La plate-forme, conçue pour répondre directement aux questions des directions marketing telles que valeur client, appétence produit, parcours client, cycle de vie, repose sur des algorithmes éprouvés, et apporte aux dataminers et experts métier des résultats performants immédiatement exploitables. Offre unique sur le marché, elle est utilisable selon les besoins selon 3 modes : • En mode autonome, la plate-forme logicielle est livrée clé en main, avec un accompagnement sur 2 mois qui garantit le succès de son implantation. • En mode collaboratif, à mi-chemin entre logiciel et outsourcing, l’utilisateur bénéficie de l’expertise et du support des dataminers du bureau d’études de COMPLEX SYSTEMS, et externalise certaines études. • En outsourcing l’entreprise dispose d’une plate-forme analytique externalisée et du bureau d’études prêt à répondre à toutes les demandes de la direction marketing Proposée sous la forme d’un abonnement mensuel, sans engagement, KNOWLBOX s’adapte à chaque instant exactement aux besoins de l’entreprise ; son utilisation peut passer d’un mode à un autre sans contrainte. L’INNOVATION TECHNOLOGIQUE KNOWLBOX est la seule plate-forme big data analytique, dotée de fonctionnalités clés en main à la fois prédictives et exploratoires, spécifiquement dédiée aux problématiques marketing. Véritable innovation de rupture, KNOWLBOX analyse directement les données stockées dans une base de données relationnelle, sans extraction, sans traitement, sans constitution de fichier d’analyse. Le processus analytique est direct, simple, rapide. En supprimant l’étape de constitution d’un fichier, jusqu’ici incontournable dès qu’on sort du cadre des problématiques BI, KNOWLBOX raccourcit considérablement le temps de réalisation des modèles prédictifs, apporte une souplesse inégalée, et met enfin l’analytique à la portée de profils métier. C’est une avancée majeure qui permet à un grand nombre de profils métiers d’utiliser les données. Document réalisé par la Société Corp Events - Janvier 2015 17 Retours d’expériences Big Data en entreprise A PROPOS DE COMPLEX SYSTEMS COMPLEX SYSTEMS a été créé en 1996 à l’époque de l’émergence du datamining par deux passionnés de data. Avec 20% de son activité consacrée à la R&D data, et près de 20 ans d’expertise datamining, COMPLEX SYSTEMS, qui a gardé son esprit de start-up, est un éditeur innovant de solutions analytiques de connaissance client pour le marketing. COMPLEX SYSTEMS aide les entreprises à exploiter leur capital data, acquérir la connaissance client, développez et déployer les modèles prédictifs dont elles ont besoin. CONTACT Hélène Ivanoff - 01 42 21 48 86 - hivanoff@complex-systems.fr www.complex-systems.fr Document réalisé par la Société Corp Events - Janvier 2015 18 Retours d’expériences Big Data en entreprise COUCHBASE - AMADEUS COUCHBASE HELPS AMADEUS POWER THE TRAVEL INDUSTRY Today’s travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on margins. It’s a market driven by new technologies, new entrants and new business models. Amadeus, the leading Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and Couchbase to meet stringent data management needs within a demanding industry. THE NEEDS The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel websites, airports, and other distributors. As the world’s leading GDS, Amadeus must manage a huge workload daily, with absolutely no room for service outages, supporting: • 3.7 Million Bookings per Day • 1.6 Billion Transactions per Day • 45 Billion Database Accesses per Day • 13 Petabytes of Storage • Response Time of Less than 0.5 Seconds • Thousands of Developers Pushing New Features (100+ Changes per Day) Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a lowlatency key-value store to achieve the required service levels for their architecture, including: • Consistent high performance (submillisecond latency) • Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth • Seamless topology changes Data persistence to support a very write-heavy environment COUCHBASE AT WORK To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Amadeus Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and maintain a responsive experience for the end users. The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you have ever booked travel online, you have encountered this engine. which displays travel information such as prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for the performance improvements that key-value technology offers. The original system had 28 relational databases and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second. The average object size is about 1 KB. Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and travel buyers (corporations and travel management companies). The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended December 31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on the Spanish Stock Exchange under the symbol “AMS.MC” and is a component of the IBEX 35 index. Document réalisé par la Société Corp Events - Janvier 2015 19 Retours d’expériences Big Data en entreprise CRAY - INSTITUTE FOR SYSTEMS BIOLOGY CRAY SOLUTION BRIEF | CANCER RESEARCH USING A BIG DATA APPROACH THE CHALLENGE Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other collaborative scientific and public sources. The hypothesis is that big data could be used to identify potential new drug treatments from data already available through analysis of gene-drug relationships without performing “wet” lab work first. However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months to execute. They are time consuming because data scientists must assemble all of the necessary data into a new data model to determine whether the researcher’s hypothesis is accurate. Because of the extensive amount of time between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered. The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly compress this wait time. They wanted a way to get to “yes” or “no” quickly in order to prioritize drug repurposing opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the drug development and approval process quickly, thus making a major difference to cancer patients. THE URIKA-GD™ PLATFORM ADVANTAGE: To rapidly validate scientific hypotheses in real time and discover new connections within their existing data, the ISB team needed a powerful solution that enabled data discovery at scale. THE SOLUTION The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using the Urika-GD™ graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its data into a single graph in the appliance’s vast shared memory — eliminating the need to partition the data or create time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows the data set to expand over time without losing performance or data integrity. The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those drugs that would not deliver the desired result.. To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the current data management strategy couldn’t deliver. The Urika-GD system enabled ISB’s researchers to look at the data in a different way than what they’d be limited to with query-based relational database systems, where the data determines what questions can be asked. This resulted in a clear visualization of the connections and associations within the data to help identify promising candidates for new therapies. The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same conclusion about nelfinavir in a fraction of the time, with no need for hands-on “wet lab” work to test the hypothesis - validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions. THE URIKA-GD PLATFORM ADVANTAGE The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm™ multithreaded graph processors, allowed the team to rapidly integrate ISB’s proprietary data with publicly available data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data discovery. Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments, the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher probability of success. Document réalisé par la Société Corp Events - Janvier 2015 20 Retours d’expériences Big Data en entreprise SOLUTION BRIEF | CANCER RESEARCH The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previously took to validate a single hypothesis, the team could now validate 1,000. About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discovering relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries, pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data warehouse or Hadoop® cluster by offloading graph workloads and interoperating within the existing analytics workflow. ABOUT CRAY GLOBAL SUPERCOMPUTING LEADER Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of experience in developing and servicing the world’s most advanced supercomputers, Cray offers a comprehensive portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, efficiency and scalability. Go to www.cray.com for more information. ©2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respective owners. 20140915 www.cray.com Document réalisé par la Société Corp Events - Janvier 2015 21 Retours d’expériences Big Data en entreprise CSC - HGST AMÉLIORER LA SATISFACTION CLIENT ET LA QUALITÉ DES PRODUITS AVEC UNE PLATEFORME BIG DATA AS A SERVICE Western Digital, l’un des leaders mondiaux de la conception et de la fabrication de disques durs s’est attaqué au défi d’accroître la qualité de ses disques durs, d’améliorer l’efficacité opérationnelle de sa fabrication et de permettre aux personnes de toute l’entreprise de profiter de nouvelles données. Le problème auquel l’entreprise devait faire face était des ensembles de données qui devenaient si vastes et complexes qu’il devenait compliqué de travailler avec ces données en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data Platform as a Service pour relever ces défis, la totalité des sources de données disparates de HGST a pu être mise en pratique professionnelle en fournissant des outils permettant d’afficher l’ensemble de « l’ADN » de l’entreprise — du développement à la fabrication, en passant par les tests de fiabilité et le marketing et les ventes - pour que tout soit accessible à tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC leur a permis d’accroître les normes de qualité, d’améliorer la qualité du produit fini et d’augmenter les niveaux de satisfaction des clients. Le retour sur investissement du projet a été immense grâce à des économies tirées des cas d’utilisation initiaux qui ont payé pour l’intégralité de cet effort en trois mois. ENJEU L’unité des disques durs (DD) de Western Digital devait relever plusieurs défis, comme des échéances de projet très courtes, l’intégration de sources de données disparates, une expertise interne réduite et des volumes de données gigantesques. Lorsqu’une intégration client échoue lors d’un test, le client de Western Digital demande à voir les données de fiabilité pour tous ses disques durs, afin d’établir une comparaison. Avant, ce processus aurait pris des semaines d’effort manuel, notamment si les données devaient être extraites de différents silos et bandes d’archive. SOLUTION Infochimps, une société de CSC, a aidé Western Digital en déployant son Big Data Cloud grâce à un moteur d’analyse de données machine sophistiqué. Nous avons également proposé une infrastructure très évolutive offrant des interfaces simples pour ajouter de nouveaux éléments de données et déployer de nouvelles analyses de données s’appuyant sur des solutions open source de sociétés leader du Web comme Google, Yahoo !, Facebook. RÉSULTATS Grâce à l’analyse des big data, l’intégralité de l’ADN d’un disque - du développement à la fabrication et au test de fiabilité - est accessible à tout moment. La nouvelle infrastructure implique une charge opérationnelle minimale (en tant que service entièrement géré), une échéance de développement réduite et une infrastructure souple et agile pour convertir efficacement les données en recettes. Document réalisé par la Société Corp Events - Janvier 2015 22 Retours d’expériences Big Data en entreprise CSC - ASSURANCES AUTO COMPAGNIE D’ASSURANCE AUTOMOBILE LEADER DU MARCHÉ AMÉRICAIN : FOURNIR UNE PLATEFORME BIG DATA ÉCONOMIQUE POUR TRAITER UN VOLUME IMPORTANT DE DONNÉES TÉLÉMATIQUES RÉSUMÉ Une compagnie d’assurance automobile leader du marché qui compte plus de 18 000 agents au service de 81 millions de clients aux États-Unis et au Canada souhaitait lancer un programme fondé sur la télématique qui permettrait à ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a proposé une plateforme de big data économique conçue et gérée pour mettre en pratique les exigences de niveau de service à une vitesse sans précédent afin de traiter des volumes élevés de données télématiques par le biais d’une plateforme à forte disponibilité. La solution a accéléré le délai de mise sur le marché et a permis de respecter les délais commerciaux essentiels. ENJEU Cette initiative particulièrement visible au niveau du Conseil d’Administration visait à rattraper le retard sur d’autres opérateurs qui offrent déjà des produits sur le marché. Elle nécessitait une plateforme prenant en charge une application analytique fondée sur un haut volume de données télématiques. Les challenges à relever étant : - La capacité à répondre aux exigences de mise sur le marché de l’entreprise - Le fossé de compétences technologiques internes - les plateformes technologiques actuelles n’étaient pas capables de réaliser ce traitement et n’étaient pas économiques SOLUTION Une plateforme solide, intégrée et sécurisée pour permettre à une application de télématique de tirer le meilleur parti des technologies d’infrastructure et de sécurité informatiques pour les analyses et la collecte de données. Un moteur d’ingestion de big data hébergé avec un réseau hautement sécurisé Conçu pour des volumes élevés de données télémétriques (6 millions de clients) Haute disponibilité fournie par 2 centres de données pour la continuité de l’activité Solutions de surveillance et de sécurité de classe mondiale avec assistance 24h sur 24, 7j sur 7 Document réalisé par la Société Corp Events - Janvier 2015 23 Retours d’expériences Big Data en entreprise RÉSULTATS La solution a permis la mise en place d‘un programme de discount sur les polices d’assurance lié à la qualité de conduite. Ce programme s’appuie sur l’analyse des habitudes de conduite en traitant des quantités massives de données venant de capteurs et en développant des modèles dynamique d’analyse de risques Les autres bénéfices pour le client furent : - des dépenses initiales limitées pour un lancement rapide - une plateforme hautement disponible : conçue et gérée pour mettre en pratique les exigences de niveau de service - une rapidité de mise sur le marché : la plateforme CSC a permis au client d’accélérer le temps de mise sur le marché et de respecter ses échéances commerciales essentielles. - une expansion et une évolution rapide au fur et à mesure que le programme est déployé et adopté au sein des 52 états à couvrir. CSC - VOYAGISTE ONLINE COMPAGNIE LEADER DU MARCHÉ WEB EUROPÉEN DES VOYAGES RÉSUMÉ Avec l’aide de CSC, ce client leader du marché web européen des offres de voyages et de loisirs a augmenté significativement son chiffre d’affaire en segmentant sa base clients et en lançant une campagne marketing ciblée. En utilisant le modèle RFM (Recency, Frequency and Monetary Value), CSC a fusionné et nettoyé 7 sources de données et réalisé de l’analytique sur sa base clients. Des données ouvertes (open data) – provenant de l’INSEE – y ont été insérées afin d’améliorer l’algorithme d’évaluation en s’appuyant sur : - les données géographiques avec coordonnées GPS pour calculer les distances de voyage - les revenus moyens par zone d’habitation - l’âge moyen par prénom pour chaque client potentiel ENJEU La fusion de ce client avec un de ces compétiteurs engendra le besoin de réaliser des synergies entre les deux sociétés, la priorité étant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil commun de gestion de campagne marketing SOLUTION L’approche de CSC consista à développer une nouvelle base de Connaissance Client en : - définir les besoins clients avec des analystes marketing - dédupliquer et nettoyer les données client Document réalisé par la Société Corp Events - Janvier 2015 24 Retours d’expériences Big Data en entreprise - ingérer des données ouvertes pour améliorer l’algorithme d’évaluation - construire une solution avec les meilleures technologies du marché CSC a recommandé la segmentation de la base clients en utilisant le modèle RFM (Recency, Frequency and Monetary Value) et a affiné les évaluations afin d’améliorer le retour sur investissement des campagnes marketing. RÉSULTATS CSC a délivré un “Datamart” clients pour faciliter le reporting, l’analyse et la segmentation de la clientèle. Grace à ce Datamart le client a augmenté : - sa rétention client de 5% - ses revenus de 6% en recommandant des stratégies d’upsell - ses revenus de 10% en recommandant des stratégies de cross sell Document réalisé par la Société Corp Events - Janvier 2015 25 Retours d’expériences Big Data en entreprise DATA PUBLICA - CEGID ALIMENTER LES ÉQUIPES DE TÉLÉPROSPECTION EN NOUVEAUX PROSPECTS GRÂCE AU BIGDATA CEGID, PREMIER ÉDITEUR FRANÇAIS DE SOLUTION DE GESTION A FAIT APPEL AU SERVICE DE C-RADAR L’OUTIL DÉVELOPPÉ PAR DATA PUBLICA START UP SPÉCIALISÉE DANS LA COLLECTE DE DONNÉES B2B. Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid, avait besoin de mieux identifier ses cibles de prospection afin d’alimenter les équipes de télémarketing avec des fichiers neufs. Il cherchait notamment à identifier des cibles très précises à savoir les entreprises sous-traitantes dans les secteurs de l’automobile et de l’aéronautique. Or il n’existe pas de code NAF qui permet d’identifier les entreprises de ces secteurs d’activité. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette démarche de segmentation. Grâce à la base de données B2B alimentée par les données du web, ce travail de ciblage a été particulièrement rapide et efficace. Plusieurs centaines d’entreprises correspondant exactement à la cible désignée ont été identifiées : les équipes de télémarketing du Groupe Cegid ont été alimentées en fichiers de prospection contenant de nouveaux contacts, jamais identifiés. “Grâce à la solution C-Radar, nous avons pu traiter rapidement une base de données entreprises de plusieurs dizaines de milliers d’entités pour en extraire les quelques centaines de contacts très ciblés que nous voulions prospecter.” Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid DATA PUBLICA - CCI PARIS CLASSER LES ENTREPRISES DANS UNE DIZAINE DE FILIÈRES MÉTIERS ET SEGMENTER CHAQUE FILIÈRE EN S’AFFRANCHISSANT DES LIMITES DES CODES NAF GRÂCE AU BIGDATA. La Chambre de Commerce et d’Industrie Paris Ile-de-France est un interlocuteur privilégié des entreprises de sa région. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers d’entreprises locales qui représentent près de 30% des entreprises françaises. Elle les accompagne de la création à la transmission en passant par toutes les étapes de leur développement. Pour être à même de répondre aux besoins des entreprises et d’apporter une réponse cibléee, la CCI Paris Ile de France met en place une approche par filière pour laquelle elle avait besoin d’être accompagnée techniquement par des experts du traitement des données B2B. Catherine Demongeot, directrice du marketing et de la relation clients déclare notamment “Data Publica grâce à son outil C-Radar nous permet de réaliser une segmentation plus fine que celle réalisée à partir de codes NAF par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au quotidien, les informations par filières ainsi qu’une fiche de synthèse par entreprises. Sans la technologie de Data Publica ce classement aurait été moins pertinent. Nous avons apprécié la capacité de DP à mener à bien le projet, en respectant les délais et le budget.” Document réalisé par la Société Corp Events - Janvier 2015 26 Retours d’expériences Big Data en entreprise DATA PUBLICA - B-POST ANALYSE ET SEGMENTATION PLUS FINE D’UN MARCHÉ. MISE EN PLACE D’UN NOUVEL OUTIL DE CIBLAGE POUR LA PROSPECTION DE L’ACTIVITÉ COLIS. Bpost (la poste belge) a lancé en 2014 un ambitieux projet pour exploiter les promesses du big data dans le domaine de la prospection commerciale afin de démarcher de façon plus efficace et notamment mieux segmenter le marché. Sébastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet déclare: “ Après avoir consulté 4 sociétés, Bpost a retenu Data Publica du fait de son approche basée sur un produit existant en constante évolution (C-Radar), sa capacité à s’adapter à la spécificité linguistique de la Belgique, et du fait de son engagement à co-créer une solution adaptée aux besoins et à la taille de bpost.” Les premiers résultats du projet sont conformes à nos attentes, nous avons apprécié tout particulièrement l’implication totale des équipes de DP, leur écoute et leur capacité à faire évoluer la solution en fonction de nos attentes». Document réalisé par la Société Corp Events - Janvier 2015 27 Retours d’expériences Big Data en entreprise DATAIKU - BLABLACAR BLABLACAR FAIT CONFIANCE À DATAIKU LA CONNAISSANCE DU CLIENT, UN ENJEU DATA Au cœur de sa stratégie Big Data, BlaBlaCar cherche à améliorer sa connaissance client. Cette connaissance permet d’entreprendre une communication ciblée pour ses différents profils d’utilisateurs. Grâce à la collecte et à l’analyse approfondie des données, BlaBlaCar calcule des indicateurs de performance afin d’optimiser le taux de conversion et d’améliorer la rétention. DES DONNÉES ACCESSIBLES AUX ÉQUIPES MÉTIERS Avec le Data Science Studio de Dataiku, les équipes métiers, Marketing et BI ont la main sur les données. Elles peuvent ainsi acquérir des données externes, les centraliser et les formater afin de générer des rapports BI. Elles n’ont plus besoin de faire des demandes d’extractions de bases SQL auprès des équipes techniques. Avec le logiciel Data Science Studio, l’équipe en charge du projet data chez BlaBlaCar peut construire un flux qui récupère des données depuis diverses sources (bases SQL, données partenaires ou externes…), de les agréger et de les stocker dans une base Vertica optimisée pour les calculs analytiques en contexte Big Data. Par la suite, les équipes métiers, marketing et BI peuvent construire et consulter des rapports à loisir sans régénérer des requêtes complexes et couteuses sur les bases SQL de production. Une fois les rapports générés, Tableau est branché à la base Vertica et permet de créer des visualisations sur les données. LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR BLABLACAR : « DSS est prévu pour tous les « corps de métiers » de la Data Team - du data engineer au data analyst. Avec l’aide de DSS, nous avons créé une structure qui nous permet de rendre autonomes les équipes d’analystes. Les itérations ne sont pas dépendantes des techniciens, ce qui était un de nos objectifs premiers. » Gaëlle Périat - BI Manager, BlaBlaCar A PROPOS DE BLABLACAR BlaBlaCar a lancé en 2011 le 1er service de réservation en ligne au monde dans le secteur du covoiturage, faisant de cette nouvelle pratique un véritable moyen de transport. BlaBlaCar compte aujourd’hui plus de 10 millions de membres dans 13 pays et connaît une croissance de 200% par an. Document réalisé par la Société Corp Events - Janvier 2015 28 Retours d’expériences Big Data en entreprise DATAIKU - CHRONOPOST CHRONOPOST FAIT CONFIANCE À DATAIKU LE BIG DATA OUVRE DE NOUVELLES PERSPECTIVES Le logiciel de Dataiku, Data Science Studio, ouvre à Chronopost de nouvelles perspectives d’analyses de données pour mieux servir la stratégie de l’entreprise. L’historique des livraisons de Chronopost, qui contient notamment des données horaires et géographiques sur plusieurs années, est pleinement exploité afin de créer de la valeur. Les applications issues de ces données peuvent être d’ordre technique, commercial (nouvelles offres) ou opérationnel (optimisation de l’organisation, des processus de distribution, etc). OPTIMISATION DU DERNIER KILOMÈTRE AVEC DSS Chronopost utilise DSS pour analyser et identifier, à l’échelle de la France, les moyens opérationnels engagés chaque jour pour couvrir l’ensemble du territoire. Grâce à des analyses approfondies de leurs bases de données, Chronopost assure une qualité constante de ses différentes offres (livraison avant 13h, avant 8h…) au meilleur coût de production. Un score est ainsi calculé pour chaque adresse afin d’indiquer la facilité de livraison à un moment donné. A terme, l’objectif est d’affiner les moyens routiers nécessaires pour optimiser le dernier kilomètre quelque soit le moment de l’année, notamment les périodes critiques comme Noël, la fête des mères, etc. Le projet est mené en interne par le pôle d’assistance à maîtrise d’ouvrage de Chronopost. LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CHRONOPOST : « DSS nous permet un accès souple et direct à nos données de masse. Nous pouvons plus facilement nous en faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et architecture standard. » Régine Buys - Responsable de Domaine BI A PROPOS DE CHRONOPOST Chronopost est l’un des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transporté 102,2 millions de colis dans plus de 230 pays en Europe et dans le monde. Document réalisé par la Société Corp Events - Janvier 2015 29 Retours d’expériences Big Data en entreprise DATAIKU - CITYVOX CITYVOX FAIT CONFIANCE À DATAIKU CONSOLIDATION DES DONNÉES : UN ENJEU BIG DATA Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et événements, Cityvox a décidé de regrouper dans un même environnement l’ensemble de ses données. Par exemple, cela comprend les données des utilisateurs, les historiques d’utilisation du site internet et des applications mobiles, les notations des utilisateurs, les renseignements sur les restaurants, etc. En utilisant le Data Science Studio de Dataiku, Cityvox a été en mesure de regrouper simplement ces données, pourtant hétérogènes, dans le but d’en tirer de la valeur. L’interface graphique et les processeurs intégrés ont permis de nettoyer, harmoniser, enrichir les données puis de les croiser (par lieu, événement, utilisateur…). Aujourd’hui, une base Vertica stocke l’ensemble des données consolidées de Cityvox. UN MODÈLE PRÉDICTIF POUR OPTIMISER LES PAGES RESTAURANTS Une fois les données centralisées et nettoyées, les équipes de Cityvox ont pu en extraire des informations et obtenir des pistes d’améliorations pour leur business. Par exemple, des optimisations ont été réalisées sur les fiches restaurants afin d’augmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modèles prédictifs afin de déterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des données a été réalisée avec la génération de graphiques pour différents reportings internes. LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CITYVOX : « DSS est l’outil qui nous permet d’automatiser le nettoyage et la centralisation de toutes nos données au même endroit. Grâce à l’outil, nous maitrisons entièrement le processus d’entrée et de sortie de nos nombreux flux de données pour pouvoir en faire bon usage. » Raphaël Guillet - Directeur Technique de Cityvox A PROPOS DE CITYVOX Cityvox, entreprise née à Marseille en 1999, est un portail dédié aux loisirs et aux sorties en ville. Avec plus d’un million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site référent de l’actualité des sorties en France. Document réalisé par la Société Corp Events - Janvier 2015 30 Retours d’expériences Big Data en entreprise DATAIKU - PAGESJAUNES PAGESJAUNES FAIT CONFIANCE À DATAIKU LE BIG DATA POUR DE MEILLEURES RÉPONSES Huit Français sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur activité, ce qui génère plusieurs centaines de millions de requêtes chaque année. La qualité et la pertinence des résultats de ces requêtes est donc un enjeu majeur pour PagesJaunes. L’objectif du projet était pour PagesJaunes d’améliorer la qualité de ses réponses, en automatisant la détection et la correction des requêtes problématiques. DATA SCIENCE STUDIO EN ACTION PagesJaunes a choisi l’expertise de Dataiku et son Data Science Studio qui combine des outils de gestion de données, de statistiques, de visualisation et d’analyse prédictive en contexte Big Data. Le projet tire massivement parti de la richesse de l’écosystème Open Source intégré à Data Science Studio : Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des données issues de l’utilisation du moteur de recherche (listes des requêtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assemblées et exploitées afin d’isoler les recherches infructueuses. Un score est ainsi calculé pour chaque requête afin de prédire celles qui donnent des réponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par conséquent d’améliorer l’expérience utilisateur. Depuis le début du projet, une dizaine de collaborateurs PagesJaunes ont été formés à l’usage d’Hadoop, des statistiques et du « Machine Learning » via le Data Science Studio. Ce projet a servi de pilote et a permis l’émergence chez Pages Jaunes de plusieurs autres initiatives d’innovation par la donnée. LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PAGESJAUNES : « La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques basées sur des millions de requêtes, le procédé est carré et nous travaillons en conscience ! » Erwan Pigneul, Responsable Projet PagesJaunes A PROPOS DE PAGESJAUNES PagesJaunes.fr est le leader français de la publicité et de l’information locale sur Internet, mobile et papier. Il est un client historique de Data Science Studio, la solution de Dataiku. Document réalisé par la Société Corp Events - Janvier 2015 31 Retours d’expériences Big Data en entreprise DATAIKU - PARKEON PARKEON FAIT CONFIANCE À DATAIKU BIG DATA, TROUVE-MOI UNE PLACE DE PARKING Parkeon a créé « Find Me A Space », une application mobile unique permettant aux conducteurs de trouver une place de stationnement disponible. Sous son apparente simplicité se cachent des algorithmes prédictifs de dernière génération, valorisant des millions de transactions de parcmètres chaque jour, croisées avec des données géographiques « crowdsourcées » d’OpenStreetMap (points d’intérêt tels que les restaurants et commerces) afin de prédire la pression de stationnement de manière individualisée dans chaque rue. Cette application, simple et intuitive, est un exemple typique de « Data-Product » moderne : exploitation et enrichissement de données machines, algorithmes prédictifs en environnement Big Data et packaging grand public (application iOS). DATA SCIENCE STUDIO EN ACTION Pour développer le back-office prédictif de l’application, Parkeon a choisi d’utiliser le Data Science Studio (DSS) de Dataiku, qui a permis l’intégration des données parcmètres, l’enrichissement avec des données géographiques, le développement des modèles prédictifs de stationnement et leur industrialisation à grande échelle. LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PARKEON : « Nous avons été séduits par la capacité de DSS à fonctionner sur des volumétries importantes de données ainsi que par son côté ouvert et transparent quant au fonctionnement des algorithmes. » Yves-Marie Pondaven, CTO de Parkeon A PROPOS DE PARKEON Parkeon, leader international dans le secteur de la mobilité urbaine, propose des équipements et des services permettant de maîtriser tous les aspects de la gestion d’une infrastructure de stationnement (notamment des parcmètres, plus de 50% de parts de marché mondiale). Document réalisé par la Société Corp Events - Janvier 2015 32 Retours d’expériences Big Data en entreprise DELL - DANSKE BANK DANSKE BANK, PREMIÈRE BANQUE DANOISE, CHOISIT DELL STATISTICA POUR OPTIMISER SES PERFORMANCES ET RÉDUIRE SES RISQUES OPÉRATIONNELS DANSKE BANK, PREMIÈRE BANQUE DANOISE ET L’UNE DES PLUS IMPORTANTES INSTITUTIONS FINANCIÈRES D’EUROPE DU NORD, ADOPTE LA SOLUTION D’ANALYSE DE DONNÉES ET DE MODÉLISATION PRÉDICTIVE, DELL STATISTICA, POUR LA GESTION DU RISQUE ET SES OPÉRATIONS DE SCORING. Danske Bank a déployé la Plate-Forme Décisionnelle Dell Statistica pour la modélisation, le reporting et la gestion du risque. La solution fournit une aide à la décision en temps réel pour des besoins métiers variés et de très nombreux sites en Europe. Le logiciel Dell Statistica permet d’accélérer la création, le test et le déploiement des modèles de risque, et permet à Danske Bank d’offrir à ses clients des services sur-mesure à plus forte valeur ajoutée, dans tous les pays et pour tous les marchés. « Travailler avec les experts de la Danske Bank a été réellement passionnant. Nous avons réussi à créer ensemble un système de scoring en temps-réel très performant. Ce système permet une recalibration aisée des modèles, une grande précision dans la prédiction du risque, et offre d’excellents temps de réponse sur de grosses volumétries de données en temps-réel et dans un environnement exigeant » confie George Butler, Vice-Président en charge du Développement chez Dell Statistica. « La solution mise en place est un véritable état de l’art technologique, déployé dans environnement informatique de pointe » Lorsque Danske Bank a décidé de mettre à jour son système informatisé de gestion du risque et de scoring, l’opportunité s’est présentée de faire évoluer l’ancienne plate-forme analytique vers une plate-forme plus performante, pouvant facilement répondre aux différents besoins métiers en termes d’ETL, de scoring, de reporting et d’aide à la décision en temps réel. Danske Bank a réalisé pendant près de deux ans une étude approfondie et un comparatif minutieux des solutions et des plates-formes analytiques disponibles sur le marché, qui ont finalement abouti au choix de la Plate-Forme Décisionnelle de Dell Statistica. Danske Bank a eu recours à Dell Statistica pour la mise en oeuvre de la solution, la formation des utilisateurs ainsi que d’autres services en vue d’assurer une transition en douceur et dans les délais impartis pour ce projet. La solution Dell Statistica est aujourd’hui en production afin de répondre aux besoins de la Danske Bank dans ses applications métier courantes et ses opérations en temps-réel. Danske Bank a été particulièrement impressionnée par la flexibilité et la convivialité des solutions de Dell Statistica, ainsi que par l’étendue et la puissance des fonctionnalités offertes. « Nous sommes très heureux des efforts déployés par Dell Statistica pour comprendre les besoins de Danske Bank et fournir une solution répondant à ces besoins » déclare Jens Chr. Ipsen, Premier Vice-Président et Directeur du Développement des Systèmes de Gestion du Risque. « La solution proposée a été facile à intégrer, et a été déployée dans le respect des délais et des coûts impartis. Dell Statistica a été très réactif aux demandes de modifications fonctionnelles, et les équipes de Dell Statistica sont à la fois professionnelles et sympathiques. La solution proposée est désormais totalement opérationnelle et fonctionne parfaitement. » « Dans un environnement de plus en plus complexe pour les modèles de risque, la solution mise en oeuvre par Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des différents modèles » conclut Monsieur Ipsen. « Cette intégration de la Plate-Forme Décisionnelle de Dell Statistica avec les systèmes de Danske Bank démontre l’importance pour un logiciel d’adhérer aux conventions et aux normes d’intégration actuelles, pour la mise en oeuvre réussie et rapide d’une solution analytique de pointe dans un environnement informatique mature et complexe, et qui doit répondre à des besoins multiples comme c’est le cas pour Danske Bank. » souligne George Butler. « Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement très performante mais également capable de coexister en parfaite harmonie avec les systèmes informatiques existants, est essentielle pour générer de la valeur immédiatement et sur le long terme. » Les composantes de la plate-forme Dell Statistica déployée chez Danske Bank comprennent Dell Statistica Enterprise Server, Dell Statistica Data Miner avec Optimisation de Processus, le Système Expert de Suivi et d’Alertes de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Décisionnelle de Dell Statistica. Le système est utilisé en particulier pour le développement des modèles analytiques et le scoring du risque crédit, qui sont des applications essentielles dans toutes les banques du Groupe Danske Bank. Document réalisé par la Société Corp Events - Janvier 2015 33 Retours d’expériences Big Data en entreprise AUTRES CAS D’USAGES AVEC LA SOLUTION DELL STATISTICA Continental Automotive a sélectionné la solution Statistica afin de classer des images transformées numériquement pour prévoir et contrôler la qualité de sa production. http://www.statsoft.com/Portals/0/Customers/Success_Stories/2013-Continental-Automotive-Success-Story.pdf EOS KSI a sélectionné Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft. com/Portals/0/Customers/Success_Stories/2013-eosKSI.pdf Unipetrol RPA utilise Statistica Réseaux de Neurones pour analyser ses processus de production https://www. statsoft.com/Portals/0/Customers/Success_Stories/StatSoft-Unipetrol-SuccessStory.pdf A PROPOS DE DELL STATISTICA Dell Statistica est l’un des principaux éditeurs de logiciels analytiques avec 30 centres de compétences dans le monde et plus d’1 million d’utilisateurs. Dell Statistica est un système intégrable à l’échelle de l’entreprise qui est utilisé dans de nombreuses applications critiques, partout où la modélisation prédictive permet d’améliorer la productivité et la rentabilité. Dell Statistica est en outre fier de contribuer à l’amélioration de la santé, au renforcement de la sécurité et à la préservation de l’environnement. Plus ergonomique et offrant un meilleur rapport qualité-prix par rapport à ses concurrents, Dell Statistica est sans conteste l’un des logiciels analytiques les plus performants et les plus évolués à ce jour ; les utilisateurs apprécient particulièrement la qualité et le soin apportés à son développement, garants depuis toujours de son succès. INFORMATIONS COMPLÉMENTAIRES : Pour obtenir plus d’informations visitez notre site Internet : www.statsoft.com Pour télécharger une version d’évaluation : http://software.dell.com/products/statistica/ Pour obtenir notre livre blanc, la Révolution du Big Data… Comment extraire de la valeur à partir des Big Data : http://www.statsoft.fr/pdf/la_revolution_du_big_data.pdf Pour visualiser les vidéos « Le Data Mining en 35 leçons » : https://www.youtube.com/playlist?list=PL0C134C89 8122050E Pour avoir plus d’informations contactez-nous : info.statistica@software.dell.com Document réalisé par la Société Corp Events - Janvier 2015 34 Retours d’expériences Big Data en entreprise DELTAMU - SANOFI-PASTEUR SANOFI-PASTEUR – N°1 MONDIAL DU VACCIN Dans le cadre de la qualité de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes. Compte tenu de l’exigence Qualité autour de ses vaccins, l’entreprise vérifie périodiquement ses micropipettes. Ces vérifications consistent en la réalisation de mesures de la masse de volumes d’eau pipetés. Ces masses, converties en volume à partir de la masse volumique de l’eau (et des conditions environnementales, température, pression et hygrométrie, de cette mesure), permettent de s’assurer que le volume prélevé est bien le volume souhaité. L’analyse des écarts entre « volume mesuré » et « volume prélevé » permet d’écarter les micropipettes qui n’ont pas la performance attendue. L’étude conduite par Delta Mu a permis de montrer que, contrairement aux idées initiales, les écarts observés étaient dus en grande majorité à la variation de pipetage des techniciens chargés de l’opération plutôt qu’aux micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant à un phénomène si la mesure (Dans cet exemple, et finalement, le technicien) n’est pas représentative de la grandeur qu’on croit mesurer (la micropipette) ! Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57 DELTAMU - TRAITEMENT THERMIQUE PME DANS LE DOMAINE DU TRAITEMENT THERMIQUE Spécialisée depuis plus de 20 ans dans le traitement thermique de pièces métalliques, la société mesure par échantillonnage la qualité de sa production. Les mesures sont réalisées sur les pièces, après traitement. Il s’agit de quantifier la dureté obtenue une fois réalisé le process de trempe. Ses principaux clients lui demandent de s’assurer de la capabilité de ses processus de mesure, cette exigence étant notamment inscrite au rang des exigences de la norme Qualité qui lui est imposée (FD ISO/TS 16949). Accompagnée par Delta Mu dans l’analyse des résultats obtenus, l’entreprise se rend (enfin) compte que ses mesures (qu’elle croyait fiables) dispersent 3 fois plus que le process qu’elle contrôle avec ! Ses mesures ne lui permettent finalement pas de voir réellement sa production … Note : L’étude de capabilité consiste à s’assurer, via un plan d’expérience spécifique, que l’incertitude de mesure (fiabilité) est compatible avec la dispersion du process à analyser. DELTA MU DANS LE BIG DATA Forte d’une compétence reconnue dans le domaine de l’évaluation de la qualité des mesures (fiabilité), Delta Mu intervient à différents niveaux : • Evaluation de la qualité des mesures, c’est à dire leur capacité à représenter le plus fidèlement possible la grandeur recherchée ; • Préconisations en vue de l’amélioration de la qualité des mesures (si nécessaire) ; • Préconisations quant au maintien de la qualité des mesures dans le temps ; • Préconisations quant à la robustesse des mesures en cas de changement de capteurs. Note : La robustesse se définit comme étant l’insensibilité d’une mesure à une cause d’incertitude. La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de préconisations, développement de briques « logiciel » spécifiques, formation, … Document réalisé par la Société Corp Events - Janvier 2015 35 Retours d’expériences Big Data en entreprise HP - AT&T AT&T LEVERAGES HP VERTICA ANALYTICS PLATFORM TO CHANGE THE ECONOMICS OF PROVIDING ACTIONABLE INSIGHTS TO DECISION MAKERS OVERVIEW AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&T’s expectations and is providing company decision makers with actionable insights into areas such as customer and network use patterns. John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the HP Vertica Analytics Platform after concluding that “we needed a platform that supported the columnar database technology required by critical workloads.” This conclusion reflected the increasingly prominent position of Big Data analytics at AT&T and the potential value the company sees in it. Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&T’s lines of business (LOBs). Above all, his internal LOB clients demand a robust analytics platform that can run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform. With HP Vertica, Yovanovich’s team provides superior outputs at a much lower cost, so business teams are bringing many more projects to his team. Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less time and can run more complex queries and analyses. As such, they have more actionable information in their hands sooner, which helps them craft improved business strategies and make better decisions. This results in improved services for AT&T’s customers, improved customer relationships, and operational efficiencies. Meanwhile, Yovanovich’s team has benefited from the speed with which HP Vertica runs queries and its ease of use; he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more productive since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially. Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of $63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy platform’s capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months. IMPLEMENTATION AT&T’s Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the company’s Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages. As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&T’s home and business solutions product and service lines. The foundation of AT&T’s Big Data strategy is to feed this huge amount of information — more than 100 million files an hour flow from AT&T cellular towers alone — into shared relational databases and then move this data into the data warehouse via the Hadoop open source software framework for analysis driven by analytics platforms. Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limitations with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business. It had discovered that it could not economically run many of the complex data queries and analyses requested by its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented analytics platform with columnar-based analytics technology to enable it to handle more complex queries and handle queries more efficiently. AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out on top in both performance and cost. “No one came close to HP Vertica on price,” Yovanovich said. “We also liked the fact that they are a market leader in columnar database technology with a proven track record among largevolume customers like us.” Document réalisé par la Société Corp Events - Janvier 2015 36 Retours d’expériences Big Data en entreprise AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was initially provided for 15 employees and has since continued. “HP Vertica performed well out of the box,” Yovanovich said. “It has exceeded my expectations. It’s quicker, so we spend less time on design. Also, we’re able to spend more time on development to make sure we put out the best-performing product possible.” In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percentage of AT&T’s data warehousing operations over the next four years, fueled by new projects, mergers and acquisitions, and organic growth. BENEFITS HP Vertica has changed the economics of using Big Data analytics for AT&T’s LOBs while minimizing the likelihood that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As a result, AT&T’s data analytics team can now provide more actionable data, and Big Data analytics has become an important component of the company’s growth plans. Yovanovich described a number of ways in which AT&T’s strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: “We’re enabling our marketing team to create significant customer insights with HP Vertica based on data records that they never could before.” This results in personalized customer marketing efforts because “we can determine which messages and ads to present to a customer based on the customer’s profile and use history.” Strategic business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make important decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its cellular network infrastructure. This analysis, which took 17 hours to complete on AT&T’s legacy analytics engine, takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses more often and provide its strategic decision makers with actionable data and insights into how its network is being used on a more regular, timely basis. The speed with which HP Vertica can run queries and analyses means that users get results faster and can better integrate them into their decision-making processes. AT&T is also leveraging HP Vertica’s improved compression capabilities — 6:1 rather than 2.5:1 with the legacy system — to double the retention time of data for analytics use from three months to six months. Yovanovich said that this improves the quality of queries and analyses by providing more complete insights based on a longer history. He said, “My goal is to retain 13 months of data, and I expect to do this within a year or so, which would give us full seasonality.” In addition to having a positive impact on AT&T’s lines of business, HP Vertica has altered the economics of Big Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&T’s legacy analytics platform costs. This means that Yovanovich’s team can offer the win-win proposition of improved analytics outputs at a much lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support more projects with analytical queries and data. For Yovanovich, the result is straightforward: “We save our lines of business so much money on capital with HP Vertica that they give us more projects.” AT&T’s data analytics team handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): “Take the source data, load it onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because you don’t need to get it ready to put on the platform.” This allows his team to more accurately track any errant code and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica because “we spend less time with system requirements and development to transform data into an appropriate model that our internal end users want to see.” HP Vertica has also helped AT&T achieve other cost savings related to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica, AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant expenses associated with buying more space on the system. QUANTIFYING THE BENEFITS Based on interviews with Yovanovich about AT&T’s use of the HP Vertica Analytics Platform, IDC has quantified the benefits the company is realizing from its to-date deployment of 570TB. When projected over five years, the benefits from improved data analytical operations, cost reductions, and increased data warehousing team productivity averaged $17.81 million per year. BUSINESS PRODUCTIVITY BENEFITS/IT INFRASTRUCTURE COST REDUCTIONS The HP Vertica Analytics Platform has allowed AT&T’s lines of business to make analytics a more central part of their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the legacy row-based analytics solution while also taking into account employee time costs associated with making this transition. IDC calculates the value to AT&T’s business teams at an average of $16.53 million per year over five years. In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run more queries and analysis and being able to run more robust queries. This translates into productivity gains for business team end users as well as higher revenue for AT&T through the development of more powerful applications and enhanced strategic decision making, although these benefits have not been quantified separately for the purposes of this study. Document réalisé par la Société Corp Events - Janvier 2015 37 Retours d’expériences Big Data en entreprise IT STAFF PRODUCTIVITY BENEFITS AT&T’s team dedicated to supporting data analytical operations has also become more efficient and productive since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor intensive. This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system requirements and development to transform data into deliverables that serve end users. In addition to benefiting end users by shortening the overall query process, it also means that the data analysis support team spends less time on each query or request. As a result, the teams supporting AT&T’s data analysis efforts have been able to cope with higher demand for their services based on the lower price point for queries run with HP Vertica without a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred employees supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year over five years in increased efficiency and higher productivity for these team members. RETURN ON INVESTMENT IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months. IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the HP Vertica Analytics Platform and created an ROI analysis from the results. IDC calculates the ROI and payback period in a three-step process: 1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment. 2. Ascertain the total investment. 3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the five-year net present value of the benefit divided by the discounted investment. To account for the time value of money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow. IDC ExpertROI® SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014 HP - BLABLACAR HP AIDE BLABLACAR À AMÉLIORER SON EXPÉRIENCE CLIENT La plateforme communautaire renforce l’efficacité de ses campagnes marketing en exploitant la puissance des analyses de données Big Data avec HP Vertica BlaBlaCar, la place de marché communautaire en ligne qui met en relation des conducteurs disposant de places dans leur véhicule avec des passagers à la recherche d’un trajet en voiture a amélioré la fidélisation de ses clients et l’efficacité de ses campagnes marketing en réalisant des analyses Big Data avec HP Vertica. BlaBlaCar, la startup innovante et performante dont le siège est situé à Paris, et dont les équipes sont réparties à Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a créé un modèle de réseau social de transport entièrement nouveau. Avec son site web et sa plateforme mobile sophistiqués, un centre de service client dédié et une communauté d’utilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coûteux, plus convivial et plus pratique pour plus de 10 millions de membres répartis dans 12 pays. « BlaBlaCar connait un succès tel parmi les voyageurs européens, que nous transportons chaque mois plus de personnes que l’Eurostar, et que nous traversons une phase de croissance internationale rapide » déclare Gaëlle Periat, Manager Business Intelligence chez BlaBlaCar. « La Business Intelligence est au cœur de nos mécanismes de prise de décision. Nous avons choisi une approche centrée sur les données pour améliorer l’efficacité de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP Vertica nous aide à exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes de Gestion de la Relation Client et améliorer le confort d’utilisation de nos services pour nos clients. » Le logiciel HP Vertica, installé sur un cluster Hadoop Cloudera, fournit à BlaBlaCar une plate-forme d’analyse Big Data en temps réel. Conçue pour supporter des charges de travail intensives, elle délivre des performances de requêtes SQL ad hoc qui ont décuplé l’efficacité des campagnes marketing en permettant la manipulation et l’analyse des données à une fréquence plus élevée, à un niveau de granularité plus fin et à partir de plusieurs points d’accès. Dans le futur, HP Vertica permettra à BlaBlaCar d’affiner encore davantage ses activités marketing en intégrant Document réalisé par la Société Corp Events - Janvier 2015 38 Retours d’expériences Big Data en entreprise des informations provenant des réseaux sociaux, et en prédisant le comportement de ses clients grâce à des mécanismes de reconnaissance des tendances. Supervisé depuis une machine virtuelle sous Debian 6, le cluster distribué Hadoop est composé de deux machines équipées de HP Vertica, d’une machine tournant le logiciel Tableau pour l’exploration et la visualisation des données, et d’une machine équipée du logiciel Data Science Studio de Dataiku. Cette structure permet à BlaBlaCar de donner une autonomie informatique complète à ses équipes d’analyses de données et de garantir des temps de traitement très courts. « Pour répondre à leurs défis en termes de marketing, des entreprises comme BlaBlaCar ont besoin d’analyser des volumes massifs de données – structurées, semi-structurées et non-structurées – à des vitesses jamais atteintes » déclare Florence Laget, Directrice de l’activité Big Data chez HP France. « La plateforme analytique HP Vertica a été conçue pour offrir rapidité, évolutivité, simplicité et ouverture, et architecturée pour effectuer des traitements analytiques de 50 à 1000 fois plus rapides qu’avec les solutions de DataWarehouse traditionnelles. » HP - METROPOLITAN POLICE DE LONDRES LA METROPOLITAN POLICE DE LONDRES UTILISE LES MÉDIAS SOCIAUX POUR MOBILISER LA COMMUNAUTÉ LOCALE. Les solutions HP Autonomy permettent à la principale police britannique de mieux impliquer la population et de répondre à des événements locaux. Conscient des lacunes dans le suivi et l’utilisation des médias sociaux, le Metropolitan Police Service (MPS) a démarré avec HP pendant l’été des Jeux olympiques de Londres le déploiement d’outils d’analyses des médias sociaux. Le résultat est un engagement plus efficace de la communauté, un signalement anticipé des problèmes, et une analyse plus précise des sentiments sur les médias sociaux. Ces résultats ont bénéficié aux opérations de police, y compris les renseignements et les enquêtes criminelles. Le Metropolitan Police Service (MPS) est la force policière la plus importante du Royaume-Uni, avec 31 000 agents et plus de 10 000 employés de support. Il couvre une population de 7,2 millions d’ habitants et des événements publics majeurs du Royaume-Uni. À l’été 2012, le MPS a supervisé les Jeux Olympiques de Londres et les Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a nécessité un niveau de maintien de l’ordre sans précédent. Conscient des missions du MPS et ses projets sur les médias sociaux à long terme, HP Autonomy a proposé un essai pour aider à mieux comprendre et à utiliser l’analyse des médias sociaux (SMA) pour l’engagement communautaire. HP est un fournisseur important pour la police au Royaume-Uni, fournissant des éléments clés de son infrastructure informatique. Le déploiement test s’est déroulé de juillet à septembre dans deux arrondissements de Londres, Haringey et Hammersmith & Fulham. Il a aidé le MPS à élaborer une stratégie à long terme pour les médias sociaux et a donné un aperçu sur la façon dont les médias sociaux peuvent être utilisés pour faire progresser l’engagement de la communauté, la collecte de renseignements et les enquêtes criminelles. Rapide à mettre en œuvre, adaptable aisément, la solution HP Autonomy exploite la puissance de IDOL (Intelligent Data Operating Layer) pour comprendre automatiquement les concepts exprimés dans les tweets, les articles de presse et les blogs. IDOL est capable d’identifier les tendances, les thèmes et les sujets connexes, naviguant automatiquement dans la masse des données. Cela offre une compréhension en temps réel de ce qui capte l’attention du public. Pour le MPS, il a produit des rapports sur des thèmes, des tendances et mots à la mode, consolidés sur un tableau de bord unique, personnalisable pour chaque utilisateur. RÉSOUDRE LE PROBLÈME DE «L’ AIGUILLE DANS LA BOTTE DE FOIN » Le test a été rapidement considéré comme un succès, et a été poursuivi jusqu’en novembre. L’impact le plus évident était que la solution HP autonomy a pu faire face aux grands volumes de données non structurées générées. En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Août, avec un pic de 3 291 998 le jour de la cérémonie d’ouverture des Jeux Olympiques. De ce déluge d’informations, MPS a été en mesure de déterminer de nouveaux influenceurs de la communauté et de recueillir un premier aperçu des questions pertinentes. Il a permis de générer des évaluations de l’impact communautaire beaucoup plus rapidement et avec plus de crédibilité. L’essai a également apporté une contribution importante aux opérations en cours en permettant à MPS : • Identifier une connexion entre deux sources de renseignement qui n’étaient pas identifiées jusqu’alors • Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de précision que par des moyens traditionnels Document réalisé par la Société Corp Events - Janvier 2015 39 Retours d’expériences Big Data en entreprise • assurer une réponse opérationnelle proportionnée et appropriée à des événements communautaires très sensibles • Identifier plusieurs inconnus témoins d’un coup de couteau mortel • Transférer des tweets concernant des événements de la communauté et répondre à des tweets erronés • Aider à construire un glossaire des termes à utiliser pour des recherches croisées de mots-clés En synthèse, la solution a pu fournir une analyse précise sur une base en temps quasi réel par rapport à avant, où les données n’étaient disponibles que 24 heures après. • Vitesse de compréhension et de sensibilisation opérationnelle • Précision de l’évaluation menant à des décisions opérationnelles mieux informées • Facilité d’accès et d’évaluation de l’humeur du public et de l’opinion • Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps à l’analyste de mieux se concentrer sur les priorités • Capacité à prendre des décisions plus éclairées à tous les niveaux, des opérations au commandement Document réalisé par la Société Corp Events - Janvier 2015 40 Retours d’expériences Big Data en entreprise INFORMATICA - WESTERN UNION GRÂCE À LA TECHNOLOGIE INFORMATICA, WESTERN UNION PROFITE PLEINEMENT DE TOUT LE POTENTIEL DE SES DONNÉES POUR PROPOSER UNE EXPÉRIENCE CLIENT EXCEPTIONNELLE Le leader mondial des paiements lance une initiative de transformation opérationnelle et optimise l’expérience client grâce à la solution PowerCenter Big Data Edition Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA), premier fournisseur indépendant de logiciels d’intégration de données, dans le cadre de son projet d’intégration de données. En investissant dans la solution PowerCenter Big Data Edition d’Informatica pour Hadoop, Western Union pourra désormais fédérer les données structurées et non-structurées issues de multiples sources – mainframe, bases de données disparates et fichiers de logs – et les adapter à des fins de traitement sur Hadoop, quelle que soit la latence, en temps réel ou sur une base journalière. L’ambition de Western Union est d’optimiser le traitement intelligent de ses données de façon à perfectionner ses offres de services numériques, maximiser la satisfaction client et renforcer la fidélisation des utilisateurs à la marque sur l’ensemble de ses opérations mondiales. En effet, la société dispose d’un volume colossal d’informations qui transite au sein de son infrastructure. Rien qu’en 2013, à travers le monde, 242 millions de transactions de particulier à particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde, ont été réalisées. Grâce à l’intégration et à l’analyse de ces données transactionnelles, la société va désormais bénéficier de multiples atouts : • Identification des tendances en matière d’envoi et de réception de fonds afin d’améliorer davantage l’expérience client • Suivi minutieux de l’évolution des transferts de fonds pour mieux planifier les stratégies d’expansion, • et identification des opportunités, afin de proposer à l’utilisateur une expérience intégrée sur de multiples canaux, notamment Internet, téléphone, boutiques et terminal mobile. « L’ensemble de nos opérations met au centre de nos préoccupation nos clients. Western Union dispose d›une opportunité unique d’exploiter au mieux le potentiel de l›analyse des données collectées à travers les nombreuses transactions. L›objectif est d›identifier des tendances nous permettant de mieux définir notre stratégie opérationnelle et, à terme, d’améliorer la satisfaction de notre clientèle. Nous nous réjouissons de la décision de poursuivre notre collaboration avec Informatica qui nous offrira la possibilité de maximiser le potentiel mondial de notre entreprise et de notre base clientèle. » explique Sanjay Saraf, senior vice president and chief technology officer chez Western Union. LES SOLUTIONS INFORMATICA DÉCLOISONNENT LES SILOS DE DONNÉES La disponibilité immédiate de la version développeur d’ Informatica PowerCenter a joué un rôle crucial dans la mobilisation d’un personnel dédié à ce projet. L’ensemble des versions de la solution Informatica PowerCenter reposent sur Informatica Vibe, la toute première et seule machine de données virtuelle embarquable. Même en l’absence de compétences Hadoop spécifiques, les développeurs œuvrant sur PowerCenter bénéficient d’une vélocité de développement cinq fois supérieure sur cet environnement Hadoop, qui est celui de Western Union. Par ailleurs, Western Union sera à même d’effectuer de manière efficace les opérations d’intégration des données au fur et à mesure des évolutions technologiques, sans devoir adapter les flux de traitement des données. « Western Union incarne cette ambition de dimension mondiale qui donne à la notion de ‘ service ‘ toute sa portée. Comme dans bon nombre de sociétés, les données revêtent, pour Western Union, un caractère fondamental. Elles sont indispensables à la réalisation de ses objectifs. Etre à l’écoute des besoins de sa clientèle, lui assurer une expérience homogène quel que soit le canal utilisé, optimiser les opérations et poursuivre ses innovations constituent aujourd’hui les clés du succès sur ce marché très dynamique. Informatica apporte à Western Union des solutions pour exploiter ses données, grâce à l›automatisation de l’intégration et de la saisies des données avant traitement et analyses. » conclut Ash Kulkarni, senior vice president et general manager, Data Integration, Informatica A PROPOS DE WESTERN UNION La société Western Union (NYSE : WU) est un leader dans les services de paiement à travers le monde. Avec ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de l’argent partout dans le monde, pour réaliser des paiements et passer des ordres de paiement. Au 31 décembre 2013, les services Western Union, Vigo et Orlandi Valuta étaient disponibles dans un réseau de plus de 500 000 points de vente répartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de billets. En 2013, Western Union a réalisé 242 millions de transactions de particulier à particulier à travers le monde, transférant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels. Pour plus d’informations sur Western Union : www.westernunion.com Document réalisé par la Société Corp Events - Janvier 2015 41 Retours d’expériences Big Data en entreprise À PROPOS D›INFORMATICA Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d’intégration de données. Les entreprises du monde entier font confiance à Informatica pour exploiter le potentiel de leurs informations et répondre à leurs principaux impératifs métiers. Informatica Vibe, la première et la seule machine de données virtuelle embarquable du marché, supporte les fonctionnalités exclusives de mapping unique pour déploiement universel (« Map Once. Deploy Anywhere. ») de la plate-forme Informatica. Plus de 5 000 entreprises dans le monde s’appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d’informations issues des périphériques, des réseaux mobiles et des Big Data, hébergées sur site, dans le Cloud et sur les réseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr. Vous pouvez également contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www. linkedin.com/company/informatica et http://twitter.com/InformaticaFr. Document réalisé par la Société Corp Events - Janvier 2015 42 Retours d’expériences Big Data en entreprise MAPR - ANCESTRY.COM ANCESTRY.COM RELIES ON THE HIGH AVAILABILITY OF MAPR TO RUN THEIR DNA PIPELINE CONSTANTLY, WITH NO INTERRUPTIONS THE BUSINESS Ancestry.com, the world’s largest online family history resource, uses machine learning and several other statistical techniques to provide services such as ancestry information and DNA sequencing to its users. THE CHALLENGE According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are part of a 10-petabyte (or 10-million gigabyte) data store. If you’re searching for “John Smith,” he explained, it will likely yield results for about 80 million “Smith” results and about 4 million results for “John Smith,” but you’re only interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience. These include: • With more than 30,000 record collections in their data store including birth, death, census, military and immigration records, they mine this data using patterns in search behavior to speak to their more than 2 million subscribers or tens of mil- lions of registered users in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican census data. • They mine their data to provide product development direction to the product team. Analyzing search behavior can show where a subscriber might be stuck or where they leave the service and therefore where new content could be created. • They rely on big data stores to develop new statistical approaches to algorithmic development, such as record linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry. com hints derived from strategically linked records and past search behavior (e.g., Charles ‘Westman’ is the same person as Charles ‘Westmont’). Two years ago, the majority of discoveries were based on user-initiated search. • Advanced data forensics is used to mine data for security purposes to ensure ap- propriate use of their information. • DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a tube, send the package to Ancestry.com, and then mo- lecular tests and computational analyses are performed to predict a person’s ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000 SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions for users to-date. MAPR SOLUTION A portion of Ancestry.com’s data is processed on three clusters using MapR as the Hadoop distribution. One cluster is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining. Massive distributed parallel pro- cessing is required to mine through 10 petabytes of data and the large quantities of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so high availability is very important. MapR’s high availability JobTracker enabled the company to run different tasks on the same cluster. They have also been pleased with MapR’s service and support, and the ability to quickly get everything up and running with the graphical user interface and client configuration. Document réalisé par la Société Corp Events - Janvier 2015 43 Retours d’expériences Big Data en entreprise MAPR - COMSCORE COMSCORE RELIABLY PROCESSES OVER 1.7 TRILLION INTERNET & MOBILE EVENTS EVERY MONTH ON MAPR THE BUSINESS comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence. comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertis- ing, search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and trading strategies. c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every hour, day, week, month and quarter, and once they’re done, data is nor- malized against the comScore URL data dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and analysts generate reports from this data; these reports enable comScore clients to gain behavioral insights into their mobile and online customer base. HADOOP REQUIREMENTS The comScore engineering team processes a wide variety of Hadoop work- loads and requires a Hadoop distribution that excels across multiple areas: Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity, deliver insights faster, and also needs to produce more with less to minimize costs. Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster grows in size. Scalability : comScore’s Hadoop cluster has grown to process over 1.7 trillion events a month from across the world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Consequently, comScore needs a Hadoop platform that will enable them to maintain per- formance, ease of use and business continuity as they continue to scale. Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive. BENEFITS MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance, availability, scalability, ease of use, and significant cost savings over other distributions. Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Hadoop distri-butions and requires substantially less hardware than other distributions. Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker HA. Rolling upgrades are also now possible with MapR. Scalability With architectural changes made possible by it’s no NameNode archi- tecture, MapR creates more files faster, processes more data faster, and produces better streaming and random I/O results than other distributions. comScore now runs more than 20,000 jobs each day on its production MapR cluster. Ease of Use : comScore’s Vice President of Engineering, Will Duckworth said, “With MapR, things that should just work, just work.” This means there is a lot less for comScore to manage with MapR. One of the advantages that Duckworth cites is that everything is a data node. This configuration re- sults in much better hardware utilization from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster. Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns. This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting in a 10x increase in computation speed. “The specific features of MapR, such as volumes, mirroring and snapshots, have allowed us to iterate much faster,” said Michael Brown, CTO of comScore. ABOUT MAPR MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and worldrecord speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform. MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing, telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies. Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Venture Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA. Connect with MapR on Facebook, LinkedIn, and Twitter. Document réalisé par la Société Corp Events - Janvier 2015 44 Retours d’expériences Big Data en entreprise MARKLOGIC - DE GRUYTER 21ST CENTURY PUBLISHING EUROPEAN PUBLISHER TAKES UP TO TEN SYSTEMS OFFLINE WITH A SINGLE MARKLOGIC BUILT CUSTOMER-FACING APPLICATION COMPANY OVERVIEW Academic publishing is a long-standing and venerable industry—and De Gruyter is among the most established. Since 1749, this European publisher has been producing and distributing English and German content, focusing primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400 books per year—in addition to journals, reference materials, and databases—De Gruyter’s compiled catalog exceeds 65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike other industries, De Gruyter’s customers are not usually the end users: they sell to university libraries and other academic institutions, and it’s the scientists and educators at those universities who actually use the materials. CHALLENGES For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing demand for digital access. This industry-wide shift has forced De Gruyter to reassess—and redefine—their business. “With this change in content output, we’re not really a traditional publisher anymore,” Christian Kohl, Director of Information & Publishing Technology, explains. “We’re becoming more of a service provider, and also a hosting platform.” And customers’ needs are changing—both in terms of format and timeframe. As Kohl points out, they want more granular access to content, and they want it faster. “Purchasing is shifting from ‘just in case’ to ‘just in time’. We can’t afford to have a production time of several years. It needs to be quick, custom, and flexible.” Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different types of content and business models, they’ve relied on a variety of legacy databases, websites, and online platforms. Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them from moving forward with new innovations. The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. “We needed a new, consolidated platform that would bring increased flexibility, lower costs, and more automation,” Kohl says. THE SOLUTION Kohl and his team began searching for a solution that would support all of their various data types and adapt to constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with their limited budget, they needed a turnkey solution that wouldn’t require third-party technologies. In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one customer-facing application. The new platform would combine all of the existing systems on top of a MarkLogic database and search engine. Using an agile development approach, they were able to implement new iterations for key features. Just a little over a year later, the new platform was launched. WHY MARKLOGIC? Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or changes. With Marklogic ever-increasing requests can be met in a matter of days—or even hours. This has also enabled the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Database products and reference works used to take a year to develop and deploy. Now, it’s a matter of days or weeks. Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP system - which houses metadata, catalogs, pricing, and other information—directly into MarkLogic. The new platform also hooks into the company’s CMS and MAM systems, streamlining the flow of content. Streamlined acquisition process: Historically, acquiring more providers and content was a very painful process, particularly for the IT department. With the new platform, De Gruyter can ramp up data volume without impacting performance. Reduced Costs: With MarkLogic’s more simplistic structure, there is no longer a need to map between the SQL database and the application layer—which translates to lower maintenance costs. And by eliminating much of its hardware requirements, De Gruyter has cut its hosting costs in half. Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldn’t require a third-party tool—and MarkLogic delivered. “There’s no need to integrate with the SQL server,” Kohl says. “MarkLogic’s search is already powerful enough.” Document réalisé par la Société Corp Events - Janvier 2015 45 Retours d’expériences Big Data en entreprise MARKLOGIC - ELSEVIER UNLOCKING THE VALUE OF CONTENT AT ELSEVIER INTEGRATING CONTENT TO ENABLE THE RAPID DEVELOPMENT AND DELIVERY OF NEW INFORMATION PRODUCTS. INDUSTRY OVERVIEW The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving critical activities within companies, it also provides many of their content- based services to customers. Yet this exploding volume of content, typically comprising 85% of an enterprise’s information, is fundamentally dif- ferent from the structured data that relational database technology was created to deal with. A cornerstone in most enterprises, relational data- bases function by structuring data and applications into tables. They cannot readily accommodate the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, messages, HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and realize more value from digital content are stymied, since the applications needed to deliver added value to customers are difficult and expensive to create. These issues have had even more impact in the publishing industry, where content is a company’s greatest asset. And for Elsevier, a leading publisher and information provider for medical, academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues to enlarge, a digital content repository unsurpassed in its market. Yet despite Elsevier’s significant investments in search technology, their users found it increasingly time-consuming to extract the information they needed from this mountain of data. Elsevier was unable to quickly create applica- tions that would make extracting content faster and easier...until Mark Logic demonstrated a prod- uct that could rapidly ingest enormous volumes of content, and then execute complex, fine-grained queries against it with lightning speed. ELSEVIER’S CHALLENGE Reconciling the need for relevancy with the necessity for volume. One of the world’s leading publishers, Elsevier prides itself on supplying customers with the information they need to conduct research, perform experiments, aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content, amassing vast repositories of medical and scientific information, and making it available via a range of online database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have little time to locate the data most relevant to their work. “If a doctor is at the point of care or a scientist is working in the lab on an experiment, they don’t have time to go searching through 10 or 20 possible sources.” Yet as more content amassed, its sheer volume meant customers were spending more time refining searches to winnow out the content most relevant to their needs. Elsevier’s greatest asset was growing more difficult to deliver with the level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service Elsevier wished to supply. “We wanted to help customers solve the problems they face in their particu- lar setting... By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly combine them, Elsevier can provide maxi- mum value per use of content.” To achieve its objective for increased customer satis- faction, Elsevier set two goals: quickly transform the content rigidly held in its many separate databases into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common platform for developing future products. But facing Elsevier were four formidable challenges: 1. Lack of central repository. Each body of content existed in a separate database – either in a relational database format or a proprietary one – with several ap- plications on each database. 2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project alone, there were 35 different document formats involved. 3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to deconstruct a document and analyze relationships between documents had to be built application-by-application. Moreover, from a performance perspective, forcing this logic into an application was inefficient, compared to lev- eraging a specialized content server that can efficiently retrieve large amounts of information. 4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included: More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (separate from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets. Document réalisé par la Société Corp Events - Janvier 2015 46 Retours d’expériences Big Data en entreprise DEFINING REQUIREMENTS Preparing the way. In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors fast and put it online even faster. Equally signifi- cant, Elsevier recognized that to give users exactly the information they wanted, any new solutions must have the power to dynamically assemble relevant information from across multiple sources. Recognizing the poten- tial of tagged search elements, Elsevier started in the year 2000 to redesign products along Web services architecture. Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed relevant information deep within docu- ments to be parsed and reassembled into new content. Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus would be required for all searches – enabling the deconstruction and synthesis of documents into con- text- specific results. This eliminated the deployment of traditional relational database systems, whose concepts and data models were conceived in an era of short, highly- structured records of data, and not the unpredictable and timevarying structure found in content. Instead, the new solution would need to: • Exploit the wide variety of unstructured content, rather than be constrained by it. • Eliminate format and content-prejudiced conditions for standardization of information. • Function without a single, standard, pre-defined schema, and indeed in the presence of many different and changing schemas • Achieve performance without sacrificing relevance. Both the user interface and the returned results had to operate quickly and efficiently, and to deliver the right pieces of information at the right time. Roadblocks to rapid product development When developing new products, Elsevier had to confront: • Difficulty in leveraging and synthesizing information from docu- ments held among a wide range of different databases and the applications on each. • Lack of a “content common denominator” for normalizing informa- tion within applications or databases. • Risk of poor ROI due to long and expensive implementation of new functionality and applications. • A mountain of disparate content with no existing unifying solution PUTTING MARK LOGIC TO THE TEST Transforming a mountain of documents into a single, searchable contentbase. By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings of relational database technology still tied the company down to long, expensive product develop- ment cycles and less than optimal performance. To get reasonable content performance from their database management systems they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content ingestion and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market and add greater value to their content they found what looked like a per-fect way to leverage their significant investment in XML: MarkLogic Server. “We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on Elsevier’s vision,” recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. “Our promise was simple. Hand us any amount of data, as is, from your archives. We’ll hand you back an entirely new application based on that content.” And as Pedersen further described to Elsevier, “The system lets you reach across large content sets, extract exactly the information that you need, and then present it as a new document that was created automatically.” Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic could deliver a competitive product in, they made it a demanding one. According to Pedersen, “...Their team handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didn’t even provide the DTDs,” he recalls. “They just said ‘Go.’ So we did, and in about a week we came back to them with a fully functional application.” Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible than anything Elsevier had online at the time. This ac- complishment was all the more remarkable considering that the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats – a flexibility matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applications, and create value-added services from its repository. As Marques affirms, “MarkLogic Server will be a core of all our major electronic products going forward, since it allows us to even better serve our customers and users.” BENEFITS OF THE MARKLOGIC SERVER Putting content in its place, fast. From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to hasten the deployment of new, more competitive online products. They are now consolidating all of their content archives, rapidly bringing new applications to market and enhancing existing applications with value-added functionality that makes every last byte of content available to users in the most relevant way. Combining the power of database-style queries against content, with the speed and scalability of search engines, Document réalisé par la Société Corp Events - Janvier 2015 47 Retours d’expériences Big Data en entreprise MarkLogic Server repurposes content on-the-fly, combining information into new content for users seek- ing answers to different questions involving the same subject matter – literally creating new content from old and adding value in the process. Massively scalable in both storage and performance, it can manage millions of documents and terabytes of content – with no degrada- tion in executing queries and updates. A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling: • Consolidation of content archives. MarkLogic inte- grates content from many sources into a single reposi- tory, then creates new content by summarizing informa- tion across various content categories. • High-performance XQuery implementation. A com- plete XQuery implementation delivers high performance against multi-terabyte datasets, thanks to MarkLogic’s search-engine-style indexing mechanisms. • Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type definitions (DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it. • Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside docu- ments to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within the context in which they’re working. • Extreme flexibility. MarkLogic accepts content “as is” from many sources, eliminating the lengthy process of preparing content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon the flexibility of the technology to evolve applica- tions over time. A SINGLE SOLUTION TO MANY BOTTLENECKS With Mark Logic, Elsevier has achieved: • Consolidation of all content archives into one centralized repository. • A high performance platform for multi-terabyte contentbases. • Higher efficiency through centralized storage of content and indexing. • Element-level search granularity for users. • Preparation-free content loading. • Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation. • Just-in-time delivery of information that is precisely tailored to users’ needs, within the context they’re working in and in the form they need. BENEFITS TO ELSEVIER’S CUSTOMERS The results. The power of a database, the speed and flexibility of word and phrase search functionality, the ability to de- liver it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new, more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times faster than before. For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build directly on the inherent variability of dif- ferent types of content – slashing time to availability by two-thirds. And, says David Marques, the ultimate benefit to users is fantastic granularity: “...When a user has a question, we want to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs so we deliver just the right bit of content the user needs.” But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of pride in their technical accomplishment. As Marques explains, by enabling researchers and medical profes- sionals to find fast answers to urgent questions, they also help improve treatments and outcomes for patients: “Medical reference books are invaluable resources for making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant passages from across a range of different books, in order to reach an informed diagnosis.” And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated the deployment of products and services, while greatly reducing the costs of content loading and design – translating into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping professionals find exactly the information they need, when they need it most. Document réalisé par la Société Corp Events - Janvier 2015 48 Retours d’expériences Big Data en entreprise MARKLOGIC - HEALTHCARE.GOV MARKLOGIC PROVIDES ACCESS TO HEALTHCARE INSURANCE FOR MILLIONS OF AMERICANS MORE THAN EIGHT MILLION APPLICATIONS PROCESSED ON HEALTHCARE.GOV OVERVIEW Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services (HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology platform capable of enrolling millions of Americans in new healthcare plans. CMS’s driving vision was to enable better access to healthcare for all Americans through smart and efficient tools and systems that would also help reduce costs. CHALLENGES CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources, and provide a way for state health exchanges to connect. This was the first time the US government would tackle an IT project of this kind. CMS had to overcome some daunting challenges: Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013. Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consistency, reliability, disaster recovery, security, and auditing capabilities required for the federal government. Multiple data sources. The system would need to take in a vast array of data from states, health plan providers, and government entities to evaluate applicants’ eligibility status, including the Department of Homeland Security; the Internal Revenue Service; the Social Security Administration; and Veterans Affairs. An unknown data specification. As with most large-scale implementations, when development started, the data specification was not yet determined. There were numerous changing factors driven by insurance providers and participating states. The database needed to be able to handle constant change and a schema that could evolve. Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions (the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity hardware, to meet any level of demand. THE SOLUTION CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility required to meet an 18-month timeframe from software procurement to launch. The teams working on this initiative realized the effort to complete this project would take too long using a traditional relational database. MarkLogic’s schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are included and as policies or regulations change, to help meet tight deadlines. MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultaneously offering ACID-compliant transactions. WHY MARKLOGIC? Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less than 5 months after the website launched, MarkLogic supported 5,500+ transactions per second (TPS-backend transactions to database) to help over 8 million people sign up for health insurance. Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1 seconds, without any data loss or data inconsistencies. A seamless online shopping experience for Healthcare.gov users. MarkLogic’s schema- agnostic data model provided CMS the ability to manage and integrate data “as is” so data from multiple states, government agencies, health plan providers, and personal information from millions of Americans did not have to be recoded. This allowed the system to qualify Americans and provide them competitive healthcare coverage and options. Confidence to manage and integrate confidential user information. MarkLogic’s enterprise-grade NoSQL database platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database, such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL schema-agnostic document model that handled the heterogeneous and unstructured data. Document réalisé par la Société Corp Events - Janvier 2015 49 Retours d’expériences Big Data en entreprise MARKLOGIC - OXFORD UNIVERSITY PRESS SCALING THE CONTENT DELIVERY PROCESS: THE VIEW FROM OXFORD UNIVERSITY PRESS INTRODUCTION This case study chronicles one organization’s focus on streamlining its publishing process to facilitate the creation and delivery of new products. With the growing use of the Web and other electronic sources for information discovery and access, organizations like Oxford University Press are being pressed to deliver content through multiple channels. They must also create products that are aimed at specific market segments, often utilizing multiple information sources. For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing platform and using XML for its content format enabled Oxford University Press to quickly produce new products in much less time and re-use work from previous projects. This company provides an excellent example of an organization that: • Continues to introduce new products targeted toward specialized market needs • Understands that content for its products can come from multiple information sources, possibly with different content structures, characteristics, and attributes • Recognizes the inefficiencies of building new workflows and systems for each content product • Realizes the value that an XML-based publishing platform can provide • Comprehends the importance of content aggregation and searching as core capabilities for building new products from the growing base of source information To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future needs, Oxford University Press developed an API (application programming interface) that would enable it to work with multiple development firms without major changes to the platform. Benefits are typically accrued across a range of projects, but Oxford experienced significant results with its very first project. COMPANY OVERVIEW Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England. Despite this early start, Oxford’s printing industry developed in a somewhat haphazard fashion over the next century. It consisted of a number of short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained a decree from the Star Chamber confirming its privilege to print books. This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled the University to print “all manner of books.” In 1896, Oxford University Press opened an office in New York that followed all of Oxford’s traditions of religious and academic publication. OUP USA is currently Oxford University Press’s second major publishing center (after Oxford), annually producing nearly 500 titles. Since 1896, OUP’s development has been rapid in all areas. Music, journals, and electronic publishing have been introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the largest university press in the world. The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This architecture and its resulting benefits would then spread out across Oxford University Press. BUSINESS DRIVERS Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American National Biography Online) required Oxford University Press to staff its own project team to create a new platform. Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to the next. This approach made sense while Oxford University Press was building flagship products like The Oxford Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a referencebased subscription product for the African American Studies market). This time, Oxford University Press wanted to produce a project in a way that would make it easier to handle similar projects in the future. Oxford University Press understood that this could be achieved with the creation of a publishing platform. The platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but scaleable enough to meet the needs of large and small projects. Document réalisé par la Société Corp Events - Janvier 2015 50 Retours d’expériences Big Data en entreprise CHALLENGES Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product implemented on it. While this added complexity to the project, the company believed that this approach would accomplish two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of the platform. Second and perhaps more importantly, the platform would have a real-world example against which to test itself. THE AFRICAN AMERICAN STUDIES CENTER’S REQUIREMENTS The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the online authority on the African American experience. To be the preeminent scholarly reference on African American studies, the AASC site needed to aggregate and publish a range of content and formats: • Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including Encyclopedia Africana (5 vol.) and Black Women in America (3 vol.) • Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed • Approximately 1,000 images at the product launch, with an ongoing image research program expected to add hundreds more images annually • 100 primary sources, including the Emancipation Proclamation, Frederick Douglass’s slave narratives, and text of speeches. Brief introductory essays accompany each primary source. • More than 200 charts, tables, and graphs representing demographic information in areas like history, government and politics, business and labor, education, law and crime, and the arts • Over 140 thematic maps illustrating demographics and history in a variety of areas • A general timeline of African American history, and specific thematic timelines • Learning center: Designed for the school market, this will be a growing area that aims to help users explore the content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides to match the curriculum The AASC needed to support two types of users with different expectations for finding information: • The primary users would be librarians, who are knowledge professionals. This class of users would demand complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard. • Secondary users would be students, who would want simple searching capabilities in the model of Google. PLATFORM REQUIREMENTS The two guiding principles for developing the platform, according to Alex Humphreys, OUP’s Director of Online Engineering, were “flexibility and scalability.” He goes on to say, “These two principles should each be realized in the areas of content creation and management, product development, and project management.” TABLE 1: PLATFORM REQUIREMENTS FLEXIBILITY SCALABILITY CONTENT OUP wanted a model where content could be created once, and then used in multiple products. At the same time, the plat- The platform could not place any constraints form could not define the content format. It on the volume of content that could be supwould need to use and integrate content in ported. a variety of formats, from different sources, and using different DTDs. PRODUCT For the platform to be successful, the investIt was critical that the platform did not dicment in features, hardware, and resource tate product features or capabilities. Intraining needed to be leveraged between stead, it needed to be extensible to support products. Each new product could not be a market-driven needs and requirements. one-off proposition. PROJECT The platform needed to provide multiple options for integration with other systems and capabilities. It needed to enable OUP to work with any number of different vendors, suiting the vendor selection to the specific needs of each new project. The platform needed to provide a foundation that would enable OUP to work on multiple projects simultaneously. This meant limiting its dependence on any one vendor by allowing multiple vendors to interact with the platform using a defined API. To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standardsbased, utilizing XML to the greatest extent possible. Document réalisé par la Société Corp Events - Janvier 2015 51 Retours d’expériences Big Data en entreprise STEPS TO SUCCESS In March 2005, Oxford University Press selected Mark Logic’s XML content server as the foundation technology upon which to build its new product platform. MarkLogic Server would provide three things: • A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As a database, it was specifically designed for the structured XML documents that constituted OUP’s content. • A powerful search engine that would enable customized searching on a per-product basis • The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based Interactive Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex requirements of the platform and the product. The design phases of both projects began in June 2005. Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety of paths into the product: • The core content from the main African American encyclopedias needed to be tagged into XML. • Other content was used from other products such as Oxford Reference Online and Grove Music Online; this content required very little work to incorporate. • Some content needed to be created specifically for the site. This set included articles and features as well as certain metadata regarding the rest of the content on the site. By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content created and detailed plans for the remaining elements. With this, the development phase with IFactory began. The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was launched in late April, in time to market it for the summer academic library season. The teams responsible for the project consisted of a core group of four people from OUP and an additional four from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it. In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven months. The schedule was aggressive, but ultimately successful. Figure 1: Publishing Platform and AASC Project Timeline IMPACT OF THE RESULTS The product implemented on the platform looks similar to existing projects that were done the old way. This is a testament to the fact that OUP met its goal of not having the platform limit the product’s design or functionality. The first reviews of AASC have been extraordinarily positive. The impact of the platform will be felt more significantly on future projects. For one thing, the new project team now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the time taken to develop new products could drop from 10 – 12 months to 4 – 6 months. Document réalisé par la Société Corp Events - Janvier 2015 52 Retours d’expériences Big Data en entreprise Figure 2: Example from the Oxford African American Studies Center Site Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University Press is also likely to see: • More efficient utilization of technical staff, all trained on and fluent in one platform • The ability to introduce new types of functionality and content in new and existing products, and the ability to combine various content types in ways that were once impossible • Reduced hardware costs through shared servers and better utilization of resources • The ability to add delivery channels such as print or even mobile • Flexibility in choosing third-party vendors to develop new sites As long as it is similar to an existing project—meaning that the content is of a similar structure (DTD) and that the functionalities of the Web sites are similar—a new project can be replicated fairly quickly. That is not to say that additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project: • New types of content, specifically each new DTD “learned” by the platform. Alex Humphreys, Oxford’s Director of Online Engineering, noted that “when and if lexical content is added, the platform would need to be taught how to handle it.” • New functionality, such as the ability to print to PDF or wiki-based interactivity • The need for a new implementation vendor to implement a project. “We understand that there will be a learning curve, and therefore additional costs, when each new vendor implements a product using our platform’s API,” states Humphreys. “By being able to spread our projects across multiple vendors, we can avoid keeping all of our eggs in one basket.” Humphreys concludes, “The key value proposition of this solution is flexibility. The platform provides us with the flexibility to respond to specific project and product requirements. That could mean launching new products more quickly, or it could mean scaling the platform’s hardware to handle a site much larger than AASC. We feel that this flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.” Oxford University Press has three new products to add to the platform, and many more will follow. Document réalisé par la Société Corp Events - Janvier 2015 53 Retours d’expériences Big Data en entreprise LESSONS LEARNED As with any project, a number of valuable lessons were learned by the Oxford University Press team as it developed its new platform and rolled out the African American Studies Center. ./ Know your content. In addition to understanding the type of information and its structures, one must also understand how the content is interrelated. Possessing a deep understanding of the information enables you to fully define the content, its metadata, and its publishing requirements. You can then verify that the functionality you have planned properly leverages the content’s granularity. The information and relationships play directly into the design of the final product. ./ Understand that technology is not magic. In the end, technology is not a silver bullet that can do everything for you—it is a tool that enables you to speed the development and publishing of information. In the end, it will not provide 100% automation, nor will it eliminate the need to work directly with the information. If used correctly, however, technology can greatly improve the pace and effectiveness of creating and delivering information. ./ Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the dependency of information on any one particular technology, and this ultimately adds longevity to the information and platform. XML-based information can be aggregated with other information, automatically processed, and published in a more automated manner. It reduces the amount of direct interaction that is necessary to reuse or repurpose the content. An XML content server like MarkLogic Server can significantly improve this process. ./ Plan for iterations. Functionality, content, and metadata are often intertwined. For instance, metadata that was not used in the original content may be core to the online product. According to Alex Humphreys, “Iterations are about coordination. By cycling through these iterations, we can simultaneously mitigate risk while ensuring that the entire project team is working towards the same goal.» PRODUCT REFERENCE: MARKLOGIC SERVER Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is an XML content server that enables organizations to build content applications, or applications that are based on content and that support business processes. With MarkLogic Server, companies can deliver products through multiple channels, integrate content from different sources, repurpose content into multiple products, build unique information products, and discover previously unknown information. MarkLogic has a complete implementation of XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval. San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers. The company serves large, recognized companies in the publishing industry, public sector, and other industries. MARKLOGIC SERVER OVERVIEW As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML repository and a complete implementation of XQuery, MarkLogic provides robust support for: • Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make sense of a disparate array of content. • Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and retrieval based on document type, content structure, occurrence, and attributes. • Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new content products based on specific needs. • Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through any number of media or channels. MarkLogic Server enables organizations with high-volume content needs to automate the processes of content integration, content repurposing, content delivery, and custom publishing. CONTENT INTEGRATION Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisitions, licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the content has been integrated, however, its true value cannot be realized. MarkLogic Server bypasses the typical content normalization step by importing content “as is.” It uses the power of its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, querying, manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas, or formats. Furthermore, MarkLogic Server does not “shred” or “chunk” documents, so there are no problems with “round-tripping” documents to and from the content base. No information is ever lost. CONTENT REPURPOSING Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs, or accelerate time to market. The goal is simple—write once, use many. These organizations want to assemble content components to create customized, purpose-built documents and information products. Document réalisé par la Société Corp Events - Janvier 2015 54 Retours d’expériences Big Data en entreprise MarkLogic Server delivers content that is formatted and organized to end-users’ specifications. It can automatically create summary documents that extract relevant content across entire collections. MarkLogic is the basis of self-service publishing systems that enable customers to assemble their own information collections. Content repurposing is vital when multiple variants of a document are drawn from common materials. For example, a section of a research article may be combined with different content for Internet portals, print journals, grant applications, reference manuals, and textbooks. In another example, a master technical document about an aircraft may be excerpted to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations. CONTENT DELIVERY When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output formatting and rendering process. Preparing the same content for use in a textbook and a magazine means dealing with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web portal, on-demand PDF, or handheld document reader requires further output rendering. MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output formats, media, and devices. It also provides a content processing framework that offers custom content processing pipelines to coordinate multi-step production processes. The content processing framework has a Web services interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly integrated into existing business processes to create efficient content delivery systems. CUSTOM PUBLISHING Custom publishing is the on-demand assembly and production of documents from existing content. With a custom publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by “snapping” together content components from different sources. MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a complete book or whatever format is required. SEARCH AND DISCOVERY Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase, Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri, spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content. Figure 3: MarkLogic Server vs. Enterprise Search Engine INFOTRENDS’ PERSPECTIVE The Oxford University Press story is an excellent example of a company that made an infrastructure investment in a standardized XML publishing system that enhanced its ability to quickly develop new products while also reducing costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric applications that assemble and distribute content through multiple touchpoints using open standards such as XML are no longer in the minority. OUP’s willingness to grapple with its online publishing problem using an XML-based publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the future as their information needs continue to evolve. Mike Maziarka, Craig Cline Document réalisé par la Société Corp Events - Janvier 2015 55 Retours d’expériences Big Data en entreprise MARKLOGIC - PRESS ASSOCIATION DATA IN THE NEWS MULTIMEDIA CONTENT PROVIDER STREAMLINES DELIVERY WITH A CENTRALIZED PLATFORM COMPANY OVERVIEW For over 140 years, the Press Association (PA) has served as the UK’s biggest provider of fast, fair, and accurate news content. Today, PA Group provides a range of global multimedia content and editorial services, including news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer base ranges across media and from small businesses to global corporations and government agencies. CHALLENGE Originally made up of multiple companies brought together to form PA Group and with such diversification in different types of content and services, more technical cohesion and strategy was needed when John O’Donovan joined as Director of Architecture & Development. “All of the different parts of the business were utilizing different technologies,” he says. “Each of the various types of data - images, video, news stories and so on - were built and managed on different systems.” PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured and unstructured content in a useful and efficient way. O’Donovan and his team knew that traditional databases wouldn’t have that capability: “We needed something that could build a single, common platform to align all of our diverse and complex content.” Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of their time managing and manipulating data before they could get any use out of it. It was important that the new platform be fast and flexible. SOLUTION PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50 billion information requests, including competition results, athlete information, news stories and more. MarkLogic rose to the challenge, serving up all that data in a fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional territories. “Throughout the whole event, the technology worked exactly the way we wanted it to,” says O’Donovan. When considering their key objectives for the new platform, MarkLogic was a natural fit; “The platform aligned perfectly with our business strategy and development goals,” O’Donovan says. “They were equipped to deliver a central, common database - one system to accommodate all types of data.” After a successful launch, the PA team immediately recognized several key benefits. The new system had the flexibility and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree of security they were seeking. With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only 34 days - a 66% boost in efficiency. “There are fewer restrictions and less complexity in transforming data from one format to another,” notes O’Donovan. “We can store and manage data in a way that aligns with how we want to present it to customers.” Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their existing products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to build. SUMMARY After successfully launching several key applications, the Press Association has become a huge advocate of MarkLogic. “We’ve converted many people over to their platform,” O’Donovan says. “It’s fun to watch people use it and have these ‘Eureka’ moments when they realize how easy it is to do things that used to be so complex.” According to O’Donovan, even the most traditional developers become invigorated by MarkLogic’s clever and unique way of handling structured and unstructured data. “MarkLogic provides an elegant solution for dealing with the complex content issues of the PA.” For this high-volume multimedia content provider, such a capability is newsworthy indeed. Document réalisé par la Société Corp Events - Janvier 2015 56 Retours d’expériences Big Data en entreprise MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT STREAMLINING PUBLICATION PRODUCTION PROCESSES AT REED BUSINESS INFORMATION FRANCE CORPORATE OVERVIEW: Reed Elsevier is the world’s leading publisher of pro- fessional content, with 37,000 employees across 200 offices worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions – Sciences & Medical, Legal, Education, and Business – produce more than 15,000 professional references, magazines, books, CDROMs, online information and business intelligence services annually. As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five continents unrivaled access to a wide range of commu- nication and information channels. With offerings from magazines to directories, conferences to market re- search, RBI’s main objective is to become the undeniable reference in key business sectors across a diverse range of industries. The company’s vision is that superior information and communication products help its customers gain competitive advantage in areas such as commerce, marketing and decision support. Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effective, efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of the Internet as a key delivery channel. RBI’s portfolio of leading prestige brands comprise powerful products and services that, thanks to Mark Logic OEM partner 4Dcon- cept’s XMS product, leverage all forms of new media to adapt professional information to specific customer requirements. RBI FRANCE FACES PUBLICATION CHALLENGES RBI France publishes a number of successful titles including the leading French weekly business magazine Stratégies, the monthly Direction(s), the #1 electron- ics review in Europe EPN, and its sister publications EPN France and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with famous magazines like Cosmétique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs and databases in areas of interest as diverse as social services, education, human resources, public policy, selfhelp, and legal. RBI France was laboring under challenging content transformation and production processes. Such issues have even greater negative impact in the publishing industry, where content is a company’s greatest asset. RBI France was already familiar with the power of XML to tag and index content, but reusing this content often proved quite difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its content repository. This meant that for reuse purposes, any existing content selected would be exported out into XML, reprocessed for publishing, and then new pages exported out of XML again for re-stor- age in the database. This laborious use of XML made the press composition process neither clean nor quick. The constant back and forth transformations required to produce new content – first for print production and ultimately to the web – was proving too difficult to man- age. Waiting for production to get print content first and then load it on the Internet had introduced latency into the update process as well. It was becoming clear that RBI France’s content produc- tion, storage and retrieval processes were interfering with fulfilling one of its central missions – understanding and exceeding customer expectations. RBI resells its professional content to business partners who aren’t in the publishing business but rather leverage custom, industryspecific information published by RBI to better serve their own end customers. RBI France’s partners include banks, consumer sites, retail outlets, and technol- ogy companies. Because of its sometimes laborious production processes, RBI France’s wish to repurpose and realize more value from its digital content as new services was stymied, making the creation and delivery of added value to these indispensable partners both dif- ficult and expensive. REQUIREMENTS FOR A NATIVE XML DATABASE SOLUTION Although RBI France’s main technical challenge was in transforming content back and forth from XML, its solu- tion requirements did not end simply at a database that could handle XML. It needed to be a fully realized enter- prise content management system leveraging a single centralized XML repository as the main content source for all publishing operations. This required that the content platform selected offer workflow functionality to speed and ease production and content management of the French publisher’s books, magazines, websites, applications, and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was seeking a partnership with its supplier that would be long-term and mutually beneficial. Document réalisé par la Société Corp Events - Janvier 2015 57 Retours d’expériences Big Data en entreprise Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innovation. Management encourages workers to welcome and push change, challenge the status quo, take risks and be entrepreneurial. Reed Elsevier’s U.S. and U.K. offices first started working with Mark Logic’s XML server back in 2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move indicative of ‘out-of-the-box’ thinking. By the time their counterparts in France were ready for a similar solution, Elsevier’s corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the competition in solving the problems of RBI France. PILOTING MARKLOGIC SPARKS 4DCONCEPT’S XMS, AN EDITORIAL CMS After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It started small, with a pilot based on only one of its profes- sional electronics magazines, EPN (Europe-wide edition), EPN France, and one of its books, Le Guide Familial – the leading French family law guide used by half of the country’s social workers. Why? Because sales efforts were already aligned behind these products, and success with their high profile brands could be used as a compelling business case to help IT push a larger goal – the ultimate move to a true enterprise-wide editorial content management system. To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dconcept would provide critical know-how in multi-channel publication for the press and publishing industries. After having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to a successful conclu- sion and also set the foundation for the future editorial con- tent management system. This solution, called XMS, would drive the production of other RBI France content. However, it didn’t take RBI France very long to under- stand the distinct advantages of an editorial content management system relying on a database specialized in handling full XML content. This is how RBI France got involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI France’s future needs. First, XMS places no limitations on the original structure of the content, meaning it can be tagged and indexed from any source just as efficiently. RBI France is able to repurpose content without any con- straint from the media itself. Changes anywhere, even to a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention. Finally, editors were able to keep in place all of their pre- ferred publication layout and design tools such as Adobe InDesign, Framemaker and Bridge. After the pilot project was completed, RBI France conducted three to four months of analysis to measure its success. This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN and Le Guide Familial are not large publications. Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before moving on to larger, more prestigious brands. RBI FRANCE’S USE OF XMS SPURS NEW SERVICES FOR CUSTOMERS As a result of the successful implementation of XMS, RBI France was actually able to reverse its original production process of new content from web to print, versus print to web. Changing this workflow allows editors to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to provide new value-added services for customers and partners. The content lives in XML without needless transformations, streamlining a process that’s cleaner, quicker and always up-to-date. The print production team now consistently leverages the latest information to churn out RBI France’s magazines weekly and monthly, or its new book editions on a quarterly basis. Because of 4Dconcept and Mark Logic’s success with some of the most high profile brands at RBI France, the division was able to rollout a true enterprise-wide edito- rial content management system – a live, fully functional solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now have their content fully loaded as XML in XMS, includ- ing numerous leaflet books and some of the larger, more prestigious magazines published by RBI France such as stratégies. The high level of scalability and reliability of XMS ensures work can continue until all of RBI France’s products live in the XML database. The amount of upfront index definition completed during XMS’ conception means little additional development investment is necessary to integrate new brands or products into XMS quickly and cleanly. In summary, RBI France’s investment in XMS is indeed paying off. Streamlined production has lead to the company’s ability to repurpose its digital content and to de- liver more value offering new resale services to partners. Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external. One example of dynamically updated custom content resulting in a new service includes the case of one of RBI France’s major bank customers. This content resale part- ner was able to rapidly produce a new audit guide on their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers. The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark Logic continue to partner for ongoing development and evolution of XMS. ABOUT 4DCONCEPT 4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and editorial information systems in the aeronautics, de- fense, construction, manufacturing, telecommunication, transport, publishing, media and administration sec- tors. 4Dconcept addresses matters such as content and knowledge management, editorial content enrichment and publishing, after-sale market and maintenance engi- neering, and cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular and adaptable turnkey solutions to help customers produce and manage their information in mul- tiple sectors. The implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr. Document réalisé par la Société Corp Events - Janvier 2015 58 Retours d’expériences Big Data en entreprise MARKLOGIC - RSC BIG DATA AS A SCIENCE UK CHEMISTRY SOCIETY UNLOCKS 170 YEARS’ WORTH OF DATA WITH THE POWER AND FLEXIBILITY OF MARKLOGIC When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL database, the RSC has made over a century’s worth of information accessible to entrepreneurs, educators, and researchers around the world. COMPANY OVERVIEW Founded over 150 years ago in the United Kingdom, the RSC is Europe’s largest organization dedicated to furthering awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and successor of four renowned and long-established chemical science bodies—The Chemical Society, The Society for Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSC’s headquarters are in London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil. To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and public events, and also publishes industry-renowned scientific journals, books and databases. Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as the worldwide authority on chemistry information, this renowned reference book has been used by industry professionals for over 120 years. CHALLENGE It’s a tall order to manage a single year’s worth of data—so how about 170 of them? Since the 1840s, the RSC has gathered millions of images, science data files and articles from more than 200,000 authors. All of that information was stored in a wide range of formats at multiple locations and was growing by the day. In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make its data more accessible, fluid and mobile. David Leeming, strategic innovation group solutions manager for RSC, sums up the society’s goal: “We needed an integrated repository that would make all of our content accessible online to anyone—from teachers to businesses to researchers. The key was finding the right technology.” SOLUTION After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built three sites on it: • RSC Publishing: http://www.rsc.org/publishing • Learn Chemistry: http://www.rsc.org/learn-chemistry • Chemistry World: http://www.rsc.org/chemistryworld Document réalisé par la Société Corp Events - Janvier 2015 59 Retours d’expériences Big Data en entreprise Given the society’s wide range of information media— books, emails, manuals, tweets, metadata, and more—the data does not conform to a single schema, which means a traditional relational database can’t accommodate it. MarkLogic’s document-based data model is ideal for varied formats and hierarchical metadata. The RSC can simply load its information as-is, without having to conform to a rigid format. As Leeming points out, “A book chapter is very different from a journal article. A relational database can’t combine the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism, from spreadsheets and images to videos and social media comments.” MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also enables logical associations between different types of content. Each image, video, and article is automatically tagged, allowing users to find, understand, and process the information they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a standard Web browser. The new MarkLogic platform will be a significant benefit in the RSC’s acquisition of The Merck Index. “We’re eagerly looking forward to developing The Merck Index for the digital future,” says Dr. James Milne, RSC Publishing Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publication’s online format. SHARING THE KNOWLEDGE With the greater data accessibility afforded by the new MarkLogic database, the RSC’s publishing division has become much more productive, publishing more than 20,000 articles in 2011. “We can now publish three times as many journals and four times as many articles as we did in 2006, and get them to market faster,” says Leeming. “And we have the ability to build new educational programs to spread chemistry knowledge among more people.” In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China, and Brazil. Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has enabled other opportunities. Leveraging MarkLogic’s Enterprise NoSQL database, the RSC has launched many new research journals, mobile applications, social media forums, and applications for children. Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition. “Using MarkLogic’s big data platform has allowed us to open up the world of chemistry to a much wider audience, whilst increasing the volume and quality of the research that we publish.” Document réalisé par la Société Corp Events - Janvier 2015 60 Retours d’expériences Big Data en entreprise MARKLOGIC - SPRINGER SPRINGER TAKES CONTROL OF ITS ONLINE CONTENT DELIVERY SCIENTIFIC PUBLISHER USES MARKLOGIC TO TURN SPRINGERLINK INTO THE CORE OF ITS BUSINESS AND IMPROVE PERFORMANCE BY 50% COMPANY OVERVIEW For over 160 years, Springer has led the industry in scientific and medical publishing. With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each year—and that’s just in print. To meet the growing demand for online delivery, Springer also maintains an online catalog of more than 169,000 eBooks, and has the world’s largest open access portfolio. The company’s content delivery platform, SpringerLink, is the heart of the company’s business, hosting more than 8.4 million scientific documents including journals, books, series, protocols and reference works. CHALLENGES Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was originally used as a home to some of the company’s journals, but as online content became an increasingly important part of the company’s business, SpringerLink became the hub for every journal the company published, and later, its entire library of books. With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of flexibility and control over its online content distribution, which had grown to account for two-thirds of total company revenue. The Springer team required: • An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didn’t want that strategic asset resting on a technology they didn’t own. • Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the daunting task of completing the project in just 11 months. • Fast search. As online content exploded, readers came to expect better functionality from content providers, including sub-second search. THE SOLUTION Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their customers so they could create a user experience that went beyond simply delivering a piece of content. It had previously built and deployed some high-performing applications using MarkLogic technology, including a tool to track the locations of document authors, a search engine for mathematicians, a program that displays snippets of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search through the millions of images stored in SpringerLink. BENEFITS MarkLogic gave Springer an in-house solution that dramatically improved SpringerLink’s performance. MarkLogic also helped Springer: • Create revenue. SpringerLink has become the core of Springer’s business, generating 95 percent of Springer’s online revenue and driving more than 2 million page requests and over a million downloads a day. • Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per customer identifying which of the millions of items they can access. During high-traffic periods, the new platform loads twice as fast, and runs essential functions up to four times faster. • Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by one-third, bounce rate has been cut in half, and number of page views grown. • Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image ensuring more robust and accurate results. • Fit its agile development process. MarkLogic’s agile approach supports automated tests, continuous integration and deployment, and weekly iterations. • Simplify architecture. MarkLogic’s built-in powerful search engine helped Springer simplify its architecture and allows users to subscribe to their own reusable queries. • Support multi-language search. MarkLogic is able to change the search parameters based on the user’s language. German-speaking users and English-speaking users will see results tailored to them. • Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able to take new features to market as soon as a business need is identified. Document réalisé par la Société Corp Events - Janvier 2015 61 Retours d’expériences Big Data en entreprise MICROPOLE - L’OBS L’OBS : DE NOUVELLES OPPORTUNITÉS GRÂCE AU BIG DATA POUR AMÉLIORER L’EXPÉRIENCE DES LECTEURS L’OBS (ex-Le Nouvel Observateur), acteur majeur de l’information sur les supports magazine, web et mobile a retenu en 2013 Micropole et son agence digitale Wide pour l’accompagner dans la définition et sur la mise en place de sa stratégie multicanal personnalisée. Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonnés, le groupe souhaitait disposer d’une connaissance 360° de l’ensemble de son audience afin de lui proposer de nouveaux services individualisés à forte valeur ajoutée. Dans un contexte de mutation des usages, particulièrement dans le domaine des media et de transformation de l’information (volume, vitesse et variété), l’OBS entreprend alors : - D’écouter sur tous les points de contact, digitaux ou offline ; - D’analyser les données pour mieux connaître et appréhender les centres d’intérêt du lecteur ; - De comprendre et d’animer en cross-canal l’ensemble de son lectorat traditionnel et digital. Pour atteindre ces objectifs de collecte, d’analyse et d’engagement de la relation client, l’OBS s’appuie sur la plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big Data et met à disposition les services métiers en mode SaaS (Software as a Service) de la solution Cloud Digital Marketing Optimization de IBM . Ainsi, l’OBS est en capacité de proposer un contenu personnalisé en accord avec les préférences de ses lecteurs et selon leur historique de navigation, ceci en temps réel. Le groupe est également capable d’adresser des communications individualisées (emails, newsletters…) tenant compte de leurs centres d’intérêt. Cette stratégie digitale a rapidement porté ses fruits car le nombre d’abonnements à la newsletter a augmenté de 25% en seulement 6 mois. Le lecteur abonné est alors reconnu et animé par le CRM. « Avec IBM et Micropole, nous avons fait le choix de l’ambition et de l’innovation. Grâce aux fonctions avancées de cette nouvelle plateforme, nous sommes capables de comprendre les centres d’intérêt d’un internaute, sans pour autant connaître son identité, tout en apportant de nouveaux services à forte valeur ajoutée à nos abonnés. Plus généralement, ceci nous permet d’offrir à nos lecteurs la possibilité de bénéficier de contenus et de services personnalisés en temps réel », a déclaré le Directeur Marketing Digital de L’OBS. *Source : Médiamétrie NetRating mai 2013 Document réalisé par la Société Corp Events - Janvier 2015 62 Retours d’expériences Big Data en entreprise MICROSOFT - PIER IMPORT MICROSOFT - PIER IMPORT With over 1,000 stores, Pier 1 Imports aims to be their customers’ neighborhood store for furniture and home décor. But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omnichannel strategy called “1 Pier 1”, a key goal of which is to understand customers better and serve them with a more personalized experience across their multiple interactions and touch points with the Pier 1 brand. Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a customer’s future product preferences might be and how they might like to purchase and receive these products. Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics solutions using Azure ML. You too can get started on Azure ML today. MICROSOFT - THYSSENKRUPP MICROSOFT - THYSSENKRUPP USES PREDICTIVE ANALYTICS TO GIVE BURGEONING CITIES A LIFT Urban migration is one of the megatrends of our time. A majority of the world’s population now lives in its cities. By 2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live, work and play, there is only one direction to go – up. As one of the world’s leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million elevators worldwide, including those at some of the world’s most iconic buildings such as the new 102-story One World Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in Dalian, China. ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers – having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp Elevator CEO, “We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.” FIX IT BEFORE IT BREAKS – ‘SMART’ ELEVATORS ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their elevator uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands of sensors in ThyssenKrupp’s elevators – sensors that monitor cab speed, door functioning, shaft alignment, motor temperature and much more – to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic predictive models which then allow elevators to anticipate what specific repairs they need. As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up, “When the elevator reports that it has a problem, it sends out an error code and the three or four most probable causes of that error code. In effect, our field technician is being coached by this expert citizen.” In other words, these ‘Smart’ elevators are actually teaching technicians how to fix them, thanks to Azure ML. With up to 400 error codes possible on a given elevator, such “coaching” is significantly sharpening efficiency in the field. Document réalisé par la Société Corp Events - Janvier 2015 63 Retours d’expériences Big Data en entreprise MICROSOFT - CARNEGIE MICROSOFT - MEET CARNEGIE MELLON’S ENERGY SLEUTHS An academic, architect, researcher and activist for energy conservation—Vivian Loftness is a champion of biophilic design. Her workspace, surrounded by light and plants, reflects her passion. Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities around the world home — from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a professor at Carnegie Mellon’s School of Architecture — Loftness has checked out more than a few buildings close up. Loftness’ singular passion is for sustainable architectural design and the need to get buildings in our world to a “zero state” where they have the smallest possible energy footprint without sacrificing comfort. This is no small feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud computing, data analytics and services such as Microsoft’s Azure Machine Learning are helping Loftness and two researchers at Carnegie Mellon’s Center for Building Performance and Diagnostics slowly crack the code, one building at a time, and in ways previously unthinkable. THE ‘INTELLIGENT WORKPLACE’ - WHERE THE DATA JOURNEY BEGINS The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first “Living Laboratory” of its kind dedicated to research in building sustainability. The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality of built environments. Natural light dominates this space they call “the Living Laboratory,” streaming in through skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like the rest of the furniture and walls in the lab, are reconfigurable and movable — all in a matter of minutes. Plants are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of this “living” workspace. For these researchers, the journey started with really simple questions: How do you give people who work in buildings a comfortable environment while using the least possible energy? How do you make people accountable for their own energy footprints? And how can technology assist in that journey? Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one of the most daunting problems facing our generation — How do you make buildings more energy efficient? The statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations — heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with really simple questions: How do you give people who work in buildings a comfortable environment while using the least possible energy? How do you make people accountable for their own energy footprints? And how can technology assist in that journey? MAKING SENSE OF BUILDING DATA Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon campus. They’re about halfway there, drawing data from 40 buildings, with roughly 25 more to go. Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation. “The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,” says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when heat is blasting. There are building managers who leave air conditioning systems running during cool summer nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there is the challenge of managing “things”— thermostats, computers, microwaves, elevators — as well as analyzing external factors such as day-to-day fluctuations in weather. SO MUCH INEFFICIENCY Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with the data sleuthing activities. The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings. What are they telling us? More importantly, are we doing enough to listen? “There is no question that we save 30 percent in most buildings through better awareness of where the energy’s going, and giving users better controls to adjust for their individual needs while driving down energy usage,” Loftness says. The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings. Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of Document réalisé par la Société Corp Events - Janvier 2015 64 Retours d’expériences Big Data en entreprise variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then there are the occupants — a mix of people with unique activities and comfort thresholds. Understanding how all these factors mesh together requires historical data and data analysis. A lot of it. These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago. — Azizan Aziz, Senior Research Architect THE DATA CHALLENGE MEETS THE DATA SLEUTHS Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sensors are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by height, monitoring windows, lighting systems and plug loads. And there’s more: People who work inside make up the most significant part of a building’s heartbeat — so user satisfaction data is being added to the mix based on occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace. To say it’s a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data sleuths, and finding ways to listen to what the buildings are trying to communicate — the story that lives in the data. There is a real difference you can make in energy conservation by giving people data that is actionable instead of asking them to just do their best — Bertrand Lasternas, Senior Researcher When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working towards a master’s degree in mechanical engineering and building sciences. Today, he’s an expert in extracting data from building management systems and sensors, both to understand how buildings work, as well as to help people manage energy more efficiently. Recalling challenges from the earlier phases of the research, Lasternas says, “We might have 10 different manufacturers of equipment in a single building, and none of them share information. So how do you pull all of that together? We wanted to empower people to be more engaged in the living building, more aware of their energy usage patterns.” With help from Microsoft’s Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI System, four years ago. It offered the missing “glue” that helped the team bring data together from various sources, “cleanse” it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI System supports more than 400 interfaces that can connect to systems from the many different vendors of building systems and controls. THE MACHINE LEARNING BREAKTHROUGH “We’re not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop insights. That’s a breakthrough for the work we do” — Senior Researcher Azizan Aziz Having conquered the data integration and storage challenge, the team dove into analysis — a world of massive spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an exercise that very quickly got unwieldy. “We’re not trained data scientists by background, and complex statistical packages are outside of our immediate area of expertise,” says Aziz. “One of our former students was using MATLAB for analysis,” he recalls. “It took her a long time just to prepare and sort the data, and then a single run of analysis took 30-45 minutes. That’s far too long to develop good predictions for demand reduction. We really need to do these iterative analyses in real-time.” Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically. “With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,” Aziz says. “It’s really fun to be able to use multiple types of machine learning algorithms and just have the results appear immediately. We’re able to play with all the variables and make sense of which ones contribute most to a specific change in building conditions.” LETTING THE DATA TELL THE STORY To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build “digital dashboards” that make data anomalies much easier to spot. Using these dashboards, they’ve been able to solve puzzles in the buildings they’re working on. In one case, Lasternas recalls, “We saw an unusual area of low temperature in a building and realized that someone was leaving a window open in the middle of winter, when it was minus-eight degrees outside.” According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. “We ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didn’t know it was on, because they don’t have the data presented to them clearly,” he says. Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do predictive modeling. This is an area where cloud and machine learning technologies have truly been a game changer. Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways. For people who live in buildings and use its systems, providing data alone isn’t enough to change behavior. “People need to see the impact of their actions every minute. Digital dashboards often trigger the “aha!” moments.” — Lasternas One of the team’s early experiments involved trying to figure out the ideal time to ramp up the heating in campus buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and sunshine. Using Azure Machine Learning, they built a model that looked at months of “heat up” data from the building’s records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They were able to zero in on a custom model for each day to start heating a building at the lowest energy use. “As simple as that victory sounds, the implications for energy and dollar savings are simply enormous —especially when you scale up,” notes Lasternas. For this group of researchers, the potential to scale up such predictive caDocument réalisé par la Société Corp Events - Janvier 2015 65 Retours d’expériences Big Data en entreprise pabilities — to forecast factors such as energy demand spikes and equipment failures, to simply and proactively give people actionable information at their fingertips — is where their research can have real and broad impact. “These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago,” Aziz says. AN ENERGY CROSSROADS Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called “Invention Works’ where Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our environment, our health and our quality of life. The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC Bank, one of the largest diversified financial services organizations in the country. With the growing commitment to sustainable design initiatives across the public and private sector, Loftness believes the energy conservation movement is quickly hitting a tipping point in the U.S. “Climate change is a serious challenge and I expect to see energy management in buildings rise from its underchampioned status today to the forefront of the energy conservation movement,” Loftness says. “Technology is helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few years, reshaping how we live, work and play.” Document réalisé par la Société Corp Events - Janvier 2015 66 Retours d’expériences Big Data en entreprise MONGO DB - BOSCH BOSCH LEADS THE CHARGE INTO INTERNET OF THINGS BETS ON MONGODB FOR BUILDING APPS NEVER BEFORE POSSIBLE Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting to the Internet. This is forming the Internet of Things (IoT). There’s no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the world’s largest automotive components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems (MEMS), it’s at the forefront of IoT. With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to increase efficiency and to develop new business models. It also poses a significant challenge, to design, develop and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spearheads all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in the IoT. IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the challenges of Big Data in IoT. IOT DATA MADE VALUABLE IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible. “IoT is the culmination of agility and flexibility on the one side and big data on the other side – and this is where MongoDB is of great value to us.” Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting. The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how components are performing in the field. The value isn’t simply in the sensor attached to the electromagnetic components, but in how the back-end service is able to improve maintenance and product design processes. In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an airplane -- a mission-critical job with zero room for error. The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-thefly adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to manufacturing processes in real-time, the app makes that power tool exponentially more powerful. In both instances, the Bosch IoT Suite collects data from individual sensors and equipment – the car’s braking system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time. MongoDB also stores business rules that trigger alarms and notifications, such as “alert driver when brake pressure drops below a certain level” or “send alarm when tool is being used incorrectly.” DATA MANAGEMENT REIMAGINED FOR IOT The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SI’s entire technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT. They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data. IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine what’s possible. Here’s how: 1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. MongoDB can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data using JSON makes it easy to map the information model of the device to its associated document in the database. 2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use cases will require frequent data model changes. MongoDB’s dynamic schema supports agile, iterative development methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straightforward, even when you’re dealing with multiple versions in the field concurrently. Instead of wasting time dealing with the mismatch between programming language and the database, MongoDB lets developers focus on creating rich, functional apps. 3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated. Source schema changes require additional changes to the single view schema. MongoDB makes it easy to aggregate multiple views of related data from different source systems into one unified view. Document réalisé par la Société Corp Events - Janvier 2015 67 Retours d’expériences Big Data en entreprise 4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data can’t wait on ETL processes to replicate data to a data warehouse. They need to react and respond in real time. MongoDB’s rich indexing and querying capabilities – including secondary, geospatial and text search indexes, the Aggregation Framework and native MapReduce – allow users to ask complex questions of the data, leading to real-time operational insight and business discovery. 5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability. Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryption. Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or additional cost on the business. A BET THAT PAID OFF Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives. “It’s great to see MongoDB as a stable and growing company that we can strategically bet on” Dirk Slama, Bosch Business Development The use cases are limitless. And MongoDB makes every single one possible. The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and working closely with MongoDB to scale up existing apps – like growing a three million car pilot to a 300 million car application. With MongoDB, scale-out will be fast, reliable and cost effective. As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accelerating implementation of new IoT apps and business models, ensuring the business units and customers it serves don’t miss a beat as new generations of sensors and equipment come online. Copyright © MongoDB Inc 2014 MONGO DB - METLIFE RETHINKING THE CUSTOMER EXPERIENCE AT METLIFE: FROM STALLED TO SUCCESS IN THREE MONTHS Reinventing customer service. In 2011, MetLife’s new executive team knew they had to shake up how the insurance giant catered to customers. Because today’s consumers – hyper connected, digitally empowered, information savvy – have little patience and even less loyalty. MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying unsuccessfully to develop this kind of centralized system using relational databases. Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDB’s technology over just 2 weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of customer information about each client. Three short months later, the finished version of this new system, called the “MetLife Wall,” was in production across MetLife’s call centers. The Wall collects vast amounts of structured and unstructured information from MetLife’s more than 70 different administrative systems. After many years of trying, MetLife solved one of the biggest data challenges dogging companies today. All by using MongoDB’s innovative approach for organizing massive amounts of data. INSIDE THE METLIFE WALL Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details, customer representatives use the Wall to pull up every bit of information they need in seconds – name, address, policies, and life events. Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to MetLife’s call center operators. Which means customer reps can quickly and efficiently answer questions, handle claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands and serves each customer individually. Document réalisé par la Société Corp Events - Janvier 2015 68 Retours d’expériences Big Data en entreprise POWER OF THE FLEXIBLE DATA MODEL What sparked this change? We’re all too familiar with typical customer service. Call any business and you enter an endless maze where you’re passed around to different people who ask for the same bits of information. The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the years. MetLife’s systems contain a huge array of structured and unstructured data, including policy and customer information and transactional history about everything from claims to payments. Few are connected and many are on mainframes with cumbersome interfaces. Ripping out its administrative systems and replacing them with one unified system wasn’t an option for MetLife. So the company had tried over the years to use relational databases, which require a common schema and strict mapping of data sources. Adding each new system was an expensive and time consuming process of changing schemas, and extracting, cleansing, and matching data – one that MetLife never won. Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If relational databases are like Excel spreadsheets – where data is organized into sheets but where you add a column every time you add a field, creating a structured but unwieldy project – MongoDB is a series of Word documents. Each entry is a document that can have its own schema. FLEXIBLE, SCALABLE, USER FRIENDLY MongoDB also makes the most of today’s computing resources, including commodity hardware and cloud infrastructure. This helps slash the cost of ownership and lets organizations scale their operations and applications quickly. MongoDB’s horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of data across multiple servers. And it’s flexible, allowing organizations to leverage multiple data centers and multitemperature storage techniques. Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers. Developers can interact with the database in the same programming language they use to write the application, whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling with ORMs. And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that don’t exist in a traditional database. Giving companies the right resources they need to get projects done quickly. A CATALYST FOR INNOVATION “MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we want to be recognized as.” John Bungert, senior architect at MetLife Working with MongoDB led not just to The Wall’s success, but a wave of innovation inside MetLife. Harnessing Big Data is letting the insurance giant do things it never could do before. NOW, METLIFE IS: • Rolling out The Wall internationally • Developing a version of The Wall for its sales force • Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer Document réalisé par la Société Corp Events - Janvier 2015 69 Retours d’expériences Big Data en entreprise alternative products or promotions • Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of customers, something that’s easy to do with MongoDB. With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one of the biggest problems it faced, MetLife changed the expectations of what is possible. Copyright © 2014 MongoDB, Inc MONGO DB - OTTO OTTO REINVENTS E-COMMERCE PERSONALIZATION FOR MORE THAN 2 MILLION VISITORS PER DAY SLASHES SITE CATALOGUE UPDATE TIME FROM 12 HOURS TO 15 MINUTES Online retailers have access to troves of data. They know more about their customers than the corner store shopkeeper knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping experience. That’s how you attract – and keep – today’s customer. OTTO is Germany’s top online retailer for fashion and lifestyle goods; the company turns over more than €2B per year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy. Yet existing systems were slowing it down – loading new catalogue updates for two million products often took all day. With a MongoDB-powered catalog, OTTO gets an edge with speed. It’s fast to develop. Fast to load data. And fast to personalize a shopping experience for a great number of customers. “Personalization based on real-time data is the key success factor for e-commerce sites.” Peter Wolter, head of OTTO’s e-commerce Solutions & Technology Division PERSONALIZATION MADE FAST OTTO’s previous site was static, slow and expensive to change. So was its approach to development. OTTO had one big system with one big team. Only small fragments of the site could be changed to personalize the customer experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It also lacked the ability get the most relevant products in front of customers as soon as they hit the site. SLOW REACTION TIME IS A CONVERSION KILLER The average customer doesn’t stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to access customer profiles in real time and decide how to react. This is especially challenging with a product catalogue as diverse as OTTO’s. It offers one stop shopping for over 5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes (such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly refreshed to maintain competitive advantage. Using a relational database to update a site with such variation in products and attributes is painful, often requiring reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult. MongoDB’s flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly iterate data schema for changes to products, attributes and customer profiles – without taking the database offline or affecting performance. Plus, all product information can be read from a single JSON document, allowing for incredibly fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time data. This is what drives true personalization. Document réalisé par la Société Corp Events - Janvier 2015 70 Retours d’expériences Big Data en entreprise OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second – every click, every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site with a personalized set of products, navigation and filters for every customer. It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site response times. In addition, all touch points – browser, mobile, tablet – are integrated, so OTTO can deliver instantaneous personalization during each customer’s journey on the site. The result is boosted engagement, revenue and a new way to deliver superior customer service. DEVELOPMENT AGILITY OTTO needed fast results. MongoDB delivered. Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to integrate and easy to operate. With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test. Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never before possible. This move to agile development wasn’t mandated. It was inspired by MongoDB and driven by the teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scalability, request handling, and speed. OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations. “We always want to be at the forefront of an increasingly competitive online trading market,” said Wolter. “We now have a modern, digitally-oriented application development environment which allows us to implement our innovative ideas as quickly as we create them.” In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk. But it was a risk worth taking – one that’s paying off for the business and for customers. THE ENDLESS AISLE – NOW PERSONALIZED New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready. OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strategies. Now it has the stable, proven technology architecture and agile development to match – vital pieces that will propel it forward in the face of unknown challenges and growing demand. Copyright © 2014 MongoDB, Inc. Document réalisé par la Société Corp Events - Janvier 2015 71 Retours d’expériences Big Data en entreprise MONGO DB - WEATHER CHANNEL KILLER FEATURES. FAST. THE WEATHER CHANNEL LAUNCHES NEW FEATURES IN HOURS, NOT WEEKS Weather changes quickly. In its extreme form, it’s volatile, sometimes dangerous and often thrilling. Given its impact on lifestyle, people are eager to get their hands on the latest information. They want to know – now – what’s happening. In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens weather reporting. Several years later, they made the natural progression online with weather.com. But because the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weather Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy relational database approach. THE WEATHER CHANNEL TURNED TO MONGODB TO GET KILLER FEATURES OUT TO USERS QUICKLY. CHANGES THAT USED TO TAKE WEEKS CAN NOW BE PUSHED OUT IN HOURS. They’ve replaced high costs and complexity with simplified scale and speed. And now that they’ve modernized on a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties to MongoDB. With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time. WHATEVER USERS CLAMOR FOR, THE WEATHER CHANNEL IS READY TO DELIVER. “As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.” Luke Kolin, vice president of architecture at The Weather Channel SEVERE WEATHER ALERTS, FASTER THAN THE STORM Five million users rely on The Weather Channel for the severe weather alert feature. It’s a competitive differentiator for the brand, and a must-have feature for many users. If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather Channel has to notify those 125,000 local subscribers as fast as possible. With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geographic locations in real-time. According to Kolin, MongoDB’s secondary indexes and fast ad hoc querying make it the only product that can reliably perform that kind of lookup on such a large user base in mere seconds. Document réalisé par la Société Corp Events - Janvier 2015 72 Retours d’expériences Big Data en entreprise SIMPLIFIED SCALE IN THE CLOUD Weather is hard to predict. So is the online traffic for weather apps. With MongoDB, The Weather Channel doesn’t have to worry about app performance during unpredictable peak times. The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes, petabytes of data and hundreds of thousands of ops per second. The Weather Channel initially planned to build its own management services for the new cloud infrastructure. Instead, they saved significant time and money by taking advantage of MongoDB’s management application, MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its MongoDB deployment. FAST APPS, WITHOUT THE WAIT MongoDB met The Weather Channel brand’s needs from day one, with no significant optimization needed. “As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the back-end,” said Kolin. MongoDB was made for this mission. Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt. They can push out changes to users in a fraction of the time. And at much lower cost. New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, MongoDB helps The Weather Channel deliver. Copyright © MongoDB Inc 2014 Document réalisé par la Société Corp Events - Janvier 2015 73 Retours d’expériences Big Data en entreprise NEO4J - EBAY EBAY NOW CHOISIT NEO4J POUR LA GESTION DU ROUTAGE DE SON SERVICE DE LIVRAISON E-COMMERCE La société londonienne Shutl était réputée pour l’incroyable rapidité de ses services avant même son acquisition par eBay, leader mondial du e-commerce. Depuis sa création en 2009, sa mission est de livrer le plus rapidement possible les achats effectués sur Internet à leurs destinataires. Qu’il s’agisse de jouets, de chaussons, de cravates ou encore d’iPhones, eBay fait désormais appel à la plateforme nouvelle génération de Shutl pour redéfinir le ecommerce en accélérant et en simplifiant la livraison des commandes passées sur Internet ou appareil mobile. eBay élimine le plus gros obstacle entre les vendeurs et les ache- teurs en ligne en proposant une livraison des articles le jour même. Aujourd’hui, la plateforme de Shutl est à la base des opérations du service de livraison locale eBay Now dans quatre marchés américains et son extension à 25 grandes villes aux États-Unis et au RoyaumeUni est prévue pour la fin 2014. Volker Pacher, développeur senior pour eBay, fait partie de l’équipe principale de la plateforme de services chargée de fournir une API aux transporteurs et aux marchands. Les requêtes envoyées à l’API ont connu une croissance exponen- tielle, d’où un allongement des temps de réponse. L’équipe a donc entièrement repensé la première plateforme SaaS de Shutl. Volker Pacher savait qu’une base de données orientée graphe permettrait de simplifier la modélisation du domaine sans affecter la structure existante. À l’aide de Neo4j et d’une structure de graphe sans schéma (schema-less), l’équipe a créé une base de données permettant aux requêtes de rester localisées à l’intérieur du graphe, améliorant les performances grâce à la facilité d’expression. Comme aime à le dire Volker Pacher : « Notre système fonc- tionne sur sept lignes de Cypher ». La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les envois s’effectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles selon les préférences des clients, généralement dans un délai de deux heures, ou dans une fenêtre de livraison d’une heure choisie par les clients. Le résultat : un service innovant qui améliore la qualité de service pour les clients ainsi que la producti- vité des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de plus de choix pour la livraison, les coursiers ne perdent plus de temps à attendre et les boutiques peuvent proposer des services supplé- mentaires à leurs clients sur Internet. Shutl « sauve les petits commerces » dans chaque ville en faisant appel à leurs services marchands et de livraison et en leur permettant ainsi de rester compétitifs. LE DÉFI Le service de livraison le jour même de Shutl s’est développé de manière exponentielle et couvre aujourd’hui jusqu’à 85 % du Royaume-Uni. Sa plateforme de services a dû être entièrement repensée afin de prendre en charge l’explosion du volume de données et les nouvelles fonctionnalités. Les join- tures MySQL utilisées auparavant ont créé une base de code trop lente et complexe. Les délais d’exé- cution des requêtes de sélection du meilleur coursier étaient tout simplement trop longs et Shutl avait besoin qui permette à son service de rester compétitif. Volker Pacher et l’équipe de développement pensaient qu’en ajoutant une base de données orientée graphe à l’AOS et à la structure de services, il serait possible de résoudre les problèmes de performan- ces et d’évolutivité. L’équipe a choisi Neo4j, la meilleure solution à ses yeux. POURQUOI NEO4J? Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa simplicité d’utilisation. Son modèle de graphe à propriétés était parfaitement com- patible avec le domaine modélisé. La base de données ne nécessitant pas de schéma, cela a simplifié son extensibilité et a permis d’accélérer la phase de développement. Enfin, les limitations en termes de rapidité et d’évolutivité de la solution précédente ont été surmontées. « Notre solu- tion Neo4j est littéralement des milliers de fois plus rapide que la solution MySQL précédente, avec des requêtes qui nécessitent de 10 à 100 fois moins de code. Dans le même temps, Neo4j nous a permis d’ajouter des fonctionnalités jusqu’ici impossibles », explique Volker Pacher. Cypher a permis d’exprimer les requêtes sous une forme très compacte et intuitive, ce qui a accéléré le développement. L’équipe a pu exploiter le code existant à l’aide d’une bibliothèque Ruby pour Neo4j prenant égale- ment en charge Cypher. LES AVANTAGES Basée sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des performances relativement constantes. Par ailleurs, son modèle de données permet aux requêtes de rester localisées à l’intérieur de leurs portions respectives du graphe. « Nous avons obtenu des performances constantes pour les requêtes en utilisant Neo4j pour créer un graphe qui est son propre index. Cette flexibilité de développement est tout simplement unique », explique Volker Pacher. La phase d›implémentation a été réalisée dans les délais prévus, en à peine une année. Les requêtes sont désormais simples et rapides. Le résultat est une plateforme évolutive capable de prendre en charge le développement de l›entreprise, et notamment la croissance de l›activité à laquelle elle doit faire face en tant que plateforme du service eBay Now. Document réalisé par la Société Corp Events - Janvier 2015 74 Retours d’expériences Big Data en entreprise NEO4J - GAMESYS GAMESYS MISE LA CROISSANCE DE SA PROCHAINE GÉNÉRATION DE JEUX SUR NEO4J, PAR UNE INTÉGRATION SOCIALE AVANCÉE. La société Gamesys est l’un des leaders des jeux d’argent en ligne. Elle a été nommée en tant que compagnie technologique privée ayant eu la plus forte cro- issance au Royaume-Uni par le Sunday Times, avec des paris d’argent à hauteur de 4,3 milliards de Livres en 2012. Leur produit phare récompensé par un prix, « Jackpotjoy », est depuis le principal site en ligne de Bingo et de jeu à gain instan- tané (Instant Win), avec plus de quatre millions de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau supérieur en ajoutant une plate-forme sociale basée sur Neo4j pour offrir une intégration à Facebook, un système de gestion des données de référence, et bien plus encore. La versatilité de Neo4j a permis à Gamesys d’apporter de nouvelles fonctionnalités en ligne facilement, en offrant aux utilisateurs finaux un système très performant et fiable. PROBLÈME D’AFFAIRES Face au challenge que représente la création d’un nouveau réseau social, Gamesys a considéré les types de bases de données disponibles. Après avoir réalisé que les bases de données relationnel- les ne sont pas adaptées à la gestion une intercon- nexion de données massive; Gamesys a évalué les solutions NoSQL et réalisé rapidement que les graphes étaient une solution naturellement adaptée à leur problématique. La maturité de la base de données choisie était plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans l’espace social sur une base de données, cel- le-ci devait être très utilisée, compter un bon ser- vice de support, être bien documentée, et avoir fait ses preuves dans des déploiements en production multiples et à grande échelle. LE CHOIX DE NEO4J Les ingénieurs de GameSys ont évalué plusieurs bases de données de graphes. Après avoir inspecté d’autres offres, ils ont vite réalisé que Neo4j était de loin la plus mûre. Par rapport à d’autres vendeurs, il est clair que Neo4j et Neo Techno- logy étaient le monstre sacré de l’univers des graphes, et un bon investissement à long terme. Lors de l’évaluation des bases de données relationnelles, il est devenu clair qu’une base de données de graphes était un choix plus avisé et plus sûr pour ce pro- jet. L’un des facteurs les plus importants était la résistance au changement. Les données et requêtes étaient clairement adaptées à un graphe, et il était évident que la manipulation de données au format tabulaire générerait des coûts signi- ficatifs pour le projet et une augmentation importante des temps de traitement. L’avantage majeur était que la base de données graphes répondait aux exigences opérationnelles et analytiques environnement technique Avant l’introduction de Neo4j, Gamesys utilisait principalement des bases de données relationnelles. Gamesys a profité du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques. Les bases de données de graphes, naturellement adaptées au domaine social sont une technologique qui correspond bien mieux cet usage que les bases relationnelles,. Gamesys a débuté le projet avec trois groupes d’instances hautement disponibles, un choix adapté à l’évolutivité de leurs besoins et à des exigences de disponibilité maximales. Gamesys a également déployé une instance pour un projet d’analytique. Gamesys de exécute de cette façon des requêtes temps-réel en direct sur les données sans besoin d’un entrepôt de données, ce qui leur permet de découvrir de nouveaux indicateurs et des mesures inédites sans délai et sans besoin de pré-calculs. CONCLUSION Gamesys propose à ses clients une offre sociale compétitive et convaincante en utilisant Neo4j. Les capacités de développer rapidement et avec souplesse, ainsi que les coût raisonnable de Neo4j leur a assuré le succès. En introduisant une base de données de graphes comme Neo4j dans son architecture, Gamesys a sécurisé sa croissance future en terme d’évolutivité et d’extensibilité à un plus grand nombre d’utilisateurs. Document réalisé par la Société Corp Events - Janvier 2015 75 Retours d’expériences Big Data en entreprise NEO4J - GLASSDOOR GLASSDOOR ÉTEND SA PLATE-FORME SOCIALE INTÉGRÉE AVEC NEO4J LE DÉFI DE GLASSDOOR Glassdoor est une communauté en ligne dédiée à l’emploi qui aide les deman- deurs d’emploi à prendre des décisions professionnelles éclairées et conseille les entreprises afin d’attirer les meilleurs collaborateurs du marché. Forte de plus de 20 millions de membres, Glassdoor offre une vision à 360 degrés du travail au sein d’une entreprise particulière et à un poste donné grâce aux contributions de ses membres. Sa base de données en croissance constante contient désormais plus de 4 millions de publications anonymes : rapports sur les salaires, analyses d’entreprises, évaluations de PDG, questions posées en entretien d’embauche et autres enseignements sur l’environnement de travail. Glassdoor exploite l’idée répandue selon laquelle les réseaux personnels et professionnels permettent généralement d’obtenir un emploi, et a lancé une nouvelle initiative afin de se démarquer davantage des autres acteurs du marché de l’em ploi en ligne. En effet, elle a créé un système appelé InsideConnections permettant aux demandeurs d’emploi d’identifier parmi leurs amis de leur réseau Facebook ceux qui travaillent pour des entreprises particulières. Lorsque les membres s’inscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques permettant d’améliorer leur expérience sur le site, tels que leurs emplois actuels et pré- cédents ainsi que leur formation. En contrepartie, les membres de Glassdoor peuvent découvrir qui, parmi leurs connaissances, travaille dans certaines entreprises, et recevoir des recommandations pro- fessionnelles davantage personnalisées. sélECtion d’unE basE dE donnéEs oriEntéE GraphE Glassdoor avait besoin d’une base de données pour gérer les informations four- nies par les amis des membres et leurs amis, ainsi que les relations avec l’em- ployeur. Il a été convenu qu’une base de données orientée graphe constituait la solution parfaite pour obtenir cet ensemble de données connectées. Neo4j, qui s’intègre à sa technologie existante, a été désignée comme étant la base de don- nées idéale grâce à sa maturité et ses fonctions intégrées. ÉCHELLE, CONNEXION ET NEO4J Au cours de la première année de lancement d’InsideConnections, Glassdoor a connu une croissance phénoménale. Sa base de données sociale en constante évolution a rapidement compté plus de 600 millions de personnes, soit plus de la moitié du graphe Facebook. L’installation de Neo4j par Glassdoor a connu une croissance régulière. Toutes les données ont été réunies dans un cluster unique (et de grande capacité) haute disponibilité, conçu pour s’adapter à des débits élevés de lecture et d’écriture. CONCLUSION Neo4j constitue la technologie adaptée à la technologie de recherche d’emploi étendue de Glassdoor, et la solution idéale pour gérer les données connectées de Glassdoor. Glassdoor, qui compte dans sa base de données plus de 600 millions de membres qu’elle relie entre eux, détient l’un des plus vastes graphes sociaux du monde, offrant à ses membres une portée exceptionnellement étendue. Neo4j s’adapte au gigantesque graphe social de Glassdoor en exploitant son affinité naturelle avec les données connectées, sa technologie de clustering haute disponibilité et ses fonctionnalités de partition- nement de cache, permettant ainsi à Glassdoor d’accroître sereinement sa communauté ainsi que sa popularité. Document réalisé par la Société Corp Events - Janvier 2015 76 Retours d’expériences Big Data en entreprise NEO4J - SNAP INTERACTIVE SNAP INTERACTIVE CONQUIERT LE MARCHÉ DE LA RENCONTRE EN LIGNE AVEC NEO4J La vocation de la société basée à Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux per- sonnes d’accéder au 3e degré. Êtes-vous intéressé ? Voici la question posée à tous les utilisateurs de l’application Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP l’un des leaders du développement d’applications pour sites Web et plate- formes mobiles de réseaux sociaux. Depuis 2005, SNAP cherche à améliorer la réussite des rencontres en ligne en mettant des amis en relation et en recoupant leurs intérêts. SNAP a choisi d’ex- plorer le filon des données des connexions de 3e degré. Ingénieur Big Data chez SNAP, David Fox connaissait les statistiques. « La probabilité qu’une personne se connecte avec un ami du 3e degré est presque la même que pour un ami du 2e degré, où ils ont un ami commun », explique-t-il. « Il s’agit d’un point essentiel pouvant faire exploser l’engagement et la taille d’un réseau. » Mais ces données sont extrêmement difficiles à récupérer avec une base de données relationnelle. Le défi de SNAP consistait à représenter les données de type « amis des amis ». L’équipe ne disposait d’aucun moyen efficace de trouver les connexions de 3e degré au sein de son immense réseau social, avec plus d’un milliard d’individus dans le graphe et plus de 7 milliards de relations. David Fox a exploité Neo4j pour modéliser les données entre les utilisateurs amis et créer des connexions de 3e degré visibles (c’est-à-dire les amis d’amis ainsi que les amis des amis d’amis) à l’échelle de l’application AYI. Le retour s’est avéré colossal. Aujourd’hui, AYI est l’une des applications sociales les plus utilisées sur Internet, avec plus de 70 millions d’installations, des millions de visiteurs actifs et un par tenariat stratégique avec Match.com. « Nous continuons à innover avec Neo4j en exploitant la puissance des traversées multi-saut en temps réel pour gérer le volume de données sociales et sommes passés de 7 à 8 milliards de relations », explique David Fox. LE DÉFI À l›origine, le service de SNAP était basé sur Apache Solr et reliait les amis de 2e degré, présentant les données de type « amis des amis ». L›équipe ne parvenait pas à trouver une solution efficace pour rechercher les connexions de 3e degré au sein d›un corpus de données comptant plus d›un milliard de nœuds d›individus et plus de 7 milliards de relations. Après avoir minutieusement exploré et testé MySQL, l›équipe a conclu que cette plateforme ne permettait pas de gérer les connexions de 3e degré ni d›autres problèmes complexes. Le temps nécessaire au développement et à la maintenance de l›indexation et des jointures aurait été trop important et la solution aurait été incapable de gérer le trafic et le volume de données existant. David Fox a alors pris la décision de passer à une base de données orientée graphe et a choisi Neo4j, seule et unique solution à ses yeux capable de gérer la croissance du service AYI. POURQUOI NEO4J? Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa sim- plicité d’utilisation. SNAP a ainsi pu proposer une offre particulière- ment distinctive en améliorant nettement le nombre de recomman- dations de rencontres à travers l’exploitation des connexions de type « amis des amis ». Grâce à Neo4j, le développement a été simplifié. Cypher, le langage de requête de Neo4j, a accéléré la phase d’implé- mentation en facilitant grandement le codage. La possibilité d’utiliser Java en natif a aidé SNAP à respecter les spécificités en termes de lecture et a offert une vitesse et une flexibilité maximales pour optimi- ser l’importation d’un volume de données considérable. LES AVANTAGES Le service AYI de SNAP offre aujourd’hui des temps de réponse rapi- des sur l’un des graphes sociaux les plus vastes au monde, comptant plus d’un milliard d’individus, gérant les recommandations de ren- contres entre « amis d’amis » avec des performances en temps réel constantes. Le choix de Neo4j pour gérer le réseau social de SNAP a également permis de réduire sensiblement les délais de développe- ment et le coût global par rapport à MySQL. Neo4j a facilité l’ajout de fonctionnalités et permet des requêtes rapides et flexibles. Aujourd’hui, 98 % des requêtes sont exécutées plus rapidement que prévu. L’utilisation de Neo4j pour gérer les relations « amis d’amis » s’avère plus que payante. « Les utilisateurs vont interagir s’ils voient qu’ils ont un ami en commun, la 3e connexion. SNAP révèle les «amis des amis», générant ainsi un nombre d’utilisateurs de plus en plus important, ce qui augmente d’autant l’interaction entre les utilisa- teurs et permet une croissance rapide du réseau. Cela représente un engagement colossal, qui a fait augmenter le nombre de relations de 7 à presque 8 milliards depuis l’implémentation de Neo4j. C’est de bon augure pour notre entreprise », explique David Fox. Document réalisé par la Société Corp Events - Janvier 2015 77 Retours d’expériences Big Data en entreprise À travers Neo4j, SNAP a également gagné une précieuse vue d›ensemble de son réseau d›utilisateurs. « Lorsque nous étudions une représentation géospatiale du réseau social générée par des algorithmes, nous pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision d›ensemble du réseau et permet à SNAP de proposer des fonctionnalités innovantes et d›améliorer le service AYI. Nous y voyons de nouvelles méthodes pour améliorer les probabilités d›in- teraction. Neo4j a fourni à SNAP un moteur de base de données évolutif capable de prendre en charge l›expansion de l›entreprise et de l›application AYI, s›imposant ainsi en tant que partenaire stratégique incontournable pour d›autres services de rencontre en ligne tels que Match.com. NEO4J - TELENOR AUTORISATION DE RESSOURCES: PROBLÈME RÉSOLU AVEC UNE BASE DE DONNÉES DE GRAPHES Telenor Norvège est le principal fournisseur de télécommunications et de services de données du pays. Avec plus de 3 millions de souscripteurs mobiles, c’est éga- lement le fournisseur numéro un de bande passante de la nation et, en tant que partie du Groupe Telenor, l’un des plus grands opérateurs mobiles du monde. Les systèmes de Telenor exposent les données du client et du produit à une gamme de canaux différents, avec entre autres une solution web en autoservice, où les entreprises clientes peuvent gérer leur propre portefeuille. La disponibilité du système et les temps de réponse d’accès et de récupération sont critiques pour la satisfaction du client. SITUATION Derrière le portail d’autogestion en ligne de Telenor, vous trouverez l’intergiciel responsable de la gestion des structures d’organisation des clients, des accords, des souscriptions et de l’accès des utilisateurs à leurs souscriptions mobiles d’af- faires. L’intergiciel est soutenu par Sybase, avec des demandes implémentées en tant que procédures stockées. Comme les souscriptions mobiles ont augmenté, en donnant de grands portefeuilles de clients, et comme les utilisateurs attendent une ponctualité et des temps de réponse en temps réel des systèmes en ligne, le module d’autorisation de ressource existant écrit en SQL n’était plus assez perfor- mant. Les autorisations de ressources prenaient jusqu’à 20 minutes pour les cli- ents les plus importants et devaient être pré-calculées et mises en cache chaque nuit, ce qui causait également l’apparition de données obsolètes. Sebastian Verheughe, architecte et développeur de Telenor Mobile Middleware Services, déclare: « En tant que fournisseur premium Telco en Norvège, nous avi- ons besoin d’un système fiable pour pourvoir aux besoins de notre importante base de données. La base de données Neo4j offre des services de haute perfor- mance pour notre chaîne de valeur. La solution couvre à la fois les clients entre- prises et les résidents, leur structure corporative, les souscriptions contenant le numéro de téléphone, le plan de financement et le propriétaire/payeur/utilisateur des souscriptions, les comptes de facturation et tout accord d’affaires ou résidentiel offrant des réduc- tions pour tous les membres de l’accord. POURQUOI NEO4J? La modélisation du graphe de ressources de Neo4j était naturelle étant donné que le domaine modelé était un graphe par essence. Neo4j a fourni un accès rapide et sécurisé, et des réponses à des questions importantes, comme: À quelles souscriptions peut avoir accès un utilisateur, est-ce que l’utilisateur a accès à une ressource donnée, et de quels accords un client fait il partie ? La vitesse et la pré- cision de ces opérations sont critiques, parce que les utilisateurs du sys- tème ne peuvent pas accéder à des données tant que le calcul d’autorisa- tion n’a pas eu lieu. « Avec des dépendances complexes entre les comptes, les produits et les entreprises, le moteur à haute performance de Neo4j offre une flexibilité de représentation des données, avec des caractéristiques qui vont au-delà des bases de données relationnelles habituelles ». BÉNÉFICES En surmontant à la fois les limites de performances et de fiabilité des données du projet précédent, Neo4j a permis des performances élevées et une exécution fiable des règles d’autorisation. La transition a eu pour résultat non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les règles d’accès peuvent être exprimées encore plus facilement dans un graphe. Les temps de réponse ont été réduits à quelques secondes, voire millisecondes, dans de nombreux cas, alors qu’ils étaient de plusieurs minutes auparavant. Document réalisé par la Société Corp Events - Janvier 2015 78 Retours d’expériences Big Data en entreprise NEO4J - WALMART WALMART S’APPUIE SUR NEO4J POUR OFFRIR À SES CLIENTS LA MEILLEURE EXPÉRIENCE WEB PAR LE BIAIS DE RECOMMANDATIONS PERSONNELLES PERTINENTES Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est dev- enue la plus grande société anonyme par actions au monde avec plus de 2 mil- lions d’employés et un chiffre d’affaires annuel de 470 milliards de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand détaillant au monde, et la base de données Neo4j représente un atout essentiel pour maintenir cette position. Plus de 250 millions de clients se rendent chaque semaine dans l’un des 11 000 magasins Walmart répartis sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe d’e-commerce brésilien de Walmart a choisi Neo4j pour parvenir à comprendre le comportement et les préférences des acheteurs en ligne, avec une précision et une vitesse telles qu’il devient pos- sible de proposer des recommandations personnalisées en temps réel et ainsi maximiser les bénéfices. Marcos Wada, développeur logiciel du service d’e-commerce de Walmart, groupe Brésil, nous en dit plus : « Neo4j nous aide à comprendre le com- portement de nos clients en ligne et la relation entre nos clients et nos produits. Il s’agit de l’outil parfait pour les recommandations de produits en temps réel. » LE DÉFI Dans sa quête de la meilleure expérience Web pour ses clients, Walmart cherchait à optimiser ses recommandations en ligne. De nos jours, les clients s’attendent à des recommandations parfaitement person- nalisées et répondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de données capables d’établir des liens entre les don- nées client et produit – complexes et volumineuses – et les données connectées en général, dans le but de mieux appréhender les besoins des clients ainsi que les tendances de consommation. Walmart s’est rendu compte du défi auquel il faisait face avec la technologie de base de données rela- tionnelle traditionnelle. Comme l’explique Marcos : « En raison de la complexité de nos requêtes, une base de données relationnelle ne suffisait pas pour satisfaire nos exigences en matière de performance et de simplicité. » Pour pallier à ce problème, l’équipe de Marcos a décidé d’utiliser une base de données orientée graphe Neo4j, le leader du marché. POURQUOI NEO4J ? Les bases de données orientées graphe peuvent rapidement interroger l’historique d’achat des clients, ainsi que capturer les nouveaux intérêts manifestés par les clients au cours de leur visite sur le site, ce qui s’avère essentiel pour proposer des recommandations en temps réel. Faire correspondre les données d’historique et de session de cette manière est chose aisée pour les bases de données orientées graphe telles que Neo4j, qui surpassent de loin les performances des bases de données relationnelles et NoSQL. Marcos a assisté pour la première fois à une démonstration de Neo4j à la conférence QCON de New York en 2012 et a tout de suite compris : « Neo4j peut nous permettre de remplacer un processus lourd de traite- ment par lot par une base de données orientée graphe simple et en temps réel. » À partir de là, son équipe a testé la technologie et a obtenu des résultats positifs qui l›ont aidé à mûrir sa décision. Son verdict ? « Il est parfaitement adapté à nos besoins. » LES AVANTAGES Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la montée en gamme et les ventes croisées des prin- cipales lignes de produits dans les marchés clés. Neo4j a été déployé dans son application de marketing de relance, gérée par l’équipe informatique d’e-commerce de l’entreprise basée au Brésil. Walmart utilise Neo4j en production depuis début 2013 et est passé à la version 2.0 cette année. Marcos nous explique les avantages : « Neo4j nous a permis de remplacer un processus par lot com- pliqué que nous utilisions pour préparer notre base de données relationnelle par une base de données orientée graphe simple et en temps réel. Nous avons pu concevoir un système de recommandation simple et en temps réel avec des requêtes à faible latence. » Il conclut : « En tant que leader actuel sur le marché des bases de données orientées graphe, Neo4j représente l’outil idéal pour atteindre nos objectifs, notamment grâce à ses fonctionnalités métier offrant évolutivité et disponibilité. » À PROPOS DE NEO TECHNOLOGY Les graphes nous entourent. Neo Technology a joué un rôle prépondérant en rendant la technologie des graphes accessible à de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de croître, parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depuis plus de dix ans, Neo4j s’est imposé comme le leader mondial dans le domaine des bases de données orientées graphe, grâce à un large éventail de partenariats et des dizaines de milliers de déploiements couronnés de succès. Document réalisé par la Société Corp Events - Janvier 2015 79 Retours d’expériences Big Data en entreprise SAP - MOBILINK LA SOLUTION SAP INFINITEINSIGHT A PERMIS À MOBILINK DE BOOSTER DE 380 % LE TAUX DE RÉPONSE DE SES CAMPAGNES Société Mobilink | Siège social Islamabad (Pakistan) | Secteur d’activité Télécommunications | Produits et services Services de communication fixes et sans fil haut débit – Services de communication de données | Salariés 7000 | Chiffre d’affaires 1,1 milliard $USD; Rapprocher les personnes à travers des solutions de communication innovantes, c’est la solution adoptée par Mobilink pour devenir le principal fournisseur de télécommunications du Pakistan. Face à la croissance explosive du marché et à une concurrence féroce, Mobilink avait besoin de se protéger contre le taux d’attrition des clients en proposant certains services aux bons clients et au bon moment. Pour relever ce défi, Mobilink a dû extraire de la connaissance client de ses 35 millions d’abonnés et de 200.000 distributeurs présents dans 10.000 villes et villages du Pakistan. LES PRIORITÉS DE L’ENTREPRISE • Devancer la concurrence à travers une approche « prochaine action ciblée », qui permet de proposer les meilleures offres, aux meilleurs clients, au meilleur moment • Utiliser les big data et l’analyse prédictive pour renforcer la confiance des clients, les fidéliser, diminuer le taux d’attrition toute en maintenant les marges de profit LA SOLUTION • Après avoir étudié les solutions d’autres fournisseurs telles que SAS et SPSS, a rapidement déployé la solution SAP InfiniteInsight pour bénéficier de ses excellentes capacités prédictives, de son interface ergonomique et de sa compatibilité avec de nombreuses autres solutions • A élaboré des modèles prédictifs, combinés avec des techniques de clustering et d’analyse des big data collectées sur les réseaux sociaux pour dégager une connaissance essentielle sur le comportement des clients LES PRINCIPAUX AVANTAGES • Campagnes mieux ciblées et promotions plus efficaces, ce qui s’est traduit par une utilisation accrue des services à valeur ajoutée tels que SMS, sonneries et musique • Réduction du taux d’attrition par prédiction puis prévention du comportement des clients • Meilleure connaissance des communautés d’intérêt (grandes ou petites), ce qui a permis d’injecter du marketing viral dans de nouveaux segments en vue d’acquérir de nouveaux clients et de réduire le taux d’attrition 8x : Augmentation de l’efficacité des offres de rétention des clients (de 0,5 % à environ 4 %) avec une dépense réduite 380 % : Augmentation du taux de réponse aux campagnes grâce à l’analyse des réseaux sociaux <1 jour : Pour déployer de nouveaux modèles prédictifs SAP - COX AMÉLIORATION SPECTACULAIRE DE LA RELATION CLIENT AVEC SAP INFINITEINSIGHT Société Cox Communications Inc. | Siège social Atlanta (Géorgie) | Secteur d’activité Télécommunications | Produits et services Services bande large et divertissement par câble | Salariés 50.000 | Chiffre d’affaires 15 milliards $USD Troisième plus grand prestataire de services large bande et de divertissement par câble aux États-Unis, Cox Communications a été l’un des premiers à proposer une offre groupée de services de téléphone, télévision et Web pour permettre aux consommateurs de s’adresser à un fournisseur unique. Pour améliorer son service à la clientèle et la vie numérique des individus, Cox avait besoin de technologie pour personnaliser ses offres auprès de 6 millions d’abonnés dans 28 régions. Document réalisé par la Société Corp Events - Janvier 2015 80 Retours d’expériences Big Data en entreprise LES PRIORITÉS DE L’ENTREPRISE • Élaborer des modèles prédictifs pour faciliter la création d’offres personnalisées, plus rapidement et avec une plus grande précision pour plus de 6 millions d’abonnés dans 28 régions • Doubler le taux de conversion des campagnes de marketing direct LA SOLUTION • A déployé la solution SAP InfiniteInsight pour analyse prédictive, y compris segmentation, classification, régression et agrégation des données • A optimisé ses processus d’analyse du marché à l’échelle de l’entreprise grâce à une équipe analytique centralisée chargée de couvrir ses 28 régions LES PRINCIPAUX AVANTAGES • Une solution évolutive pour accompagner les besoins à court et long terme, y compris modélisation prédictive pour les acquisitions de client, la rétention des clients, l’évaluation des clients sur la durée et le marketing événementiel • Analyse précise et rapide de 10 millions d’observations et de 800 variables pour analyser le comportement des clients, dont propension à l’achat, risques d’attritions et risques de solvabilité 14 % : Augmentation du nombre de produits par foyer 28 % : Réduction du taux d’attrition des clients 80 % : Réduction du temps de création des modèles 42x : Rendement plus élevé pour les analystes (de 40 à 1680 modèles prédictifs par an) SAP - BELGACOM PRÉVOIR DES TENDANCES SUR L’ENSEMBLE DES CANAUX D’INTERACTION CLIENT AVEC SAP® INFINITEINSIGHT® Société Groupe Belgacom| Siège social Bruxelles, Belgique | Secteur d’activité Télécommunications| Produits et services Services de téléphonie fixe et mobile, de télévision et d’Internet| Salariés 15 859 (2012) | Chiffre d’affaires 6,4 million d’€ (2012). En matière de services de téléphonie, d’Internet et de télévision, Belgacom est un opérateur de télécommunications incontournable en Belgique. En règle générale, il est pourtant difficile de réussir le lancement de nouveaux produits sur ce marché hautement compétitif. Avec la solution SAP® InfiniteInsight®, Belgacom a pourtant su relever ce challenge en automatisant les outils d’exploration de données (« data mining ») qui permettent de mieux comprendre les besoins de chaque client et de déployer ainsi des services et des campagnes personnalisés répondant précisément à leurs attentes. Résultat : le taux de satisfaction des clients de Belgacom ne cesse d’augmenter. OBJECTIFS • Exploiter de précieuses informations cachées sur la clientèle permettant d’augmenter la fidélisation et d’identifier de nouvelles perspectives de croissance • Améliorer la détection des risques de défection, accélérer le déploiement de modèles prédictifs et identifier les sources de revenus potentiels à toutes les étapes de la relation client POURQUOI SAP • Un savoir-faire et des résultats reconnus dans le secteur des télécommunications • Des modèles prédictifs puissants et fiables pour analyser les comportements clients (professionnels et particuliers) avec la solution SAP® InfiniteInsight® • Une solution flexible et conviviale, au service de statisticiens et d’analystes de gestion qualifiés AVANTAGES • Un marketing prédictif opérationnel sur tous les canaux d’interaction avec les clients, des centres d’appels aux boutiques en ligne • Des échanges de qualité optimale d’un bout à l’autre de la relation client permettant de tirer profit d’une mine d’informations de grande valeur • De nouvelles opportunités de revenu issues de failles ou de lacunes du marché • Des taux accrus de satisfaction et de rétention des clients • Un meilleur retour sur investissement marketing • Un temps de modélisation ramené de plusieurs mois à quelques jours Document réalisé par la Société Corp Events - Janvier 2015 81 Retours d’expériences Big Data en entreprise SAP - BANGLALINK DIGITAL COMMUNICATIONS MAINTENIR LE CHIFFRE D’AFFAIRES ET AMÉLIORER L’EXPÉRIENCE CLIENT Société Banglalink Digital Communications Ltd. | Siège social Dhaka (Bangladesh) | Secteur d’activité Télécommunications | Produits et services Services de télécommunication intégrés (technologies voix, données, mobile traditionnel et mobile haut débit, fixe)| Salariés 2500 | Chiffre d’affaires 550 millions $USD : Depuis 2005, Banglalink Digital Communications Ltd. se positionne comme l’un des principaux opérateurs de téléphonie mobile du Bangladesh. Cette société améliore la vie des citoyens en leur proposant des services de télécommunication à coût modéré. Pour faciliter la diffusion de ses solutions de télécommunications mobiles au plus grand nombre, Banglalink a utilisé la solution SAP InfiniteInsight. En définissant des modèles prédictifs, Banglalink parvient à conserver d›importants flux de chiffre d›affaires en luttant contre le taux d›attrition et à améliorer l’expérience globale de ses clients. OBJECTIFS • Améliorer les résultats des campagnes de rétention pour lutter contre le taux d’attrition des clients • Analyser les big data générées par des sources telles que les enregistrements des centres d’appel, les abonnements aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires POURQUOI SAP • Supporte l’élaboration de modèles prédictifs, même par les utilisateurs ayant peu ou pas d’expérience en informatique ou en statistiques • Inclut des modèles prédictifs et une architecture de données analytiques. Ces éléments prédéfinis permettent de réduire le temps nécessaire pour préparer les données analytiques, élaborer les modèles prédictifs et déployer les scores résultants en production AVANTAGES • A pu définir un modèle capable de détecter plus d’un quart des clients en risque d’attrition, en utilisant seulement un échantillon de 10 % des scores les plus élevés • A déployé la solution SAP InfiniteInsight en moins de cinq mois • A découvert les outils nécessaires pour créer et déployer des modèles de prévision en quelques heures, et non en plusieurs semaines ou plusieurs mois PLANS FUTURS • Intégrer des modèles prédictifs dans le système de gestion des campagnes, de manière à proposer aux abonnés la meilleure offre au meilleur moment, dans tous les canaux côté clients • Ajouter l’application SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intégrer dans des programmes de marketing viral, et pour détecter toute activité frauduleuse chez les clients SAP - VODAFONE CIBLER LES CLIENTS AVEC DES OFFRES PLUS PERTINENTES Société Vodafone Pays-Bas| Siège social Amsterdam (Pays-Bas) | Secteur d’activité Télécommunications | Produits et services Services de télécommunication, y compris paiement à la réception pour consommateurs et entreprises, paiement fixe, paiement à l’envoi et paiement de machine à machine « L›analyse prédictive est importante, car elle permet à une entreprise de tirer le meilleur parti possible de ses dépenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et pour éviter de les contacter trop souvent. » Viliah Overwater, Analyste senior en modélisation, Vodafone Pays-Bas Document réalisé par la Société Corp Events - Janvier 2015 82 Retours d’expériences Big Data en entreprise SAP - XL XL DOUBLE LES RÉSULTATS DE SES CAMPAGNES MARKETING AVEC LA SOLUTION SAP® INFINITEINSIGHT® Société PT XL Axiata Tbk | Siège social Djakarta (Indonésie) | Secteur d’activité Télécommunications | Produits et services Communications mobiles, Internet haut débit, communication de données, services 3G | Salariés 2,000 | Chiffre d’affaires 2,1 milliards $USD « Nous avons pu exécuter des campagnes marketing finement ciblées grâce aux modèles prédictifs générés par SAP InfiniteInsight. Depuis le déploiement de cette solution, nous avons réduit le taux d’attrition de 8,2 % dans tous les domaines et nous avons augmenté notre base de clientèle de près de 25 %. » Pradeep Kumar, directeur général de l’analytique client chez PT XL Axiata Tbk PRINCIPAUX OBJECTIFS • Devancer la concurrence dans un marché concurrentiel et presque saturé • Générer des relations plus profitables avec nos clients et améliorer leur rétention et leur fidélisation POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ? • La modélisation prédictive permet d’analyser des données sur plus 40 millions d’abonnés et de déterminer certaines caractéristiques telles que l’attractivité des produits et les risques de taux d’attrition • Plébiscitée par rapport aux solutions concurrentes et traditionnelles de gestion de la rétention et de la fidélisation des clients parce qu’elle elle est rapide à déployer, facile à utiliser et qu’elle contribue à l’agilité des opérations marketing PRINCIPAUX AVANTAGES • Possibilité d’élaborer des modèles prédictifs en quelques heures • Utilisation des données d’éligibilité du client, de disponibilité en inventaire et de profitabilité pour prioriser la présentation des offres et déployer une approche « prochaine action ciblée » • Optimisation des campagnes pour rétention maximale, ventes croisées/ventes de gamme supérieure dans les différents canaux marketing, augmentation du chiffre d’affaires et de l’activité des abonnés • Identification proactive et ciblage très en amont des clients en risque d’attrition 200 % : Augmentation du taux de conversion des campagnes 28 % : Augmentation de la précision des prédictions lors du ciblage des influenceurs sociaux 66,6 % : Réduction globale du taux d’attrition de 8,2 % et acquisition d’abonnés à plus forte valeur 25 % : Croissance de la base de clientèle 102 % : Retour sur investissement SAP - AVIVA CONNAISSANCE DU CLIENT PAR L’ANALYSE PRÉDICTIVE Société Aviva plc | Siège social Londres (Angleterre) | Secteur d’activité Assurance | Produits et services Assurance générale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salariés 27.700 (monde) | Bénéfice d’exploitation 2,5 milliards €. Aviva protège environ 31 millions de clients dans le monde entier avec ses produits d’assurance, d’épargne et d’investissement. Aviva est le plus grand assureur du Royaume-Uni, et également l’un des principaux prestataires européens en assurance, assurance-vie et gestion d’actifs. Fermement engagée dans le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la société, Aviva a choisi la solution SAP InfiniteInsight. Ses modèles prédictifs aident Aviva à dégager la connaissance nécessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment. Document réalisé par la Société Corp Events - Janvier 2015 83 Retours d’expériences Big Data en entreprise OBJECTIFS • Utiliser l’analyse prédictive pour élaborer des modèles de propension décrivant des groupes de clients spécifiques plutôt que des modèles génériques portant sur l’ensemble des clients • Éviter de contacter les clients trop souvent tout en améliorant les taux de réponse des campagnes • Augmenter le retour sur les investissements marketing et améliorer le succès des campagnes en identifiant les clients les plus susceptibles de répondre POURQUOI SAP • Les nombreux graphiques permettent aux experts marketing de visualiser l’impact prévisible des modèles • L’automatisation très efficace de la modélisation permet de définir rapidement et facilement une gamme complète de modèles • L’analyse automatique de la contribution à un modèle de plusieurs centaines de variables remplace l’examen visuel d’un nombre limité de variables AVANTAGES • Taux de réponse aux campagnes plus élevé et plus grande valeur des clients sur la durée grâce à des offres mieux personnalisées • Augmentation significative du nombre de modèles de propension utilisés dans la société (dont plus de 30 modèles en production) • Possibilité d’utiliser les données les plus récentes pour actualiser les modèles et capturer les dernières tendances PLANS FUTURS • Améliorer nettement le retour sur les investissements marketing par une modélisation des intentions des clients capable de prédire l’impact des initiatives de marketing sur des groupes cibles spécifiques • Élaborer des modèles prédictifs pour analyser l’acquisition et la relance des clients SAP - ELDORADO AMÉLIORATION SPECTACULAIRE DE LA PRÉCISION DES PRÉVISIONS DE VENTES AVEC LA SOLUTION SAP INFINITEINSIGHT Société Eldorado LLC | Siège social Moscou (Russie) | Secteur d’activité Distribution | Produits et services Électronique grand public et appareils électroménagers | Salariés 15.000 | Chiffre d’affaires 2.4 milliards € (2012) Pour les produits électroniques, les appliances, les ordinateurs, etc., les Russes plébiscitent Eldorado. Réseau fort de 700 magasins et franchises, plus de 30 présences en ligne et 120 points de commande et d’enlèvement, ce distributeur russe doit gérer d’importants volumes de données pour améliorer la prévision de ses ventes, exploiter un potentiel de chiffre d’affaires insoupçonné et réduire considérablement ses frais d’inventaire. Pour exploiter au mieux ses big data grâce à l’analyse prédictive, Eldorado a choisi la solution SAP InfiniteInsight. OBJECTIFS • Analyser les données stockées dans la solution SAP 360 Customer, générées par plus de 1,5 millions de transactions sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 références par mois • Améliorer la précision des prévisions pour booster les ventes et réduire le coût des inventaires POURQUOI SAP • Partenaire technologique de confiance avec une expérience démontrée et des succès dans l’ensemble du secteur • Possibilité d’utiliser plus efficacement l’accès en temps réel aux gros volumes de données déjà disponibles avec l’application SAP Business Warehouse (avec SAP HANA) et avec l’application SAP Planning for Distribution • Facilité d’utilisation, précision des modèles prédictifs et outils automatisés innovants disponibles avec la solution SAP InfiniteInsight AVANTAGES • Élaborer environ 500 modèles prédictifs par mois – une tâche impossible à envisager avec les techniques de modélisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour définir un seul modèle • Création de prévisions pour la planification des assortiments, réapprovisionnement des étagères, analyse des prix et des promotions, fusion de magasins, sélection de l’emplacement des magasins et planification des ventes et des achats • Précision jusqu’à 82 % des prévisions de ventes, une amélioration de 10 % par rapport aux techniques précédentes Document réalisé par la Société Corp Events - Janvier 2015 84 Retours d’expériences Big Data en entreprise PLANS FUTURS • Migrer d’autres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de traitement en mémoire • Poursuivre l’expansion et faire évoluer les activités de l’entreprise en faisant appel à des systèmes IT performants et à l’innovation SAP - SAMSE OPTIMISER LA PRÉVENTION DES RISQUES, LES INVESTISSEMENTS MARKETING ET LA GESTION DES STOCKS AVEC SAP® INFINITEINSIGHT® Société Groupe SAMSE | Siège social Grenoble, France | Secteur d’activité Grande distribution | Produits et services Distribution de produits et services (matériaux et outils de construction) | Salariés 5,000 | Chiffre d’affaires1,138 million d’€. Que ce soit pour entreprendre un projet de développement de grande envergure ou rénover son domicile, les professionnels comme les bricoleurs du dimanche français font confiance aux outils, matériaux et conseils personnalisés que propose le groupe SAMSE. Grâce à la solution SAP® InfiniteInsight®, Groupe SAMSE peut développer des modèles prédictifs pour analyser et exploiter les énormes masses de données clients recueillies chaque jour. Avec des taux de réponse aux campagnes marketing en augmentation de 220 %, Groupe SAMSE propose à ses clients des offres taillées pour leurs besoins. OBJECTIFS • Optimiser les performances des campagnes marketing, la prévention des risques et la planification des stocks pour 25 marques et 290 points de vente • Analyser des téraoctets de données issues de plus de 300 000 détenteurs de cartes de fidélité et de 30 000 entreprises clientes chaque jour • Développer une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la compléter d’analyses approfondies • Mettre à jour les modèles prédictifs chaque semaine, plutôt que mensuellement, pour renforcer la fiabilité des prévisions POURQUOI SAP • Des analyses réutilisables et facilement modifiables avec la solution SAP® InfiniteInsight® • Des modèles prédictifs qui facilitent la planifica- tion de plus de 75 unités de gestion des stocks de produits et l’analyse de la cote de solvabilité pour prévoir le risque de défaut de paiement des clients AVANTAGES • Des taux de réponse aux campagnes de marketing direct en augmentation de 220 % • La mise à jour des modèles prédictifs ramenée de plusieurs mois à une semaine seulement • Un équilibre entre une exploration systématique et flexible des données quotidiennes relatives aux marques du groupe à l’aide de modèles prédictifs • Un système d’alerte précoce pour les projets de construction de particuliers, permettant d’établir des recommandations de produits personnalisées quasiment en temps réel sur plusieurs canaux d’interaction avec les clients, notamment les magasins, les centres d’appels et les commerciaux PLANS FUTURS • Attirer toujours plus de clients grâce à une juste appréciation de leurs comportements • Poursuivre une stratégie d’optimisation de l’activité en adoptant des technologies de pointe Document réalisé par la Société Corp Events - Janvier 2015 85 Retours d’expériences Big Data en entreprise SAP - HSE24 INFLUENCER POSITIVEMENT LE COMPORTEMENT D’ACHAT DES CONSOMMATEURS AVEC UN LOGICIEL ANALYTIQUE PLUS PERFORMANT ET AVEC SAP HANA® Société Home Shopping Europe GmbH (HSE24) | Siège social Ismaning (Allemagne) | Secteur d’activité Distribution | Produits et services Mode, bijoux, produits de beauté pour la maison | Salariés Environ 2900 (y compris centre d’appels externe et personnel logistique) | Visiteurs 515 millions € (2012) « Avec SAP HANA, nous avons vu une opportunité d›influencer le comportement d›achat de nos clients et de réduire le taux de retour des produits. Chaque année, plus de 11,5 millions de colis HSE24 sont envoyés à 1,5 millions de clients. Spécialisés dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 % pourrait conduire à une économie à sept chiffres ! » Michael Kuenzel, vice-président IT chez Home Shopping Europe GmbH (HSE24) LES PRIORITÉS DE L’ENTREPRISE • Devenir une entreprise de vente et de service clientèle de classe mondiale • Réduire les retours des commandes en VPC • Réagir à la demande en temps réel LA SOLUTION • Déploiement du logiciel SAP® Predictive Analysis et de l’application analytique SAP Audience Discovery and Targeting (avec SAP HANA®) • Définition d’un plan de migration de l’application SAP Customer Relationship Management à SAP HANA (phase II du projet d’implémentation de SAP HANA) LES PRINCIPAUX AVANTAGES • La vue à 360 degrés des informations client permet de définir des campagnes ciblées plus précises et mieux ciblées et facilite les interactions avec les clients • L’accès instantané à l’ensemble des données client permet aux spécialistes marketing de prendre les mesures appropriées pour réduire le taux de retours • Les interactions plus riches avec les clients facilitent la définition d’offres pertinentes pour les consommateurs et reflètent mieux les exigences uniques de chaque personne - Temps réel : L’agrégation des données fournit une vue complète de chaque client - Efficace : Interactions plus puissantes et plus efficaces avec les clients - Ciblé : Des campagnes marketing qui mettent l’accent sur des segments spécifiques de clientèle - Pertinent : Des offres qui répondent avec une meilleure précision aux demandes de clients SAP - MONEXT RÉDUIRE LA FRAUDE SUR UN MILLIARD DE TRANSACTIONS ÉLECTRONIQUES ANNUELLES AVEC LA SOLUTION SAP® INFINITEINSIGHT® Société Monext SAS | Siège social Courbevoie, France | Secteur d’activité Banque | Produits et services Solutions et services de traitement des paiements et des cartes de paiement | Salariés 480 | Chiffre d’affaires €67 million (2011) « SAP InfiniteInsight nous procurera un réel avantage concurrentiel et nous fera ainsi économiser chaque année des centaines de millions d’euros. » Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS Document réalisé par la Société Corp Events - Janvier 2015 86 Retours d’expériences Big Data en entreprise OBJECTIFS • Réduire la fraude électronique pour quelques-uns des principaux e-commerçants, distributeurs et banques européens • Remplacer une solution analytique externalisée qui utilisait un modèle générique pour prédire la fraude électronique • Diminuer les fausses alertes pour améliorer l’expérience client et réduire les coûts du centre d’appels POURQUOI SAP • Modélisation prédictive adaptée à chaque fournisseur de carte et type de carte, notamment les cartes de crédit, de débit, prépayées, premium, disponible avec la solution SAP® InfiniteInsight®. • Formation automatisée pour une modélisation rapide, alliée à une interface puissante et conviviale AVANTAGES • Un analyste à mi-temps suffit pour créer des modèles personnalisés pour chaque fournisseur et type de carte • Résultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines • Analyse des Big Data collectées sur des centaines de millions de transactions et jusqu’à 500 attributs natifs et dérivés utilisés pour évaluer les transactions en quelques millisecondes • Économie de centaines de millions d’euros sur les pertes annuelles potentielles de revenus pour les fournisseurs de cartes afin de procurer un réel avantage concurrentiel et d’améliorer considérablement l’expérience client PROJETS À VENIR • Innover davantage pour effectuer des paiements de manière encore plus pratique et sûre sur tous les canaux électroniques • Continuer à soutenir et à protéger les entreprises et les consommateurs à l’aide de la technologie logicielle SAP SAP - AMERICAN AUTOMOBILE ASSOCIATION EN ROUTE VERS UNE MEILLEURE COMPRÉHENSION DES CLIENTS Société American Automobile Association (AAA) | Siège social Orlando (Floride) | Secteur d’activité Assurance | Produits et services Assistance aux automobilistes – Véhicules, voyages et services financiers | Salariés > 40.000 Sur la route, des millions d’Américains font confiance à l’American Automobile Association (AAA) pour ses services d’assistance, d’assurance et de dépannage. Pour optimiser les services des 44 automobile-clubs AAA des ÉtatsUnis et du Canada, le AAA National Office a créé un « centre d’action » centralisé pour dégager une meilleure connaissance des besoins de ses membres. Avec l’analyse prédictive performante proposée par la solution SAP InfiniteInsight, AAA peut répondre aux besoins de ses membres au moment précis où ils les expriment. SAP - SKYROCK MONÉTISER LE RÉSEAU SOCIAL AVEC SAP® INFINITEINSIGHT® RECOMMANDATION Société Skyrock.com | Siège social Paris | Secteur d’activité Médias| Produits et services Services de partage de réseaux sociaux, de blogs et de médias | Salariés 80 | Visiteurs 12 million per month En matière de contenu en ligne, les internautes font confiance à leurs amis pour découvrir de nouveaux sujets d’intérêt. En mettant gratuitement à disposition de ses membres un espace Web personnalisé pour y créer des blogs, ajouter des profils et échanger des messages avec d’autres membres inscrits, Skyrock.com est l’un des réseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la société recherchait une solution lui permettant de tirer parti de toutes ces données clients et monétiser sa croissance rapide. Document réalisé par la Société Corp Events - Janvier 2015 87 Retours d’expériences Big Data en entreprise LES PRIORITÉS DE L’ENTREPRISE • Décrypter les sources de Big Data pour obtenir des prévisions précises et des recommandations personnalisées sur les produits, les amis et le contenu • Améliorer la fidélité au site et l’engagement social • Augmenter le nombre de pages consultées par visite pour proposer des annonces publicitaires payantes plus rémunératrices et doper les revenus LA SOLUTION • Déploiement de l’application SAP® InfiniteInsight® Recommendation, en permettant la segmentation à l’aide de l’analyse des réseaux sociaux et les recommandations sociales d’« amis » • Lancement d’un projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des goûts pour accroître la fidélité au site LES PRINCIPAUX AVANTAGES • Possibilité de fournir chaque matin des recommandations d’« amis » pertinentes aux membres du site • Meilleure compréhension des utilisateurs, facilitant ainsi l’identification des communautés partageant les mêmes centres d’intérêt, des caractéristiques et des comportements, comme les fans de shopping, les amateurs d’équitation, les jeunes mamans et les passionnés d’automobile 20 : Recommandations d’amis pertinentes envoyées chaque matin aux membres du site 2x : Plus de demandes d’ajout d’ami et augmentation correspondante du taux d’acceptation <600 000 : Nouveaux liens d’amis chaque jour 20 000 : Communautés distinctes identifiées SAP - COOPERATIVA ITALIANA DI RISTORAZIONE AMÉLIORER L’EFFICACITÉ ET PRENDRE DES DÉCISIONS PLUS AVISÉES AVEC LES SOLUTIONS SAP Société Cooperativa Italiana di Ristorazione S.C. (CIR food) | Siège social Reggio Emilia (Italie)| Secteur d’activité Voyages et transport – Événementiel | Produits et services Services alimentation et restaurants, tickets repas, traiteur/catering, planification de services de formation | Chiffre d’affaires 500 millions € | Salariés 11.500 | Partenaire B4C Consulting. « CIR food compte sur ses partenaires pour l›aider à atteindre ses objectifs commerciaux. Les solutions SAP nous aident non seulement à obtenir des résultats exceptionnels, mais elles nous permettent également de réduire notre dépendance envers le département IT et à atteindre nos objectifs de chiffre d’affaires. » Luca Baccarini, DSI chez Cooperativa Italiana di Ristorazione S.C. CIR food OBJECTIFS • Implémenter un système de reporting performant pour dégager plus rapidement de la connaissance sur le statut des budgets et pour réduire les temps de réaction • Réduire la charge du département IT en proposant des rapports en libre-service à l’ensemble des utilisateurs, sur le lieu de travail et en mobilité • Proposer un système de prévision qui diffuse aux restaurants des données susceptibles d’améliorer les décisions d’achat et d’embauche POURQUOI SAP • Fournit des solutions innovantes pour la plupart des activités de l’entreprise, dont gestion des ressources (ERP), gestion des stocks, Business Intelligence (BI) et analytique • Propose un portefeuille complet de solutions analytiques qui s’intègrent parfaitement avec les logiciels SAP Business Suite AVANTAGES • Avec le logiciel SAP HANA, reporting nettement plus rapide (surtout sur les terminaux mobiles) • Meilleure navigation des données de la base SAP HANA grâce au logiciel SAP Lumira®. Réduit la dépendance envers le département IT • Le logiciel SAP Predictive Analysis dégage une meilleure connaissance des tendances en matière de restaurants, ce qui facilite les décisions d’inventaire et d’embauche • Avec l’application SAP Business Planning and Consolidation, réduction de 4,5 mois à 1 mois du temps nécessaire pour générer le budget. 77 % : Réduction du temps nécessaire pour générer le budget (avec SAP Business Planning and Consolidation) 4 000 % : Augmentation du nombre moyen d’utilisateurs quotidiens des outils de BI Plus grande Indépendance des utilisateurs, d’où une réduction des sollicitations du département IT Document réalisé par la Société Corp Events - Janvier 2015 88 Retours d’expériences Big Data en entreprise SAP - TIPP24.COM MULTIPLICATION PAR 4 DES PERFORMANCES DE SES CAMPAGNES MARKETING AVEC SAP® INFINITEINSIGHT® Société Tipp24.com | Siège social Londres (Angleterre) | Secteur d’activité Sports et divertissement | Produits et services Loteries en ligne Pour mieux comprendre ses clients et améliorer la précision de ses activités marketing, Tipp24.com, un des principaux intermédiaires de loterie sous licence d’Europe, a opté pour une solution d’analyse prédictive. En faisant appel à la solution SAP® InfiniteInsight® pour sa modélisation prédictive, Tipp24 a pu améliorer de 300 % la précision de ses ciblages. Ces résultats lui permettent de proposer les meilleures loteries aux joueurs et de leur souhaiter Bonne chance ! PRINCIPAUX OBJECTIFS • Mieux comprendre le client sur la durée pour suivre les clients de grande valeur, augmenter les opportunités de vente croisée et de vente de gamme supérieure et réduire l’attrition • Collecter des données détaillée sur le comportement des clients pour optimiser les campagnes marketing • Mettre à la disposition des activités marketing et des canaux client une solution efficace de modélisation prédictive POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ? • Améliorer les performances et l’évolutivité par rapport aux logiciels SAS et SPSS d’IBM • Possibilité d’identifier les tendances de comportement des clients en vue d’améliorer leur satisfaction • Possibilité de prédire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de redevenir actifs PRINCIPAUX AVANTAGES • Optimise les campagnes et le comportement des clients sur la durée dans plusieurs canaux, y compris téléphone, marketing direct et mail • Permet la gestion proactive des relations avec les clients à grande valeur (existants et potentiels) • Réduit le taux d’attrition et augmente la valeur des clients sur la durée 300 % : Amélioration de la précision de ciblage, y compris identification des joueurs qui seraient les plus intéressés par des participations hebdomadaires, mensuelles ou permanentes à certaines loteries 25 % : Réduction de la taille de l’audience ciblée pour une campagne donnée (grâce à des fonctions analytiques plus précises) 90 % : Réduction du temps nécessaire pour créer et déployer des modèles prédictifs (de plusieurs semaines à quelques jours), augmentation de la productivité de l’équipe Analytique SAP - KAESER KOMPRESSOREN TRANSFORMATION DES ACTIVITÉS AVEC SAP® BUSINESS SUITE (ET SAP HANA®) Société Kaeser Kompressoren SE | Siège social Cobourg (Allemagne) | Secteur d’activité Machines et équipements industriels | Produits et services Systèmes à air comprimé (y compris services de consulting) | Salariés 4400 | Chiffre d’affaires 600 millions € (2012) | Partenaire SAP® Consulting « Nous allons mettre à profit toute la puissance de SAP HANA pour améliorer les processus métier existants, déployer des processus entièrement nouveaux et réduire notre TCO. Nous avons pris un excellent Document réalisé par la Société Corp Events - Janvier 2015 89 Retours d’expériences Big Data en entreprise départ avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opération va être suivie par le déploiement d›autres applications SAP Business Suite et de solutions personnalisées. » Falko Lameter, DSI chez KAESER KOMPRESSOREN OBJECTIFS • Définir un environnement IT innovant et capable de supporter l’évolution vers un business mode de prestataire en solutions • Améliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance prédictive pour devenir plus concurrentiel, plus proactifs et plus à l’écoute des clients • Tirer parti de la plate-forme SAP HANA® pour transformer et simplifier le paysage de solutions SAP IMPLÉMENTATION TECHNIQUE • Migration efficace de l’application SAP Customer Relationship Management (SAP CRM) à SAP HANA en 2,5 mois – et avec un temps d’arrêt limité à 1,5 jour • Excellente collaboration avec SAP pendant toutes les phases du projet PLANS FUTURS • Déployer des fonctionnalités de maintenance prédictive (solution personnalisée basée sur SAP CRM et SAP HANA) pour améliorer le service client • Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Management et SAP Business Warehouse) • Déployer SAP CRM (avec SAP HANA) dans le cloud avec d’autres offres cloud telle que la plate-forme de logiciels sociaux SAP Jam™ en vue d’activer une stratégie de relation client (CRM) plus mobile et plus sociale SUCCÈS SAP CRM (avec SAP HANA) lancé en production sans aucune difficulté VITESSE Temps de réponse de la base de données x5 plus rapides SIMPLICITÉ Un environnement IT et des processus métier plus simples et plus agiles DURABILITÉ Socle pour la maintenance prédictive SAP - EBAY SYSTÈME DE DÉTECTION DE SIGNAUX PRÉCOCES GRÂCE À L’ANALYSE PRÉDICTIVE DE SAP HANA Société eBay | Siège social San Jose (Californie) | Secteur d’activité Services spécialisés | Produits et services Place de marché en ligne | Salariés 31.500 (2012) | Chiffre d’affaires 14,1 milliards $USD (2012) « SAP HANA met toute sa puissance au service de la connaissance. Pour l›utilisateur, il suffit de spécifier des indicateurs : il n›a pas à se préoccuper de la qualité des algorithmes, et il peut utiliser facilement le système parce que celui-ci est intelligent et configurable. » Gagandeep Bawa, responsable Analyse et planification financière (FP&A) pour l’Amérique du Nord chez eBay Inc. DÉFIS COMMERCIAUX • Améliorer la capacité de séparation des signaux et du « bruit » afin d’identifier les principaux changements subis par la place de marché d’eBay • Améliorer la prévisibilité et la fiabilité des prévisions portant sur l’économie virtuelle d’eBay • Améliorer la connaissance des écarts et de leurs causes DÉFIS TECHNIQUES • Difficulté à détecter les signaux critiques dans la masse de 100 péta-octets de données stockées dans le data warehouse principal d’eBay • Processus hautement manuel, exigeant l’intervention des analystes (impossibilité d’appliquer un modèle unique aux différents indicateurs) Document réalisé par la Société Corp Events - Janvier 2015 90 Retours d’expériences Big Data en entreprise PRINCIPAUX AVANTAGES • Le système de détection automatique des signaux (alimenté par l’analyse prédictive SAP HANA) sélectionne le modèle le mieux adapté aux indicateurs de l’utilisateur – ce qui a pour effet d’augmenter la précision des prévisions • Un système fiable et évolutif génère un aperçu en temps réel qui permet aux analystes de se concentrer sur les tâches stratégiques • Une arborescence décisionnelle et la possibilité d’ajuster les scénarios permet à eBay d’adapter le meilleur modèle à ses différents types de données Détermine avec une précision de 100 % et avec une confiance de 97 % qu’un signal est positif Système de détection de signal automatique et précoce avec SAP HANA Document réalisé par la Société Corp Events - Janvier 2015 91 Retours d’expériences Big Data en entreprise SAS - SANTIANE LE GROUPE SANTIANE CAPITALISE SUR SA CULTURE DE LA DONNÉE AVEC LA DATA VISUALISATION DE SAS Le premier courtier en ligne d’assurance-santé adopte SAS® Visual Analytics pour exploiter les grands volumes de données dont il dispose et ainsi optimiser ses ventes de contrats santé. Société de courtage d’assurance santé pour les particuliers et les entreprises, le Groupe Santiane est devenu en moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a nécessité une structuration à la hauteur des ambitions de l’entreprise, avec notamment, le développement de ses équipes de direction. Pure player de l’assurance santé en ligne et empreint d’une forte culture numérique, Santiane a équipé ses nouvelles équipes dirigeantes (générale, financière, commerciale) de l’outil SAS Visual Analytics, pour guider leurs décisions en explorant les données sur PC et tablettes. “La grande force de SAS Visual Analytics, c’est son interopérabilité l’outil s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google.” Alexandre Ginesty, Directeur des Systèmes d’Information EMBRASSER L’ENJEU DU BIG DATA « Grâce à la puissance de traitement et d›analyse de SAS Visual Analytics, nous puisons dans nos grands volumes de données des informations riches et parfois insoupçonnables sur notre portefeuille clients, explique Alexandre Ginesty, Directeur des Systèmes d›Information du Groupe Santiane. « Avec notre équipe d’actuaires, nous avons notamment pu découvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par exemple sur des éléments en tout début de la chaîne du contrat » Le domaine de l’assurance santé induit pour le Groupe Santiane une grande diversité des populations ciblées, et bien que très jeune, cette société dispose d’un historique de données très riche, stocké depuis 2007. En tant que premier courtier de santé sur Internet, le Groupe est d’autant plus armé pour embrasser l’enjeu du Big Data : des données complètes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chaîne de traitement commercial. SAS® VISUAL ANALYTICS RÉPOND À UN BESOIN CONSÉQUENT D’ACCÈS À LA DONNÉE La stratégie du Groupe Santiane s’est toujours appuyée sur les nouvelles technologies et le passage à la data visualisation éclaire aujourd’hui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peuvent élaborer eux-mêmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils (sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Générale. La Direction Financière et actuarielle, le Digital Marketing ainsi que les Directions Opérationnelles. Les délégués commerciaux de la filiale Néoliane Santé & Prévoyance profitent en particulier de la version tablette pour leurs déplacements sur le terrain. Des données qui jusque-là étaient inertes, sont aujourd’hui utilisées pour améliorer la construction des produits, à la fois dans une meilleure segmentation du risque pour les partenaires, et en adéquation avec les besoins des clients. Entièrement numérisé jusqu’à la signature en ligne des contrats d’assurance, le Groupe Santiane optimise aujourd’hui la vente de ses contrats santé grâce aux données et grâce à la data visualisation. « Nous souhaitions donner les moyens à nos directeurs d’explorer les données sans qu’ils aient nécessairement des compétences informatiques particulières, pour ainsi soulager notre R&D sur-sollicitée », ajoute Alexandre Ginesty. « La grande force de SAS Visual Analytics, c’est son interopérabilité ; l’outil s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google. Nous avons choisi avec SAS l’outil de dataviz le plus abouti du marché, sa puissance de calcul in-memory nous permet aujourd’hui d’être plus créatifs grâce aux temps de réponse très rapides ». L’OFFRE QUICKSTART DE SAS : UNE MISE EN ŒUVRE RAPIDE DE LA SOLUTION Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bénéficié d’un déploiement très rapide grâce à l’offre Quickstart de SAS, permettant d’accéder aux premiers tableaux de bord en un temps record. L’outil fait en outre gagner du temps en proposant un modèle de données préconçu. Pour la filiale Neoliane Santé & Prévoyance, courtier grossiste pour les professionnels, dont les forces commerciales ont vocation à développer le réseau de partenaires sur le terrain, les fonctionnalités de géolocalisation sont particulièrement intéressantes. L’outil leur donne une meilleure vision sur l’implémentation géographique des partenaires, et leur permet de suivre sur iPad leur activité dans une dimension collaborative. Document réalisé par la Société Corp Events - Janvier 2015 92 Retours d’expériences Big Data en entreprise SAS® VISUAL ANALYTICS : VITESSE, AGILITÉ ET MOBILITÉ SAS Visual Analytics, la solution phare de SAS dédiée au reporting agile, à l’exploration visuelle et à l’analyse des données, est disponible désormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles. Accédez partout et immédiatement à vos informations. Testez gratuitement SAS Visual Analytics en ligne avec des données correspondant à votre secteur d’activité. Vos données comme vous ne les avez jamais vues : qu’importent votre secteur d’activité, votre profil ou le volume de données à analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les données pertinentes rapidement et aisément. Rejoignez-nous sur nos évènements Lancée en 2012, SAS Visual Analytics a déjà été adoptée par plus de 2 600 entreprises dans le monde, dont plus de 100 en France. GROUPE SANTIANE Enjeux • Transformer rapidement de gigantesques quantités de données en informations stratégiques • Améliorer la construction des produits en adéquation avec les besoins des clients • Exploiter les données sans avoir de compétences informatiques particulières avec un modèle de données préconçu • La vente des contrats santé est optimisée grâce aux données et à la data visualisation • Sur iPad ou PC, les utilisateurs élaborent eux-mêmes leurs tableaux de bord et les partagent en mode collaboratif Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières, et aux environnements informatiques décrits. L’expérience de chaque client SAS est unique et dépend de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés respectives. SAS - ELFE/INED ELFE/INED ÉTUDIE LE DÉVELOPPEMENT DE L’ENFANT À L’AIDE DE SAS® VISUAL ANALYTICS L’étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs. SAS, leader mondial de la business analytics annonce que l’Institut national d’études démographiques (Ined) a retenu sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie, sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée de vie. L’Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une vingtaine de doctorants, ainsi que des chercheurs associés. « Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration, constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives. » Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined ELFE : Etude Longitudinale Française depuis l’Enfance ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés en 2011, pour mieux comprendre comment les conditions périnatales et l’environnement dans ses différentes dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à l’adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spéDocument réalisé par la Société Corp Events - Janvier 2015 93 Retours d’expériences Big Data en entreprise cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes. « Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement chronophage. » Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à disposition de chercheurs du monde entier – il fallait compter un an et demi. FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES « Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. « Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir une grande puissance de traitement. » Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS Visual Analytics (VA). Plusieurs maquettes ont été développées. « Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports, croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données sur lesquelles ils travaillent et la manière de les présenter. » SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE DU PROGRAMME ELFE En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées. Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et obtenir les résultats instantanément. ». Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui, nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina. ENJEUX •Prendre en compte une quantité dantesque de variables. •Fluidifier less échanges entre les chercheurs. •Accélérer la mise à disposition des données. •Garantir le principe d’un dépôt unique réclamé par les autorités. Document réalisé par la Société Corp Events - Janvier 2015 94 Retours d’expériences Big Data en entreprise SOLUTION •SAS Visual Analytics BÉNÉFICES •VA va réduire de 18 à 5 mois le délai nécessaire pour rendre les données exploitables •Les multiples extractions ne sont plus nécessaires (chaque chercheur dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur web). •L’ensemble des modifications et des mises à jour sont tracées. •VA offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse. •Visualisation dynamique de la répartition des données en toute autonomie. •Résultats obtenus instantanés. •Exploitation des big data pour enrichir les analyses et susciter la collaboration. SAS - UTAC-OTC UTAC-OTC : PREMIER TOUR DE PISTE AVEC SAS® VISUAL ANALYTICS POUR L’ORGANISME DE SUPERVISION DU CONTROLE TECHNIQUE Chaque année, plus de 20 millions de contrôles techniques (100 000 par jour environ) sont centralisés par l’Organisme Technique Central (OTC, groupe UTAC/CERAM). Pour mieux explorer et exploiter ces données, l’OTC s’est doté en 2013 de SAS® Visual Analytics. Retour sur une première année de mise en œuvre, avec les premiers résultats, les premiers enseignements, et les perspectives de développement. Mis en place en 1992 pour les véhicules légers, le contrôle technique automobile est aujourd’hui assuré par 6 000 installations de contrôle, la plupart appartenant à l’un des cinq grands réseaux opérant sur tout le territoire. Depuis l’origine, l’UTAC a été notifié par le ministère des Transports comme Organisme Technique Central pour recueillir, aujourd’hui en temps réel, les données issues de chaque contrôle. L’organisme surveille les opérateurs et délivre les agréments, s’assure de l’homogénéité des contrôles et tient à jour des informations sur l’état du parc automobile français pour adapter et faire évoluer les équipements et les méthodes de contrôle. Aujourd’hui, l’OTC dispose de plusieurs bases de données contenant l’ensemble des contrôles techniques depuis 1992 – soit environ 400 millions de contrôles au total, avec quelque 450 variables relevées ! INSTALLATION DE L’OUTIL : UNE FORMATION EXPRESS Déjà équipé d’outils SAS pour l’analyse des données, l’OTC a choisi en 2013 de se doter de SAS Visual Analytics. « Avec une telle volumétrie, il était impossible d’ignorer la data visualisation... au moins pour voir ! » explique Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. L’OTC a donc choisi de partir sur une configuration minimale (un serveur de 16 cœurs avec 100 Go de données lues sur disque et 50 Go de données en mémoire) pour tester l’exploration de données et les possibilités de l’outil en matière d’édition de rapports. Une base de données de 42 Go contenant tous les contrôles effectués depuis 2008 (soit 43 colonnes et 148 millions de lignes), a ainsi été chargée « in memory ». La mise en place de SAS Visual Analytics s’est réalisée en quatre jours : deux jours pour l’installation du produit, puis deux jours de formation et de prise en main pour les quatre statisticiens chargés d’explorer l’outil. Travailler en amont avec les consultants SAS pour assurer le transfert de compétences constituait pour Thierry Ageron un investissement humain essentiel : « on imagine souvent qu’on peut en faire l’économie, on se dit que ‘ça va passer’... mais prendre le temps au départ n’est pas un luxe inutile : c’est un vrai facteur de succès ! ». ANALYSE EXPLORATOIRE : TRAVAILLER PLUS VITE SUR DE MEILLEURES DONNÉES La première étude menée avec « VA » a concerné les temps de contrôle. Avec d’emblée, un atout important : la détection très facile des données atypiques (des contrôles inférieurs à 5 minutes, par exemple... voire des durées négatives en cas de mauvaise saisie des données), et la possibilité de les éliminer in-memory pour travailler plus vite sur une base statistiquement plus fiable. « Nous n’avions pas cette souplesse auparavant ! » note Thierry Ageron, qui rappelle qu’outre les études statistiques, les cas les plus étonnants peuvent être transmis aux services dépendant du ministère des transports, qui peuvent ainsi « contrôler les contrôleurs ». Des premières analyses ont ainsi été réalisées pour comparer les durées moyennes selon les réseaux, l’installation de contrôle, le jour de la semaine - ou selon les mois de l’année, avec des changements qui apparaissent clairement lors des deux mois d’été... Le bilan ? « SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de zoomer sur une situation qui semble atypique, et de retourner en un clic à la donnée de base pour l’examiner. Ce qui nous prenait beaucoup de temps avant se fait ici très facilement ». Un mode d’exploration idéal pour échanger sur nos hypothèses lorsque l’on explore les données à plusieurs. Document réalisé par la Société Corp Events - Janvier 2015 95 Retours d’expériences Big Data en entreprise RAPPORTS : FACILITÉ D’EXPORT ET DIFFUSION MOBILE L’échange, c’est ce que permet aussi Visual Analytics avec l’édition de rapports dynamiques, qui peuvent être diffusés sur tablette auprès des « clients » de l’OTC : ministère des transports et directions régionales, réseaux d’opérateurs, gendarmerie, douanes... Thierry Ageron salue la facilité d’export, reste à voir si la diffusion mobile entrera dans la culture de ses interlocuteurs. Jusqu’ici, son équipe en est restée à des premiers tests – pour comparer deux centres sur un mois donné, par exemple. « Nous avons déjà plusieurs centaines de rapports sous format pdf, explique-t-il. Certains donnent pleine satisfaction à nos clients, il nous faut encore réfléchir avant de passer au tout-VA. » Le moment est venu en effet pour l’organisme d’étudier l’opportunité d’intégrer plus avant Visual Analytics dans les processus de production et de restitution des informations. Restera-t-il un outil parmi d’autres dans l’arsenal de l’OTC, ou peut-il à terme remplacer le portail décisionnel actuel ? Une décision à la fois technique, financière et culturelle, qui tiendra aussi compte de l’apparition récente du « petit frère » de VA, SAS® Visual Statistics... DES PERSPECTIVES MULTIPLES En attendant, une autre utilisation de la data visualisation est déjà envisagée, pour étudier les retards de présentation des véhicules au contrôle technique. « Pendant longtemps, nous n’avons pu réaliser ces analyses que sur des échantillons, et travailler sur la base en frontal était gênant. Aujourd’hui, nous pouvons travailler sur l’exhaustivité des données grâce à un ODS dédié. Reste à tester l’analyse avec SAS Visual Analytics, pour voir ce que pourra apporter la souplesse de l’outil. » Parmi les perspectives se profile aussi l’intégration de données non structurées – en reliant par exemple les informations du contrôle technique avec des données d’accidentologie venues de l’extérieur. Mais la route est encore longue ! ENJEUX - Optimiser l’accès à la donnée - Améliorer la recherche de données atypiques - Produire des statistiques pertinentes et les mettre rapidement à disposition des clients SOLUTIONS - SAS® Visual Analytics « SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de retourner en un clic à la donnée de base pour l›examiner » Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM SAS - BANK OF AMERICA BANK OF AMERICA AVOIDS GRIDLOCK IN CREDIT RISK SCORING, FORECASTING Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit, mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower. Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain estimates, and to understand their risk position and value of assets at any given time. In today’s complex and everchanging financial system, powerful, rigorous and accurate credit-risk management processes and technology play a critical role in mitigating a lending institution’s exposure. “ Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank would be behind the market.” Russell Condrich, Senior Vice President, Corporate Investment Group With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more than 18,000 ATMs, Bank of America is among the world’s leading wealth management companies and is a global leader in corporate and investment banking and trading across a broad range of asset classes. The Corporate Investments Group (CIG) manages Bank of America’s available-for-sale portfolio and is responsible for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition, the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of forecasting loan losses for the bank’s credit card portfolio. Document réalisé par la Société Corp Events - Janvier 2015 96 Retours d’expériences Big Data en entreprise THE NEED FOR SPEED CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the creditcard loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of the bank’s business. “We needed a solution that addressed today’s business problems, as well as a solution with the flexibility for any future business requirements,” says Russell Condrich, Senior Vice President, Corporate Investment Group. “Processing large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank would be behind the market.” SAS AND IBM SHOW RESULTS To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS® Enterprise Risk Management on SAS® Grid Computing, SAS® Scalable Performance Data Server on a 224 core IBM BladeCenter® grid and the IBM’s XIV® Storage System. The initiative has already produced considerable results, such as reducing the bank’s probability of default calculation time from 96 hours to just four. Processing time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times the speed of the previous environment. The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30 terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second from IBM’s XIV storage environment. Approximately 30 users now have unfettered access to the environment, as opposed to the shared services environment of the past, in which user time was competitive and response times varied dramatically due to the high number of jobs being executed. ‘UNPARALLELED’ PERFORMANCE “We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs, based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,” says Stephen Lange, Managing Director, Corporate Investments Group. “This advanced grid platform is giving us unparalleled performance. SAS is indispensable for its unique way of handling large data sets.” As an example, Lange adds, “we have to score a particular portfolio of 400,000 loans with our suite of models, using multiple scenarios, and we need to run it over the 360 months of the mortgages’ life. That process used to take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information and make decisions.” “The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the senior executive layers of the organization,” says Lange. “The only way we can do that is to have sufficient IT resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal technology group has provided a platform for us to demonstrate risk management leadership.” CHALLENGE • Reduce processing time for credit-risk modeling, scoring and loss forecasting. • Increase ad hoc analysis time while ensuring business continuity and guaranteed “up-time” for these missioncritical functions. SOLUTION • SAS® Enterprise Risk Management • SAS® Grid Manager • SAS® Scalable Performance Data Server® BENEFITS • Reduced probability of loan default calculation time from 96 hours to just four. • Yields timely decisions around defaults. • Reduced its scoring routine of 400,000 loans from three hours to 10 minutes. • Helps minimize losses and can handle new growth opportunities for bank’s loan portfolio. • Reduced processing time by 90%. The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. Document réalisé par la Société Corp Events - Janvier 2015 97 Retours d’expériences Big Data en entreprise SAS - FRAPORT PLOT A COURSE TO REDUCE COSTS FRAPORT USES SAS® VISUAL ANALYTICS TO MAKE REAL-TIME OPERATIONAL DECISIONS Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113 countries each year – making it Europe’s third-busiest airport, behind only London Heathrow and Paris-Charles de Gaulle. It’s up to transport company Fraport AG to make sure that airport operations can handle so much traffic. “ In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS Visual Analytics.” Dieter Steinmann, Manager of Information and Communication Services for Business Systems Using SAS® High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and boosting the performance of decision-support processes. “We need to analyze massive quantities of data in real time,” explains Dieter Steinmann, Fraport’s Senior Manager of Information and Communication Services. “High-performance analytics is the perfect solution for us. In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS Visual Analytics.” Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics, which allows users to analyze data quickly and intuitively using a graphical interface. Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was optimized with SAS for big data analytics. “With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We are very pleased that, together with SAS, we can provide the technology basis for this,” declares Sabine Bendiek, CEO of EMC Germany. CHALLENGE Fraport required a solution to reduce operation costs and improve analysis of big data. SOLUTION • SAS® High-Performance Analytics • SAS® Visual Analytics BENEFITS The airport saves both time and costs by analyzing data efficiently. The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. Document réalisé par la Société Corp Events - Janvier 2015 98 Retours d’expériences Big Data en entreprise SAS - MACY’S DO YOU KNOW WHAT’S ‘IN STORE’ FOR YOUR CUSTOMERS? MACY’S ENHANCES ITS CUSTOMERS’ ONLINE SHOPPING EXPERIENCE, INCREASES OVERALL PROFITABILITY After more than 80 years in business, Macy’s Inc. is one of America’s most iconic retailers. With annual revenues exceeding $20 billion, Macy’s enjoys a loyal base of customers who come to its stores and shop online each day. To continue its legacy of providing stellar customer service and the right selection of products, the retailer’s e-commerce division – Macys.com – is using analytical software from SAS to better understand and enhance its customers’ online shopping experience, while helping to increase the retailer’s overall profitability. To more effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales, Macys.com increased its analytical capabilities with SAS® Enterprise Miner™, resulting in an e-mail subscription churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year in comp analyst time. “... they can look at data and spend more time analyzing it and become internal consultants who provide more of the insight behind the data.”` Kerem Tomak, Vice President of Analytics ENDING “ONE SIZE FITS ALL” EMAIL MARKETING “We want to understand customer lifetime value,” explains Kerem Tomak, Vice President of Analytics for Macys. com. “We want to understand how long our customers have been with us, how often an email from us triggers a visit to our site. This helps us better understand who our best customers are and how engaged they are with us. (With that knowledge) we can give our valuable customers the right promotions in order to serve them the best way possible. “Customers share a lot of information with us – their likes and dislikes – and our task is to support them in return for their loyalty by providing them with what they want, instantly,’’ adds Tomak. Macys.com uses Hadoop as a data platform for SAS Enterprise Miner. Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce traffic to the website. “The general belief was that we had to blast everyone,’’ Tomak said. Today, emails are sent less frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent. TIME SAVINGS, LOWER COSTS Tomak’s group is responsible for creating a variety of mission critical reports – some daily, some weekly, others monthly – that go to employees in marketing and finance. These data-rich reports were taking analysts four to twelve hours to produce – much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys. com is now using SAS to automate the reports. “This cuts the time dramatically. It saves us more than $500,000 a year in terms of comp FTE hours saved – a really big impact,’’ Tomak says, noting that the savings began within about three months of installing SAS. Now his staff can maximize time spent on providing value-added analyses and insights to provide content, products and offers that guarantee a personalized shopping experience for Macys.com customers. “Macy’s is a very information-hungry organization, and requests for ad hoc reports come from all over the company. These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can address requests,’’ Tomak says. “Each time we use the software, we find new ways of doing things, and we are more and more impressed by the speed at which it churns out data and models.” MOVING FORWARD “With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more data, spend quality time analyzing and become internal consultants who provide more insight behind the data,” he says. “This will be important to supporting the strategy and driving the next generation of Macy’s.com.” As competition increases in the online retailing world, Tomak says there is a push toward generating more accurate, real-time decisions about customer preferences. The ability to gain customer insight across channels is a critical part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate and guide the site’s cross- and up-sell offer algorithms. Tomak is also training staff on SAS/OR®, business process optimization software, to further optimize the promotions that the company sends to clients. “We want to maximize the efficiency in sending these promotions to the right customer at the right time.’’ Document réalisé par la Société Corp Events - Janvier 2015 99 Retours d’expériences Big Data en entreprise CHALLENGE Macys.com needed enhanced customer insight, online and across channels, to effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales. SOLUTION • SAS® Enterprise Guide® • SAS® Enterprise Miner™ • SAS/OR® Software BENEFITS Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction, an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of FTE time saved. SAS® and Cloudera for big data “We chose Cloudera’s Platform for Big Data for its unparalleled Hadoop management and SAS Analytics for deep insight into our data. These combined technologies make our customer interactions more aligned to their preferences, which leads to improved satisfaction. Ultimately, working with these two industry leaders allows my team and me to have more time to focus on more strategic initiatives through automated processes instead of manually collating reports for our business stakeholders.” Kerem Tomak, Vice President of Analytics, Macys.com The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. SAS - NESTLÉ HOW TO KEEP FRESH PRODUCTS ON THE SHELVES ACCURATE FORECASTING OPTIMIZES CUSTOMER SERVICE, MINIMIZES INVENTORY OVERSTOCKS AND LAYS THE GROUNDWORK FOR EFFECTIVE MARKETING AT NESTLÉ A billion units roll off Nestlé production lines every single day. This number illustrates the sheer quantity of goods produced by the world’s biggest food company. To deliver on its promise of “Good Food, Good Life,” Nestlé has brought to market a whopping 10,000 products aimed at improving consumers’ lives with better and healthier foods and beverages. To ensure the right amounts of those products make it to the shelves and into customers’ hands, Nestlé relies on forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the customers show up for their favorite foods. It comes as no surprise that Nestlé’s interest in closely managing the supply chain and keeping inventories within tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly complex. Product categories, sales regions and an abundance of participating departments combine to weave a tangled web. It’s also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influences, being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the perishable nature of many products make it difficult to plan production and organize logistics. “ We’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and special offers into the statistical models.” Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting TIED DOWN BY CONFLICTING KPIS “Supply chain management is a well-established, recognized stream and process at Nestlé,” explains Marcel Baumgartner, who leads global demand planning performance and statistical forecasting at Nestlé’s corporate headquarters. “Our professionals take care of transportation networks, run efficient warehouses and are the first point of contact with customers. One area of focus is planning – or, more precisely, demand and supply planning. According to Baumgartner, this process tackles two important metrics: customer service levels and inventory levels. One can improve customer service levels – defined as the percentage of complete and on-time deliveries – by Document réalisé par la Société Corp Events - Janvier 2015 100 Retours d’expériences Big Data en entreprise expanding inventories. But that ties up capital, and it’s often difficult to find storage space. The freshness of the product suffers as well. In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order principle frequently seen in other sectors such as the automobile industry. “To have the right quantity of the right products at the right place and time, we rely heavily on being able to predict the orders our customers will place as precisely as possible,” says Baumgartner. Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, according to Baumgartner, is to be able to “take proactive measures instead of simply reacting.” To accomplish this, Nestlé focuses on strong alignment processes, stronger collaboration with customers and the use of the proper forecasting methodology. STATISTICS VS. INSTINCTS There are two main options for generating forecasts. The subjective method is mainly dependent upon on the estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches the forecasting problem with data. Before using SAS, Nestlé was primarily using SAP APO’s underlying forecasting techniques, together with models from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestlé demand planners. SAS enhances this, and thus complements SAP APO perfectly. Statistical forecasting tends to be more reliable if sufficient historical data is available. “But one thing has become clear to us — you can’t predict the future with statistics by simply looking at the past. It doesn’t matter how complex your models are.” So it’s not the statistical methodology that’s the problem for Baumgartner and his team. The critical factor in this complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most attention within this context: dealing with volatility, and SAS. “Predictability of demand for a certain product is highly dependent on that product’s demand volatility,” says Baumgartner. “Especially for products that display wide fluctuations in demand, the choice and combination of methods is very important. SAS Forecast Server simplifies this task tremendously. Of particular importance for demand planning are the so-called “mad bulls,” a term Nestlé uses to characterize highly volatile products with high volume. A mad bull can be a product like Nescafé, which normally sells quite regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calculation is no more useful in generating a demand forecast than the experience of a demand planner for these less predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to which a step in the forecasting process reduces or increases the forecast error. MORE KNOWLEDGE, LESS GUESSING According to Baumgartner, SAS® Forecast Server is the ideal tool for this scenario. The solution’s scalability allows a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is largely automated, which is seen as one of the strongest features of SAS Forecast Server. “At the same time, we’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and special offers into the statistical models.” The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast Server procedures – for the most part using default settings – the results showed that Nestlé often matches and improves its current performance for the predictable part of the portfolio and thus frees up valuable time for demand planners to focus on mad bulls. Last but not least, Nestlé emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace professional demand planners. “Particularly for mad bulls, being connected in the business, with high credibility, experience and knowledge is key.” With more time available to tackle the complicated products, planners are able to make more successful production decisions. And that means really having enough Nestlé ice cream at the beach when those hot summer days finally arrive. . CHALLENGE Ensure the right amounts of products make it to the shelves and into customers’ hands. Manage supply chain, plan operations and organize logistics on a global scale based on a variety of influences and factors. SOLUTION SAS® Demand-Driven Planning and Optimization BENEFITS Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful production decisions ensure products are available when customers want them. About Nestlé Nestlé is the world’s biggest food company. More than 330,000 employees work at 469 locations in 86 countries to generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestlé the global market leader by a large margin. The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee Document réalisé par la Société Corp Events - Janvier 2015 101 Retours d’expériences Big Data en entreprise or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. SAS - RABOBANK HOW DOES YOUR DATA FIT TOGETHER? As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to improve the bank’s ability to quickly gain insights from information coming from its chains or groups and improve decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and collaborative alignment across its chains. “ We are much more flexible in our ability to provide information and direct our chain managers more effectively. Our people have become more engaged because they can quickly see the results of what they do. ” John Lambrechts, Manager Concern Control Lambrechts explains, “The first step we took to properly set this up, was to look at the data available and to determine how this could be viewed. We discovered that there was an enormous amount of data available from all groups of the bank’s organizational chain such as departments, business units and local branches. We needed one system to integrate and structure all the information efficiently and provide the ability to share results.” NEW INSIGHTS Lambrechts found data visualization to be the perfect match. “Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions that we had not asked before,” said Lambrechts. “We are much more flexible in our ability to provide information and direct our chain managers more effectively. Our people have become more engaged because they can quickly see the results of what they do.” Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. “The bank also created a new data scientist job function for banking chain specialists. These specialists can probe the data more extensively, evaluate cost backgrounds, and establish relationships and causes.” Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users, the banking group is using it in a strictly controlled environment to standardize how information is provided to chain managers and organizational leaders. POSITIVE OUTCOMES “I am extremely proud of what we have achieved so far. We have seen an increase in our managers’ use of chain information,” says Lambrechts. “Another important outcome has been the removal of boundaries between the chains and the motivation to develop new thought processes. In the past, for example, departments would look within to find cost savings. But this type of siloed action was sub-optimal and not always in the organization’s best interests. With the knowledge and access to all chain information, we are able to let go of old business models and replace them with more dynamic ones.” CHALLENGE Improving how information is retrieved and shared from all groups within Rabobank’s organizational chains to optimize operations and make faster decisions. SOLUTION SAS® Visual Analytics BENEFITS • A centralized view of information about the bank’s organizational chains for improved financial and collaborative alignment. • A dynamic organization where the boundaries between departments and business components are removed and chain information is embraced by decision makers. Document réalisé par la Société Corp Events - Janvier 2015 102 Retours d’expériences Big Data en entreprise The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. SAS - TELECOM ITALIA VISUALIZING DATA MAKES HEARING IT MUCH EASIER To operate in the crowded telecommunications industry, service providers must answer the call for speed and availability millions of times each day. To prosper, they have to pick up the phone before it ever rings. As Italy’s largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect today – and knowing which offers they will expect tomorrow. “ We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics. ” Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development LISTEN TO THE DATA As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-tothe-minute trends. “We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the impact of these offers for the foreseeable future,” says Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development at Telecom Italia. “Analysis that is valuable and makes sense today may be irrelevant tomorrow. And we need to see well beyond tomorrow.” To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications running on different generations of technology, what’s relevant today might not be tomorrow. And beating the competition means always knowing the right offer for each customer at the right time. THE SOLUTION With SAS® Visual Analytics, business executives at Telecom Italia can compare the performance between all operators for a key indicator – such as accessibility or percentage of dropped calls – on a single screen for a quick overview of pertinent strengths and weaknesses. Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the provider’s geomarketing system, simplifying the decision-support and operational processes that go into technical and commercial planning. “SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,” Bellezza says. “It also allows us to calculate the statistical correlations between various KPIs for more effective further analysis. “SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure and services to be marketed.” IN-DEPTH ANALYSIS OF KPIS A company whose leadership has always understood the role of sophisticated analytics in monitoring network traffic and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s. SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both voice and data traffic. These can be viewed on a single screen and can include: • Accessibility • Drop rate • Call setup time • Data throughput Document réalisé par la Société Corp Events - Janvier 2015 103 Retours d’expériences Big Data en entreprise “This gives us a rapid overview of areas of competitive strengths and weaknesses,” Bellezza says. SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as “make” or “buy,” prioritized by cost and benefit. It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability of a development area after an investment. A USER-FRIENDLY FORMAT “When initially analyzing data, it’s impossible to predict the questions users may ask – and often even the users themselves are unaware of them,” Bellezza says. “SAS Visual Analytics helps us gain insights by simplifying the transformation of data and enabling us to put it into a user-friendly format.” As a result, decision makers get a more comprehensive understanding of what’s happening in the market, he adds. “We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics,” Bellezza affirms. CHALLENGE Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data. SOLUTION SAS® Visual Analytics BENEFITS SAS Visual Analytics allowed the company to display data in a user-friendly format. The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies. Document réalisé par la Société Corp Events - Janvier 2015 104 Retours d’expériences Big Data en entreprise SENTELIS - ASSURANCE MUTUELLE CADRAGE DU SI DIGITAL GROUPE VERS L’ARCHITECTURE 3.0 CLIENT : Grand groupe d’assurance mutuelle et paritaire de protection sociale - N°1 en retraite complémentaire Porteur du Projet : Damien LEPRETRE CONTEXTE Transformations importantes au sein de l’entreprise : • Rapprochement avec une autre structure • Avènement du « monde digital » Ces deux grands défis induisent des effets structurels sur les SI et sur le fonctionnement de la DSI, auxquels l’entreprise doit se préparer pour : • Faciliter la convergence vers le futur SI commun du groupe (‘best in class’, rationalisation, industrialisation et effets d’échelle,…) • Anticiper et accélérer la « digitalisation » du groupe – offres et services, relation client, culture et capacités test & learn, mode Lab, maîtrise du capital informationnel interne et externe, agilité / time to market, small apps,… OBJECTIFS DE LA MISSION SENTELIS L’objectif de la mission a été de construire une vision CONVERGEE CIO/CDO de la Stratégie SI Digitale et de l’organisation cible DSI/CDO/Métiers pour une approche conjointe auprès du COMEX MÉTHODE : La mission a été menée en 4 étapes : • Prise de connaissance afin de s’approprier le contexte SI • Identifier le niveau des réflexions digitales et le traduire en « capacités digitales » • Partager, au sein de la DSI, une vision du SI Digital et de ses impacts sur le fonctionnement de la DSI • Confronter et faire converger les visions : CIO / SI Digital - CDO / Stratégie Digitale de l’Entreprise Document réalisé par la Société Corp Events - Janvier 2015 105 Retours d’expériences Big Data en entreprise SENTELIS - CRÉDIT À LA CONSOMMATION CONSTRUCTION DE L’ARCHITECTURE DIGITALE DE RÉFÉRENCE (FRANCE, INTERNATIONAL & CORPORATE) CLIENT : Grand acteur international du crédit à la consommation Porteur du Projet : Jérôme BESSON CONTEXTE Nouvelle stratégie d’entreprise basée sur 3 piliers : • Transformation digitale • Simplification et industrialisation des process • Augmentation des marges OBJECTIFS DE LA MISSION SENTELIS L’objectif de la mission a été de définir la nouvelle architecture de référence SI commune à l’ensemble des filiales du Groupe pour répondre à la disruption digitale et l’accélération de la transformation de l’entreprise vers le tout numérique : • Fédération des exigences des différentes entités du groupe : omnicanalité de l’expérience utilisateur, dématérialisation étendue des processus métiers, contextualisation et personnalisation à la volée de la proposition de valeur client et prescripteur et de l’expérience vécue (interaction, processus & informations), cross-selling/up-selling, évolution réglementaire… • Définition de la cible d’architecture, des principes directeurs en respect des cadres d’architecture d’entreprise • Analyse critique architecturale de l’existant des différentes filiales et maturité de leur SI vis-à-vis de la cible • Co-construction avec les différentes DSI filiales des architectures de transition, des trajectoires de transformation et d’investissements pour atteindre la cible de référence • Fédération du portefeuille des projets des différentes filiales. Identification des projets transformant. Détection des synergies transnationales. Animation de la communauté des architectes. Conduite du changement auprès des DSI et Directions Métiers, France et International. Cette mission a également consisté à conduire des études d’architecture ciblées intégrant la mise en place d’une infrastructure fédérée de données (Shared Data Backbone) : Cible d’architecture décisionnelle et cible d’architecture du poste de travail des agents commerciaux. Document réalisé par la Société Corp Events - Janvier 2015 106 Retours d’expériences Big Data en entreprise SENTELIS - MUTUELLE D’ASSURANCE MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE CLIENT : Grand groupe français de Mutuelle d’Assurance Porteur du Projet : Sébastien LAYER CONTEXTE Grand programme de transformation – Ambition Client 2020 autour de 4 axes : - Valoriser L’ACTIF CLIENT - Développer la PROXIMITÉ Digitale - Créer l’AGILITE INDUSTRIELLE - Fonctionner en ECOSYSTÈME COLLABORATIF OBJECTIFS DE LA MISSION SENTELIS Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des données, la bataille de la modernisation digitale et la bataille du lien client CAS D’USAGES CIBLES TOTALISANT 15 PROJETS MÉTIERS SUR 2015 • Analyse réactive (contextualisation temps réel de la relation client sur tous les canaux) • Analyse historique du portefeuille client sur l’ensemble des données à disposition (micro-segmentation, qualité et évolution de la relation, segmentation comportementale) • Analyse prédictive du portefeuille client (détection d’opportunités, prévention des risques) NATURE DES DONNÉES TRAITÉES Intégration dans un lac de données d’une très grande variété de données représentative du système d’information (données transactionnelles, évènementielles, conversationnelles, sociales référentielles, décisionnelles…) pour un volume avoisinant plusieurs milliards de données. ETAPES MAJEURES ET CALENDRIER DE MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE: • Conduite d’une preuve-de-concept sur un usage emblématique (vision 360° Client) à valeur métier et architecturale, basée une infrastructure Commodity Hardware et des composants Open Source de l’écosystème Hadoop . Réalisation par une équipe mixe métier-SI en mode agile (Utilisateur métier, Ergonome, Analyste Donnée, Statisticien, Architecte Big Data, Développeur Big Data) – 3 mois • Choix des composants de la stack Big Data du projet de mise en œuvre – 2 mois • Industrialisation d’un core-model groupe multi instancié au niveau des différentes enseignes + déploiement des premiers usages en production – 6 mois • En parallèle, définition de l’offre de service associée à la fondation Big Data et de l’organisation à mettre en place pour en assurer la pérennité et le déploiement dans l’entreprise • Enrichissement « versionné » du socle core-model groupe en phase avec les besoins et exigences métiers ASPECT NOVATEUR Une innovation à plusieurs niveaux : • Architecturale, avec la validation de la pertinence du modèle d’architecture 3.0 • Comportementale, avec le décloisonnement des données entre les métiers, entre monde opérationnel et monde analytique • Usages o Amélioration d’usages existants (ex : vision 360 Client, Contrat) o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrélation des flux comptables) o Capacité d’innovation renforcée (Test & Learn, Data Lab) • Technologique, avec la mise en œuvre de solutions innovantes issues des géants de la donnée, permettant de motoriser l’architecture 3.0 VALORISATION OBSERVÉE DE LA DONNÉE Le projet a permis d’envisager une exploitation de toutes les données disponibles structurées et non-structurée comme jamais auparavant, sans frontière de temps ni d’espace (ex : analyse des commentaires clients dans les questionnaires de satisfaction et corrélation avec la notation ; détection de nouvelle segmentation via des algorithmes d’analyses non propriétaires). Document réalisé par la Société Corp Events - Janvier 2015 107 Retours d’expériences Big Data en entreprise AUTRES ÉLÉMENTS STRUCTURANTS La mise en place du lac de données a été un révélateur et un catalyseur de nouveaux usages pour l’ensemble des métiers, encouragés par des coûts et une performance de traitement sans commune mesure avec l’existant. Elle ouvre la place, au-delà de l’amélioration de la Business Intelligence et du développement de la Business Analytics, au développement de la Data Science pour tirer le maximum de valeur du capital informationnel de l’entreprise. Elle a mis en évidence la nécessité d’une gouvernance de la donnée resserrée pour maîtriser l’explosion des données et des usages. Le lac de données est la première étape vers la construction d’une infrastructure fédérée des données entre monde opérationnel et monde analytique (Shared Data Back Bone), dont la frontière disparait. SENTELIS - ÉNERGIE CADRAGE DE LA 3ÈME PLATEFORME (BIG DATA & DIGITAL READY) CLIENT : Un des plus grands groupes mondiaux du secteur de l’énergie Porteur du Projet : Jean-Baptiste CECCALDI CONTEXTE Plusieurs tendances de fond, déjà engagées, révèlent et vont cristalliser les limites des Systèmes d’Informations. Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences multi-branches et reflètent les enjeux du digital pour l’entreprise. Des expérimentations ont déjà été entamées par les BU pour répondre localement à ces sujets. Mais des stratégies ou des choix locaux non encadrés (modèle d’architecture, technologies, recours au cloud,…) peuvent se montrer incompatibles avec les enjeux ou créer de nouveaux risques, de nouvelles limites. La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques. OBJECTIFS DE LA MISSION SENTELIS L’objectif de la mission a été de cadrer cette transformation au niveau groupe destinée à proposer à l’ensemble des entités et filiales une réponse architecturale et technologique adaptée aux enjeux de partage/maîtrise/exploitation de la donnée pour accompagner les évolutions digitales à venir ou déjà engagées par les métiers. Document réalisé par la Société Corp Events - Janvier 2015 108 Retours d’expériences Big Data en entreprise LA DÉMARCHE A ÉTÉ LA SUIVANTE : • Définition de la feuille de route globale à 18 mois : cible architecturale et technologique, trajectoire de transformation opérationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement, services à activer, budgets requis… • Communication de la vision et de la proposition de la DSI Groupe auprès de la Direction Groupe et des Directions des multiples entités • Identification des premières cibles d’expérimentations concrètes – nécessaires pour démontrer et convaincre rapidement de la pertinence des gènes du modèle « Architecture 3.0 » • Préparation des éditeurs/fournisseurs technologiques aux sollicitations à venir • Identification des contributions de partenaires clés – en particulier la Production sur les infrastructures et services de production • Approfondissement avec les BU/BL des cas d’application ou des besoins concrets déjà identifiés Document réalisé par la Société Corp Events - Janvier 2015 109 Retours d’expériences Big Data en entreprise SENTELIS - JEUX EN LIGNE CADRAGE DU SOCLE BIG DATA & DES PREMIERS USAGES PILOTES 2015 CLIENT :Acteur majeur français du jeu Porteur du Projet :Jean-Baptiste CECCALDI CONTEXTE: Le plan stratégique de cette entreprise vise entre autres : • A renforcer la connaissance de ses clients et de ses modes relationnels • A développer une offre multi canal La DSI identifie des axes sur lesquels le SI présente des faiblesses structurelles, en particulier autour de la maîtrise et du partage de la donnée MISSION DE SENTELIS: La mission a permis de délivrer en 6 semaines l’ensemble des éléments permettant de lancer sereinement la fabrication : • D’un SOCLE ‘Big Data’, garant de l’exigence industrielle en production, regroupant les fonctionnalités requises pour supporter les premiers cas d’usage etpermettant de préparer le ‘coup suivant’ • Des premiers ‘USAGES’ pilotes, à choisir parmi les projets candidats inscrits au plan 2015, et permettant de démontrer rapidement la valeur du modèle tout en maîtrisant les risques opérationnels LES LIVRABLES SUIVANTS ONT ÉTÉ PRODUITS : • Périmètre fonctionnel des pilotes, les objectifs associés (métiers et DSI) • Orientations architecturales et technologiques, l’infrastructure nécessaire • Planning de réalisation, échéances de livrables •Equipe de réalisation et organisation •Coût, prérequis de démarrage, risques majeurs à mettre sous contrôle •Cible architecturale à long terme (inscrire les actions court-terme dans la bonne direction) LES PROCHAINES ÉTAPES : •Lancement de la phase d’industrialisation du socle Big Data et des projets candidats sélectionnés lors du cadrage •Identification d’autres cas d’usage et accompagnement des projets pour leur mise en œuvre avec prise en compte des évolutions nécessaires du socle SENTELIS - EDITEUR SOFTWARE PLAN DE TRANSFORMATION D’ENTREPRISE CLIENT :Editeur et fournisseur de solutions informatiques mutualisées d’une grande banque internationale Française. Porteur du Projet : Jean-Nicolas BIARROTTE-SORIN CONTEXTE : Plan de transformation à 3 ans autour des axes suivants : •Renforcement de la position vis-à-vis des filières à l’international •Développement d’un nouveau business model et operating model •« Fast IT » •Sécurisation des données et applications •Poursuite de la stratégie d’industrialisation Document réalisé par la Société Corp Events - Janvier 2015 110 Retours d’expériences Big Data en entreprise OBJECTIF DE LA MISSION SENTELIS : La mission a consisté à : •Définir les orientations d’architecture •Elaborer le plan d’action de transformation LES PILIERS MAJEURS DE CETTE NOUVELLE ORIENTATION ARCHITECTURALE SONT : •Architecture Data Centric •Architecture anywhere, anytime, any devices •Mise en place de modèles permettant de déployer de nouvelles solutions transverses de niveau Groupe, en s’appuyant sur trois dimensions complémentaires: oUne approche socles différenciés, adaptée à la variété des entités, oune approche SOA, pour faciliter l’intégration aux paysages locaux et avec le Corporate, oune approche Cloud, pour être capable de supporter une variété de stratégie de déploiement (interne, externe, hybride), en ligne avec la diversité des entités. Document réalisé par la Société Corp Events - Janvier 2015 111 Retours d’expériences Big Data en entreprise Document réalisé par la Société Corp Events - Janvier 2015 112 Retours d’expériences Big Data en entreprise SOFT COMPUTING BIG DATA : PREMIÈRES LEÇONS APRÈS 3 ANS D’APPLICATIONS SUR LE TERRAIN. LES ENJEUX La révolution numérique qui se déroule sous nos yeux a pour corollaire une explosion des données, encore accentuée par le développement des objets connectés et la digitalisation des interactions. Ce déluge de données ouvre de nouveaux horizons en matière de connaissance et de dialogue avec les clients. Le marketing devient résolument conversationnel, individualisé, contextualisé, mobile, social, temps réel et omnicanal. Fort de plus de 30 ans d’expérience en matière de valorisation du Capital Client, Soft Computing, Entreprise de Services du Numérique spécialiste en CRM, Big Data et Digital, réunit près de 400 consultants, délivrant des prestations de Conseil, de Technologie et de Marketing Services. Ainsi, nous accompagnons annonceurs & organisations, désireux de mettre en place des plateformes Big Data et omnicanal, à relever les défis opérationnels suivants : Comment capter, analyser, exploiter (en temps réel ou non) l’ensemble des données off line et on line pour activer une animation visiteur/client rentable, engageante, cohérente sur l’ensemble des points de contacts ? Comment réconcilier des données de navigation & « empreintes digitales » (authentifiés ou non) et données du CRM tout en garantissant l’unicité, la qualité des données, ainsi que le respect des règles légales locales et/ou internationales ? Comment créer une infrastructure de données pérenne et agile, fondée à la fois sur la réalité des besoins opérationnels d’aujourd’hui et l’esquisse des usages de demain ? Comment appréhender les nouvelles technologies émanant à la fois du monde innovant Open Source, des « pureplayers » et des éditeurs traditionnels et solides? Comment préparer les organisations à la fois dans leur montée en compétence et leur transformation : DataScientism, Marketing prédictif, Agilité ? NOS INTERVENTIONS Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, l’énergie et des Télécoms. Notre démarche pragmatique, pour maîtriser ces enjeux, guide nos interventions autour de 5 axes : Cadrer : Aligner la stratégie, les besoins métiers et SI pour établir une trajectoire de mise en œuvre volontaire face aux enjeux de marchés hautement concurrentiels, Evaluer : Choisir les solutions technologiques pour répondre aux enjeux métiers & SI puis valider leurs bon fonctionnement et potentiel à travers des phases d’expérimentation ou Proof Of Concept, Décliner : Mener les chantiers par priorité pour construire une solution pérenne, orientée résultat et génératrice d’efficacité opérationnelle, Déployer : Piloter toutes les phases projet pour garantir la bonne mise en œuvre et implémentation du nouveau dispositif, Piloter : Consolider les indicateurs de performance, QOS, QOD et mesurer leurs évolutions dans le temps tout en mobilisant les ressources internes et externes au regard des objectifs définis. Nos retours d’Expériences : L’accompagnement de l’un des acteurs majeurs de l’énergie en France, dans la mise en œuvre d’une DMP (Data Management Platform) a fait ressortir les points clés suivants : DÉMARRER PETIT POUR FINIR GRAND : Limiter le nombre de données first party en face des millions de lignes clients permet d’intégrer progressivement des données complémentaires. Démarrer par des cas d’usages métiers simples et raisonnables permet de valider le fonctionnement de la DMP par itération avant d’investir des cas complexes à forte volumétrie SOIGNER LA RÉCONCILIATION DES DONNÉES WEB ET CRM : Réconcilier les données Web et clients suppose de porter une attention particulière sur la gestion des identifiants Internautes (cookies, IP, Mac…) et CRM (email, Id foyer, …). La connexion à l’espace client reste un vecteur privilégié et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple). AJUSTER LE DISPOSITIF DE TRAITEMENT AU REGARD DES USAGES : Connaissance client, rebond entrant, campagne marketing ne nécessitent pas la même réactivité et le même type de réponse. Aussi il est crucial de définir les usages temps réel versus batch à J+1 pour adapter le dispositif aux différents besoins métiers L’accompagnement d’un leader du marché des Télécoms dans la mise en place d’un socle de connaissance client omnicanal (Big Data) afin de parfaire sa maîtrise des canaux (reporting & dataviz), l’analyse comportementale client, puis déclencher des actions personnalisées auprès des visiteurs sur des canaux traditionnels (point de vente, service client…) et digitaux (bannière web, selfcare…), nous amène à souligner les points suivants : Document réalisé par la Société Corp Events - Janvier 2015 113 Retours d’expériences Big Data en entreprise CONCEVOIR UNE SOLUTION AGILE ET INTEROPÉRABLE Ne pas tenter de présumer des usages de la donnée de demain, mais plutôt imaginer le dispositif agile (architecture) qui permettra d’absorber rapidement une nouvelle source ou un nouveau format de donnée « sans retour arrière » et sans déstabiliser les chaînes d’information critique (ERP, DWH…) DIFFUSER EN TEMPS RÉEL LES INDICATEURS À FORTE VALEUR AJOUTÉE Se mettre en situation de propager des données client à forte valeur ajoutée en temps réel (tags, éléments de parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment quel que soit le canal (une poste vendeur ou une bannière web) PENSER EXPÉRIENCE CLIENT CROSS CANAL SIMPLE ET ROI DIRECTEMENT Expérimenter et driver des premiers développements à partir de use cases simples, réalistes simplifiant une expérience cross canal et génératrice d’un ROI rapide Laisser place à la découverte des données Laisser du temps aux équipes opérationnelles pour s’approprier et « cruncher » des nouveaux univers de données (c’est le cas des données de navigation mobile ou selfcare) pour imaginer à la fois de nouveaux modèles statistiques prédictifs et de nouveaux processus client. En synthèse, les principes mis en œuvre dans les projets de relation clients depuis plusieurs années s’appliquent encore aujourd’hui dans cette nouvelle aire du « digital data driven ». Il apparait important de s’ouvrir aux nombreuses nouveautés qu’offrent ces perspectives tout en gardant une démarche pragmatique et orientée vers des résultats opérationnels tangibles et concrets. Document réalisé par la Société Corp Events - Janvier 2015 114 Retours d’expériences Big Data en entreprise SYNCSORT - SFR PROJET HADOOP CHEZ SFR EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware. UN PROJET QUI NE SE TERMINE JAMAIS SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution Hadoop que nous utilisons. Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé, nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen. A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais on y retrouve également des données semi-structurées provenant de logs. EN PRIMEUR Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées. DE PREMIERS RÉSULTATS RAPIDES L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire. Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent au cluster Hadoop. L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de hardware supplémentaire. . SYNCSORT - PAGESJAUNES SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui. Document réalisé par la Société Corp Events - Janvier 2015 115 Retours d’expériences Big Data en entreprise PagesJaunes est le leader français de la publicité et de l’information locale sur Internet (pagesjaunes.fr, pagespro. com), mobile (sites et applications) et imprimé (l’annuaire PagesJaunes et l’annuaire PagesBlanches). PagesJaunes est aussi un des leaders des services de renseignements par téléphone et SMS (118008), des petites annonces en ligne (annoncesjaunes.fr) et est le premier créateur de site Internet en France. En pleine transformation numérique de ses métiers, PagesJaunes est à la recherche de solutions analytiques agiles qui permettent à ses équipes commerciales de prendre les bonnes décisions, rapidement. « L’entreprise s’est engagée dans une transformation de sa plateforme d’aide à la décision pour sortir de la Business Intelligence traditionnelle et tirer réellement des avantages business des Big Data. Notre ambition est de faire parler les données, » situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions chez PagesJaunes. Il a rejoint l’entreprise il y a un an environ pour mettre en place une stratégie Big Data, dans le contexte d’une migration d’une infrastructure base de données IBM avec appliance Netezza vers le framework Hadoop. L’objectif est de faire face aux défis techniques en termes de capacité (explosion du volume des données), de stockage de données non structurées et de reporting en temps réel. SYNCSORT PIONNIER SUR LE MARCHÉ « ETL pour Hadoop permet d’optimiser notre informatique décisionnelle, » explique Abed Ajraou. En résumé, l’enjeu consiste à mettre à disposition des responsables commerciaux des capacités d’analyse granulaire, leur permettant d’optimiser leurs forces de vente par secteur géographique notamment. La solution DMX-h fournie par Syncsort est utilisée pour l’extraction, la transformation et le chargement (ETL) sur Hadoop, ainsi que pour des fonctions d’exportation et importation de données. « Les échos du marché étaient positifs quant aux performances de l’ETL Hadoop de Syncsort. Des progrès considérables ont été réalisés en 2 ans. Nos tests et notre proof of concept ont également été concluants. Venant du monde du mainframe, le fournisseur jouissait déjà d’une réputation de solidité. Ce sont les premiers à fournir ce genre d’outil sur Hadoop.,» souligne Abed Ajraou. Bien que la vocation première du projet Hadoop chez PagesJaunes ne soit pas de réaliser des économies, mais bien d’améliorer la qualité des données et booster ainsi les performances commerciales, le coût abordable de la solution Syncsort est également un argument non négligeable : « la solution devrait nous permettre de faire des économies substantielles sur les coûts de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup moins, » affirme Abed Ajraou. Le déploiement d’applications sur Syncsort DMX-h a démarré début 2015. Un premier retour d’expériences est attendu pour mars et sera d’ailleurs partagé à la conférence Big Data de Paris. REPORTING FINANCIER EN TEMPS RÉEL Une demi-douzaine d’applications web sont progressivement mises en production. Elles visent pour la plupart à booster les performances des équipes marketing et ventes en accélérant le reporting financier, le cas échéant sur un appareil mobile. Les applications sont en effet conçues selon les principes du ‘responsive design’. « Un point central porte sur la possibilité de rafraîchir les chiffres de ventes, toutes les 5 minutes, par produit, par segment, par géographie ou par agence. » Globalement, les enjeux de performances techniques sont davantage liés à la rapidité des temps de réponse et à la granularité des données analysées qu’au volume de données en tant que tel. « Nous parlons de 45 millions de lignes de data, ce qui n’est pas si énorme comparé à d’autres implémentations sur Hadoop. La plateforme nous permet à l’avenir de gérer de gros volumes de données pouvant atteindre entre 15 et 20 To de données, » poursuit Abeb Ajraou. Ce projet Big Data sur Hadoop est emblématique d’une stratégie d’entreprise qui met l’informatique au service du business, n’hésitant pas le cas échéant à anticiper les besoins des équipes commerciales et à leurs donner des instruments de proactivité. « Ce n’est pas pour rien qu’au sein de PagesJaunes, le département ‘systèmes d’information » a été rebaptisé ‘Business Solutions’, avec une mission qui va bien au-delà d’un simple support opérationnel. Ce type de projet contribue à renforcer la valeur ajoutée de l’informatique auprès de la direction générale,» souligne Abed Ajraou. SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT COMMENT LIBÉRER LES CAPACITÉS DES BASES DE DONNÉES ET RÉDUIRE LES COÛTS AVEC HADOOP Profil de l’entreprise : Grand groupe de télécoms, médias et home entertainment. PROBLÉMATIQUE Acteur majeur du home entertainment, cette entreprise génère et collecte des volumes de données parmi les plus importants du marché. Pour cela, elle exploite un data warehouse Netezza de plusieurs pétaoctets dont le volume suit chaque année une croissance à deux chiffres. Comptes clients, communications, programmes de fidélisation, paramètres de confidentialité, mesures d’audimat… ce data warehouse sous-tend les applications critiques de toute l’entreprise. Document réalisé par la Société Corp Events - Janvier 2015 116 Retours d’expériences Big Data en entreprise Au départ, l’entreprise avait choisi d’associer Informatica à du codage SQL manuel pour effectuer ses traitements ELT lourds dans la base de données Netezza, y compris des operations courantes comme le tri, l’agrégation et la CDC (Change Data Capture). Or, cette approche extrêmement gourmande en capacités Netezza s’est très tôt révélée ingérable car très coûteuse en mises à niveau des matériels, logiciels et bases de données. Côté ressources, la pression était également énorme car les développeurs ETL devaient consacrer un temps précieux à optimiser et maintenir des centaines de lignes de code SQL, ne laissant que très peu de marge à la gestion des nouveaux besoins métiers. SOLUTION Face à la hausse des coûts de ses logiciels de bases de données et ETL, l’entreprise décida de stopper tout investissement dans sa plate-forme ETL existante — devenue ni plus ni moins qu’un planificateur de tâches onéreux — et d’offloader plus de 500 opérations ELT vers Netezza. Pour mettre la solution en place, elle s’est tournée vers Syncsort. Rapide et sécurisé, le logiciel d’entreprise Syncsort DMX-h permet aux entreprises de développer des flux de données sophistiqués dans Hadoop, sans aucune écriture ni optimisation de code. Syncsort DMX-h s’exécute nativement sur YARN. Contrairement à d’autres solutions, ce logiciel ne génère aucun code Java, Pig ou HiveQL et ne nécessite aucune compilation, optimisation ou maintenance de code. Une fois les objectifs et le cahier des charges connus, Syncsort a proposé à son client une solution d’offload de son data warehouse. L’une des principales vocations d’Hadoop consiste à prendre le relais de systèmes anciens et coûteux pour le stockage et le traitement de données. Or, sans les outils appropriés, l’identification, l’accès et le transfert des données vers Hadoop peuvent rapidement se révéler complexes. C’est pourquoi Syncsort offre des outils ciblés permettant d’offloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop. Pour l’entreprise, l’adoption d’une solution d’offload Syncsort-Hadoop représentait le meilleur moyen de réduire ses coûts et de préparer son infrastructure de gestion des données aux futures initiatives métiers. Ainsi, outre la forte preference du client pour l’open source pure, le partenariat étroit entre Syncsort et Hortonworks a favorisé sa décision en faveur d’Hortonworks Data Platform comme plate-forme Big Data pour son projet d’offload. RÉSULTATS En offloadant le data warehouse, la solution Syncsort-Hortonworks est appelée à générer plusieurs millions de dollars d’économies sur différents facteurs de coûts dans les années à venir : •’’Matériels et logiciels de bases de données •’’Licences logicielles ETL •’’Maintenance et optimisation des codes SQL La pénurie de développeurs Hadoop compétents en Pig, Hive et MapReduce constituait l’un des principaux obstacles à l’adoption d’Hadoop dans l’entreprise. Grâce à son interface graphique, Syncsort DMX-h a permis aux développeurs d’exploiter leurs compétences ETL existantes pour créer des flux et traitements de données sophistiqués, sans aucun codage manuel. Par exemple, il n’a fallu qu’une semaine à un développeur pour transférer une opération ELT de 340 lignes SQL vers DMX-h. Cette même opération lui aurait pris entre trois et quatre semaines de codage. La connectivité complète de DMX-h à Hadoop permet aux équipes informatiques d’extraire et de charger nativement les données depuis la plate-forme HDP ou d’exécuter une opération « hors cluster » sur un serveur ETL. Par ailleurs, l’intégration étroite de DMX-h à Apache Ambari, au JobTracker d’Hadoop et aux protocoles standards de sécurité comme LDAP et Kerberos leur permet de déployer, maintenir, monitorer et sécuriser leur nouvel environnement HDP en toute simplicité. Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et économique pour le déploiement de nouvelles initiatives métiers : collecte et analyse d’un plus grand nombre de données issues des box TV-Internet, augmentation des mesures d’audimat et assimilation des données d’activité des internautes. L’ENTREPRISE SYNCSORT Syncsort propose des logiciels d’entreprise sûrs et performants. Solutions Big Data dans Hadoop ou applications Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour accélérer la collecte, le traitement et la diffusion de leurs données, tout en réduisant les coûts et les ressources engagés. C’est pourquoi la majorité des entreprises du Fortune 100 font confiance à Syncsort. Utilisés dans plus de 85 pays, nos produits vous permettent de réaffecter vos charges coûteuses et inefficaces, d’accélérer les traitements dans votre data warehouse et sur votre mainframe, et d’optimiser l’intégration de vos données au Cloud. Pour en savoir plus, rendez-vous sur www.syncsort.fr Document réalisé par la Société Corp Events - Janvier 2015 117 Retours d’expériences Big Data en entreprise TABLEAU SOFTWARE - BNP PARIBAS LA CONCEPTION DE L’AVENIR DE L’UNE DES PRINCIPALES SOCIÉTÉS DE SERVICES FINANCIERS D’EUROPE oPartner : BNP Paribas oContact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software) OBJECTIFS Innover pour développer des parts de marché, remporter de nouveaux clients et augmenter la part du portefeuille de clients existants. PRÉSENTATION: Le géant bancaire français a misé sur Tableau pour recueillir et analyser ses données en seulement quelques minutes. La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacité de visualiser les tendances de géocodage utilisées dans le cadre des campagnes commerciales et marketing de la banque. Et l’aperçu partagé et détaillé de la performance de 2 000 agences à travers la F contribue à renforcer la compétitivité. ASPECTS INNOVANTS Pierre Thebault, géoanalyste, est chargé d’analyser et d’identifier les tendances de géocodage au sein d’une région. Grâce à Tableau, il traque les opportunités de prospecter de nouveaux clients et de développer de nouvelles campagnes marketing extrêmement ciblées : « Tableau est le moyen le plus rapide de passer des données aux décisions ». Il est à même de localiser et de visualiser le nombre de prospects dans la région de Toulouse, et de les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent déjà. S’ils ont souscrit un prêt immobilier, ils constituent un candidat potentiel pour la souscription d’une assurance habitation ou d’une carte de crédit. Tableau permet de visualiser l’ensemble des données en quelques secondes, ce qui permet son équipe de transmettre ce public cible segmenté aux équipes commerciales internes de la banque pour un suivi immédiat. BNP Paribas recherche constamment des manières de différencier ses services en offrant une expérience plus localisée. Tableau permet à la banque d’étudier la localisation des distributeurs automatiques de billets des concurrents et d’identifier les sites potentiels pour de nouveaux distributeurs : « Comparer la localisation de nos clients avec la disponibilité du réseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux emplacements de distributeurs », déclare Pierre Thebault. Malgré l’expansion des services bancaires en ligne, les français restent attaches aux agences physiques. Tableau représente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas française. Directeurs et responsables partagent un aperçu détaillé de la performance de chacune des agences : chiffre d’affaires, rentabilité, personnel, adoption des services bancaires en ligne de la part des clients, etc. « L’accès rapide à des données fiables, grâce à Tableau, se traduit par une prise de décision vive et fiable concernant les agences », affirme Pierre Thebault. Il poursuit, « Avant Tableau, nous utilisions des feuilles de calcul et une base de données Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les données correctes et les réponses dont nous avions besoin. Désormais, grâce à Tableau, l’intégration homogène et la simplicité d’utilisation signifient que nous obtenons les réponses en quelques minutes. Cela rend-il la banque plus perspicace ? Oui, sans l’ombre d’un doute. » PROCHAINES ÉTAPES La majeure partie de l’inspiration pour ce programme couronné de succès appartient à Mydral, le partenaire d’exécution de BNP Paribas. La vision, la perspicacité et l’expérience de l’équipe de Mydral ont contribué au lancement de Tableau en quelques jours. Mydral a également fourni à BNP Paribas trois jours de formation et de transfert des connaissances afin de garantir que l’équipe soit opérationnelle presque immédiatement. Ce projet attire désormais l’attention d’autres services de la banque. BNP Paribas déploie actuellement Tableau sur les sites régionaux de Paris et Nantes dans le cadre d’un projet de segmentation de la clientèle. Ces données sont utilisées pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP Paribas tirée des données marketing. Document réalisé par la Société Corp Events - Janvier 2015 118 Retours d’expériences Big Data en entreprise TABLEAU SOFTWARE - CROIX ROUGE TABLEAU SOFTWARE AMÉLIORE L’ANALYSE TRANSVERSE ET VISUELLE DES INDICATEURS DE LA CROIX ROUGE FRANÇAISE. oPartner : Croix Rouge française oContact person : Marie-Ange Tnani (Croix Rouge française) et Edouard Beaucourt (Tableau Software) OBJECTIFS : La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières. L’association souhaitait mettre en place un système d’information décisionnel transverse s’appuiant sur une plateforme complète: un outil d’ETL, une base de données et un outil de tableaux de bord. PRÉSENTATION: Association à but non lucratif, la Croix-Rouge française dispense ses services dans les domaines sanitaire, social, médico-social, de la formation, et de l’action humanitaire. Près de 54000 bénévoles renforcent les 18112 salariés qui sont répartis dans plus de 570 établissements. Au cœur de l’association, les systèmes d’information (SI) ont pris une place prépondérante, accompagnant le développement et les besoins des différents métiers de la Croix-Rouge française. Quarante-trois personnes travaillent à la Direction des Systèmes d’Information, auxquelles s’ajoutent 7 responsables informatiques régionaux. Le budget de la Direction des Systèmes d’Information dépasse 8 millions d’euros. «Les années 2000 ont vu le développement des systèmes d’information dans l’optique d’un meilleur pilotage de l’ensemble de l’association» explique Laurent Monnet, Directeur des Systèmes d’Information de la CroixRouge française, «en suivant une logique d’harmonisation de nos solutions, de rationalisation de nos ressources». L’ambition affichée de la Direction des Systèmes d’Information est d’optimiser le pilotage de l’activité de l’association. « Lors de la construction des SI, nous étions focalisés sur le développement de la partie support et transactionnelle. Désormais, l’attente des utilisateurs est forte pour des outils de pilotage. Le moment était venu de réfléchir à une architecture décisionnelle» développe Laurent Monnet. La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières. «Nous souhaitions en complément de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui permette des représentations graphiques dynamiques, des résultats en temps réel» précise Marie-Ange Tnani, Pôle Applications et Développement et Chef de Projet Système d’Information Décisionnel. Aidée par Altic, intégrateur de solutions Open Source pour le Décisionnel, le traitement des flux de données et les outils collaboratifs, la Direction des Systèmes d’Information a fait le choix de Tableau Software. «Spécialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique d’accompagnement, en nous orientant vers une architecture complète, performante et évolutive » se satisfait Marie-Ange Tnani, « La Document réalisé par la Société Corp Events - Janvier 2015 119 Retours d’expériences Big Data en entreprise nécessité était forte d’un outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie soignée, une grande facilité d’usage.» Les premiers résultats probants n’ont pas tardés. En l’espace de 2 mois et demi, un datawarehouse complet a été construit sur les EHPAD (Établissements d’Hébergement pour Personnes Âgées Dépendantes). Cet entrepôt de données comprend 43 indicateurs et 6 sources de données différentes (comptabilité, ressources humaines, budget, métier, trésorerie, organisation). ASPECTS INNOVANTS: « En 3 semaines, avec Tableau, la Croix-Rouge française disposait de son premier tableau de bord. Par expérience, il aurait fallu 6 mois pour un tel résultat » insiste Marc Sallières, fondateur d’Altic. Tableau joue un rôle majeur d’accélérateur et catalyseur en étant un outil de data visualisation majeur dans une chaine de Business Intelligence, qui apporte agilité, souplesse et rapidité dans la restitution de l’information. « Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs découvrent et s’approprient les données » détaille Marie-Ange Tnani. « Les résultats tangibles sont immédiats : en cassant les silos, on crée un langage commun autour de la donnée. Les utilisateurs se retrouvent autour de définitions. Cela créé un cercle vertueux d’amélioration continue de la qualité des données, en mettant en relief les incohérences existantes.» Tableau Software offre une représentation géographique PROCHAINES ÉTAPES: Les premières restitutions graphiques ont conforté la Direction des Systèmes d’Information dans son choix. « Tableau offre une vue transverse qui intègre des indicateurs de différentes sources, avec une représentation géographique de certains de ces indicateurs » souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systèmes d’Information de la Croix-Rouge française vise la fourniture de tableaux de bord pour ses 570 établissements, consultables via le reader de Tableau. « Le cout global de la solution, maitrisée, nous autorise cette ambition » conclut Laurent Monnet. TABLEAU SOFTWARE - ISCOOL EN CINQ ANS, ISCOOL A QUADRUPLÉ SES REVENUS GRÂCE À TABLEAU SOFTWARE oPartner : IsCool oContact person : Gaëlle Periat (IsCool) et Edouard Beaucourt (Tableau Software) PRÉSENTATION: Des revenus issus du jeu qui ont quadruplé en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont été exploités, afin de permettre une prise de décision agile et efficace. « Des analyses visuelles ont été réalisées en quelques minutes, contrairement aux semaines d’attente qui étaient parfois nécessaires avec une précédente solution d’informatique décisionnelle. Il ne s’agit que de quelques uns des principaux aspects de l’utilisation que Document réalisé par la Société Corp Events - Janvier 2015 120 Retours d’expériences Big Data en entreprise fait IsCool de la solution d’analyse par virtualisation en temps réel de Tableau Software. En comprenant mieux les préférences, les comportements et les besoins des joueurs, cette importante société de jeu européenne fait croître en taille et en nombre ses communautés mondiales de joueurs, pour un coût de possession remarquablement bas. UN CHEF DE FILE DU MARCHÉ EUROPÉEN DU JEU EN LIGNE Chef de file européen dans le secteur du jeu en ligne, IsCool Entertainment réunit 2,8 millions d’utilisateurs sur Facebook et d’autres médias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. L’un des catalyseurs du succès de cette société est son utilisation extrêmement précise des outils d’informatique décisionnelle, c’est-à-dire une approche rigoureuse de l’analyse des profils des clients, de l’adoption par les utilisateurs et des modes de jeu. Trois ans auparavant, alors qu’IsCool disposait d’une base de 400 000 utilisateurs et annonçait des bénéfices de 3 millions de dollars, cette société parisienne se basait sur une approche simple de l’intégration des données et de l’informatique décisionnelle pour guider ses choix. Celle-ci était composée d’outils d’intégration open source et d’une solution logicielle commerciale de visualisation décisionnelle. Cependant, les 18 millions d’actions aujourd’hui générées quotidiennement par les utilisateurs ainsi que des revenus quadruplés par rapport à 2009 imposent à cette société de s’axer sur une analyse agile des Big Data. « Les données de jeu croissent exponentiellement et évoluent en temps réel », explique Gaëlle Periat, analyste numérique chez IsCool. « Nous collectons des données issues des journaux des applications, des publications Facebook et des repères analytiques. Il est impératif que ces données soient fournies sans délai aux décideurs commerciaux afin qu›ils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des décisions en matière de développement des jeux et conférer aux campagnes publicitaires un impact maximal. » IsCool avait également besoin d’une approche flexible concernant la visualisation et la présentation des données. Les concepteurs de jeux, par exemple, souhaitaient bénéficier de graphiques visuels et intuitifs, afin de pouvoir ajouter de nouvelles fonctionnalités à leurs réalisations actuelles les plus populaires. Les développeurs préféraient consulter des rapports générés à partir des fichiers journaux techniques. Les cadres supérieurs d’IsCool nécessitaient quant à eux une vision instantanée des prévisions de revenus, des pipelines et des dépenses publicitaires. DES RAPPORTS QLIKVIEW PÉRIMÉS DÈS LEUR CRÉATION Encore récemment, IsCool était équipée d’un outil QlikView. Selon Gaëlle Periat, la nature fermée de cette technologie impliquait la présence permanente d’un analyste qui devait participer à l’intégration des données. « Chaque fois qu’un cadre supérieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait inévitablement la fourniture des résultats », explique-t-elle. Afin de pallier à cette situation, IsCool a adopté en standard une solution d’analyse visuelle en temps réel proposée par Tableau. À la pointe de sa catégorie, cette solution d’informatique décisionnelle efficace, rentable et collaborative est utilisée par 20 équipes au sein de la société, afin de permettre des prises de décisions ponctuelles et fiables. IsCool peut connaître instantanément le nombre d’utilisateurs de ses jeux (trafic), les fonctionnalités les plus couramment utilisées, la durée des sessions de jeu, les téléchargements les plus populaires, et bien plus encore. UNE AUGMENTATION DE 23 % DE L’INTERACTION AVEC LES JOUEURS En exploitant les Big Data, l’équipe peut également étudier la corrélation entre la taille d’une communauté de joueurs et son niveau d’interaction. Une fois l’une de ces communautés identifiée (qu’il s’agisse d’un simple binôme de joueurs ou d’un regroupement de moyenne ou grande envergure), l’équipe peut interagir avec elle de façon plus efficace, la fidéliser et la faire croître de façon spectaculaire. Des jeux spécifiques passent eux aussi sous le microscope que constitue la génération de rapports. Tableau permet de répondre à des questions telles que : « Un jeu est-il trop riche en fonctionnalités ? », « Quelles sont les fonctionnalités utilisées par telle catégorie de joueurs ? », et « Comment optimiser l’accès aux fonctionnalités ? » De plus, IsCool peut désormais établir de façon fiable et rapide les différentes catégories d’utilisateurs, caractérisées par leur profil d’interaction et leur utilisation des fonctionnalités. Cette meilleure compréhension de l’interaction des utilisateurs avec les jeux IsCool a mené à une augmentation incrémentielle de 23 % de celle-ci, pour certaines catégories d’utilisateurs ciblés. Dans le même temps, les cadres autorisés d’IsCool reçoivent un rapport quotidien et essentiel de veille commerciale, qui comprend les revenus générés la veille classés par catégories, le nombre d’utilisateurs simultanés du jour et le nombre de joueurs actifs. « Alors qu’il nous fallait jusqu’à une semaine pour préparer nos rapports dans QlikView, nous pouvons maintenant élaborer et partager de nouvelles idées en quelques minutes avec Tableau. » PRODUCTIFS EN QUELQUES MINUTES AVEC TABLEAU Gaëlle Periat a été convaincue dès le début. « Lorsque j’ai intégré l’équipe d’IsCool, celle-ci m’avait dit : voici Tableau, il sera ton meilleur ami. Sur le coup, je n’avais pas pris cette déclaration au sérieux. Mais en quelques minutes, j’étais productive. Je pouvais développer de nouveaux rapports en temps réel et mettre en évidence des résultats concernant l’expérience de jeu. Je n’aurais jamais pu faire cela auparavant. » En transformant IsCool en une organisation de jeu agile et axée sur les données, Tableau a aidé cette société à quadrupler ses revenus en cinq ans. « Tableau a permis à IsCool de prendre le contrôle des Big Data et a rendu notre processus de prise de décision plus rapide, plus simple et plus efficace. Je doute qu’IsCool aurait pu passer de 3 millions de dollars de revenus en 2009 à 13,2 millions de dollars aujourd’hui, sans la visualisation interactive des données que nous procure Tableau », ajoute Gaëlle Periat. Une autre composante essentielle de ce succès a été l’innovante base de données analytique Actian Vectorwise. En remplaçant une plate-forme open source, Vectorwise fournit à IsCool des performances ultra rapides et rentables en matière de bases de données et d’informatique décisionnelle. Installée sur des serveurs virtuels pour un traitement extrêmement efficace des Big Data, cette solution stocke jusqu’à un teraoctet de données de jeu. Vectorwise permet à Gaëlle Periat et ses collaborateurs d’analyser un volume de données plus grand que jamais, Document réalisé par la Société Corp Events - Janvier 2015 121 Retours d’expériences Big Data en entreprise pour une fraction du coût du traitement classique de celles-ci. Elle précise : « En utilisant Vectorwise, IsCool peut traiter et exploiter d’énormes quantités de Big Data sur des machines bien plus faiblement dimensionnées. Cette rationnalisation permet à notre société d’économiser chaque année plus de 10 000 dollars de matériel. Pour une petite entreprise dynamique comme IsCool, il s’agit d’une économie significative. Pour Gaëlle Periat, il n’existe qu’une seule façon de résumer la valeur de Tableau. « Chez IsCool, nous pensons que Tableau est très cool », conclut-elle. TABLEAU SOFTWARE - NOKIA L’EXPÉRIENCE UTILISATEUR À LA VITESSE DE LA PENSÉE : NOKIA oPartner : Nokia oContact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software) PRÉSENTATION: L’auteur Robin Bloor est analyste principal chez Bloor Group, une société d’analyse en conseil, recherche et technologie ciblant la recherche libre et l’utilisation des médias modernes pour regrouper des informations et les redistribuer aux utilisateurs. Pour plus d’informations, consultez les sites www.TheBloorGroup.com et www. TheVirtualCircle.com. Cet entretien de Bloor Group s’inscrit dans le cadre d’un projet de recherche. RÉSUMÉ Avant Tableau, Nokia confiait ses rapports et ses analyses de données à des intermédiaires informatiques. Désormais, ce sont les utilisateurs qui tiennent les rênes. « L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique n’intervienne entre lui et les données. » Ravi Bandaru, responsable produit pour la visualisation et l’analyse des données chez Nokia, utilise Tableau depuis juillet 2010. Il affirme qu’au sein de cette société, 350 à 400 personnes utilisent Tableau (sous forme bureautique ou interactive). Une véritable communauté s’est ainsi formée. «Avant, les utilisateurs étaient effrayés à l’idée d’utiliser les outils de solution décisionnelle existants. Ils se reposaient alors sur des intermédiaires, comme le personnel informatique, pour s’occuper de leurs données», déclare-t-il. L’ANALYSE INTERNE DE LA MÉMOIRE ACCÉLÈRE L’ANALYSE ET REND L’EXPLORATION POSSIBLE Selon lui, les capacités de mémoire interne de Tableau offrent deux avantages : une interface personnalisable et une augmentation de la vitesse des performances des requêtes. «L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique n’intervienne entre lui et les données», déclare-t-il. «Ces capacités de mémoire interne me permettent d’explorer des ensembles de données plus complexes et plus vastes, qui m’étaient auparavant inaccessibles.» Nokia utilise Tableau dans le cadre d’analyses marketing et l’a installé sur sa propre base de données. Bandaru déclare que les requêtes en direct normalement exécutées dans leur base de données ne donnent pas les temps de réponse escomptés, à la différence de celles exécutées dans le moteur de données Tableau, qui apportent une réponse instantanée à partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses ad hoc et que la plupart des analystes actualisent leurs données de façon hebdomadaire. Bandaru poursuit en disant qu’il lui arrive de recommander Tableau à certains types d’utilisateurs. Parfois, ce sont les utilisateurs eux-mêmes qui viennent à lui pour pouvoir l’utiliser. Toutefois, l’utilisateur final standard auquel il est confronté n’est pas intéressé par les analyses, les statistiques ou le langage SQL. UTILE POUR TOUS LES UTILISATEURS Bandaru déclare : «Si l’utilisateur final est passionné de données ou d’analyses, il adorera utiliser Tableau car ce logiciel lui permet d’accéder désormais à de nombreuses sources de données.» Un utilisateur moins expérimenté peut l’utiliser simplement comme outil de solution décisionnelle. Il revient ensuite à la direction de proposer des formations et d’expliquer que «cet outil permet de générer des travaux complexes, impossibles à réaliser avec d’autres outils.» Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique qu’il attend des améliorations dans la version 7.0, telles que le partage d’extraits dans les classeurs, permettant ainsi à un extrait de faire office de source de données, ou encore le partage d’extraits entre plusieurs utilisateurs du monde entier. Document réalisé par la Société Corp Events - Janvier 2015 122 Retours d’expériences Big Data en entreprise Il déclare que ce type de collaboration rationalisée serait particulièrement utile pour un nouvel employé non familiarisé avec le fonctionnement de l’entreprise. De nos jours, affirme-t-il, nous devons encore accéder à la source de données d’origine. Mais il serait bénéfique à l’avenir que ce même employé soit capable d’extraire et d’utiliser les données créées par n’importe quel service, et ce n’importe où. Bandaru essaie de faire en sorte que le produit soit adopté dans une plus grande mesure en proposant des outils de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pratiques. LA DIFFÉRENCE QUI FAIT LA DIFFÉRENCE Comme l’illustre cette expérience utilisateur de Tableau version 6, Tableau passe du statut d’outil décisionnel dans le sens traditionnel du terme à un statut de plate-forme décisionnelle capable de prendre en charge une grande partie des besoins de solution décisionnelle d’une entreprise. D’un point de vue technique, la différence se situe au niveau de l’architecture. La connexion directe tire profit de sources de données existantes très performantes. De plus, le moteur de données de mémoire interne génère d’innombrables possibilités. Grâce aux fonctions de mise en mémoire cache et de traitement, les ensembles de données ne doivent pas être nécessairement chargés en totalité dans la mémoire pour que l’analyse puisse débuter. Mais il est probable que l’utilisateur ne le sache pas ou ne s’en soucie guère. Seules la vitesse et la portée sont importantes à leurs yeux. L’analyse peut s’effectuer à la vitesse de la pensée. Il est ainsi possible d’exploiter davantage de données sur un matériel plus restreint. On peut parler de véritable analyse ad hoc lorsque l’utilisateur n’est pas obligé de déterminer à l’avance les mesures à agréger ou à interroger. L’utilisateur peut explorer les données sous toutes ses formes, y entrer dans le détail ou les résumer en catégories. Quasiment tous les types de visualisation de données sont regroupés dans cette solution, et capables de traiter des ensembles de données volumineux à la vitesse de la pensée. TABLEAU SOFTWARE - PHARMASECURE PHARMASECURE ENHANCES ITS CUSTOMER VALUE PROPOSITION WITH TABLEAU oPartner : PharmaSecure oContact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software) PRÉSENTATION: PharmaSecure, a technology provider for the healthcare industry, recognised that the company’s success was underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly. Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the company: •Cut reporting time by weeks •Instill a culture of data-driven decision making in the organisation •Add value to stakeholder ecosystem—helping customers understand patient consumption behaviour and enabling patients to better depend on medicine CREATING A DATA-CENTRIC VALUE SYSTEM FOR CUSTOMERS PharmaSecure is a US-based software and technology company working towards improving global public health. Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients with safe medicines, and impacting patient adherence. The company works with pharmaceutical companies to print unique, randomly generated codes on medicine packages. These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS, mobile app or by feeding it on the company website. As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users to opt in to customized mobile heath programs. These programs have applications such as reminders to refill medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a facilitating link adding immense value to healthcare users and drug manufacturers. Document réalisé par la Société Corp Events - Janvier 2015 123 Retours d’expériences Big Data en entreprise RECOGNIZING AN OPPORTUNITY With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical companies are scouting for tools that can help them decode patients’ behaviour and consumption patterns. In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strengthen their partnerships with pharmaceutical customers while helping patients manage their diseases better. “Data is at the corner stone of our business and we needed to make that our differentiating element. As a company, our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use an effective solution that could generate definable, powerful and intuitive analytics,” says Samit YADAV, Senior Director, Technology and Operations, PharmaSecure. At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate time every week to extracting information from different sources, populating Excel sheets with the data and finally, deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solution that would offer a faster, interactive experience. USING THE POWER OF SIMPLICITY FOR POWERFUL ANALYTICS After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau software due to its polished and comprehensive offering. Today Tableau software is used by most members of PharmaSecure’s Operations team. Typically, PharmaSecure’s MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach 1000-2000 rows over the next six months. Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extracted from data every week and every month. This move to a prescriptive style of analytics triggers faster decision making for the company. BELIEVING IN DATA ANALYTICS AND ITS INFLUENCE Using Tableau, the company has been able to maximise the value from their growing data without having to invest any additional resources. “Tableau’s power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given us substantially greater insight across the business operations- supply chain, time to market, program enrollment, distribution, sales force effectiveness among other aspects,” Abhijit elaborates. Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to not only access but build Tableau data charts on their own. “The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and interesting ways for our customers.” TABLEAU SOFTWARE - SKYROCK SKYROCK.COM S’OFFRE UN OUTIL DÉCISIONNEL RAPIDE ET FACILE À UTILISER oPartner : Skyrock.com oContact person : Loïc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software) OBJECTIFS: Uniformiser les outils décisionnels. En effet, jusqu’à récemment, la réponse de Skyrock consistait à autoriser chaque service à utiliser son propre outil décisionnel, au détriment de l’efficacité, de la productivité et de la convivialité. Par exemple, les utilisateurs Marketing pour la partie « éditeur » (construisent le site) utilisaient un système, tandis que ceux de la régie publicitaire (monétisent le site), en utilisaient un autre pour présenter les impressions de page, les visiteurs uniques, le CA généré… etc. Skyrock s’est rendu compte que le choix d’une solution décisionnelle standardisée, unique et ultraperformante transformait la capacité de ses utilisateurs à analyser et comprendre les données. Cela s’explique par le fait que naturellement, on voit et on comprend plus efficacement les données avec des visualisations interactives. Au final, le nouveau système de Skyrock a apporté des réponses aux questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires. PRÉSENTATION : Skyrock.com est le premier réseau social de blogs français et européen, avec plus de 34 millions de blogs dans le monde. « Skyrock doit analyser de grandes quantités de données, et Tableau est une solution ultraperformante Document réalisé par la Société Corp Events - Janvier 2015 124 Retours d’expériences Big Data en entreprise qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace », explique Loïc Cadiot, chef de projet chez Skyrock. « Étant donné que nous gagnons du temps sur la collecte et la présentation des données, nous pouvons consacrer plus de temps à l’essentiel : l’analyse des données et la prise de décisions qui favorisent la progression des audiences et les revenus publicitaires. » Le problème : des systèmes informatiques hétérogènes. Comment bénéficier d’un outil décisionnel (business intelligence) ultrarapide et facile à utiliser, portant sur les usages des utilisateurs sur les blogs et l’efficacité des campagnes publicitaires ? ASPECTS INNOVANTS Les solutions faciles à utiliser font gagner du temps et améliorent l’analyse. Skyrock utilise une version complète de la technologie Tableau afin d’analyser rapidement les usages web et les revenus publicitaires générés par ses annonceurs. Les salariés se sont servis de Tableau pour créer des tableaux de bord intuitifs, publier les données dans un navigateur et les incorporer dans des e-mails afin qu’elles puissent être partagées par les autres utilisateurs de la société. La majorité des employés accède à Tableau à partir d’un navigateur et est capable d’obtenir les réponses à ses questions en quelques clics. L’un des facteurs clés de la réussite de Tableau est son extrême rapidité et sa facilité d’utilisation. Le déploiement de Tableau au sein de Skyrock a été géré en interne, sans soutien d’experts en technologie de l’information, et aucune formation formelle n’a été nécessaire. Le personnel s’est formé principalement à l’aide de courtes vidéos en ligne. Et les résultats parlent d’eux-mêmes : les rapports sur l’étude des usages web, qui autrefois nécessitaient une demi-journée, sont désormais créés en moins de 30 minutes. Par ailleurs, Tableau permet également la production de rapports sous différents systèmes d’exploitations, réconciliant les plateformes Windows et Mac – un problème auquel la société avait déjà été confrontée auparavant. Document réalisé par la Société Corp Events - Janvier 2015 125 Retours d’expériences Big Data en entreprise TALEND - LENOVO LENOVO SÉLECTIONNE TALEND BIG DATA INTEGRATION POUR AMÉLIORER ET ACCÉLÉRER SES PRISES DE DÉCISIONS BUSINESS TALEND ENTERPRISE BIG DATA ACCROIT CONSIDÉRABLEMENT SON AGILITÉ ET SES PERFORMANCES, TOUT EN RÉDUISANT SES COÛTS D’INTÉGRATION Talend, le leader mondial des logiciels d’intégration des Big Data, annonce aujourd’hui que Lenovo a sélectionné Talend Enterprise Big Data afin de mieux connaître ses clients en analysant des données issus d’un grand nombre de points de contact – tiers, API et flux de réseaux sociaux – et en dégageant de ces données une image très précise de ses clients. N°1 mondial des fabricants de PC et n°4 des constructeurs de smartphones, Lenovo cherchait à rationaliser ses processus d’intégration ainsi que le développement de rapports qu’utilise son département marketing pour analyser l’efficacité de ses campagnes. L’architecture open source de Talend et son modèle de licence prédictible basé sur l’utilisation lui a offert la flexibilité nécessaire pour répondre à ses besoins, tout en garantissant l’évolutivité du système d’intégration. Grâce à Talend Enterprise Big Data, Lenovo assure l’intégration de ses Big Data à l’aide de près de 300 processus exploités simultanément – chiffre qui est voué à croître dans les prochaines années. Parmi les nombreux bénéfices obtenus par Lenovo depuis la mise en œuvre de Talend, les réductions de coûts enregistrées représentent environ 140 000 $ pour les seuls coûts de migration. En outre, Talend a aidé Lenovo à améliorer les performances de son reporting, tout en raccourcissant les délais de traitement de plusieurs heures. « Nous devons améliorer continuellement les délais d’acquisition des données et la facilité d’utilisation de la plateforme de Talend nous permet d’y parvenir » déclare Marc Gallman, Manager of Data Architecture chez Lenovo. Ces gains d’efficacité se traduisent au final par l’amélioration et l’accélération des prises de décision, ce qui a un impact positif sur les stratégies marketing du constructeur – à la fois localement et mondialement. Avec un accès plus fréquent et plus rapide aux données, Lenovo est en mesure d’ajuster rapidement ses campagnes. « Si les entreprises exploitent de plus en plus de données, elles continuent à éprouver des difficultés pour les analyser, notamment du fait de leur incapacité à intégrer des données issues de systèmes traditionnels, des réseaux sociaux et des nombreux systèmes déployés dans le Cloud » commente Mike Sheridan, Executive Vice President of Sales, chez Talend. « Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes impatients de les aider à accéder plus rapidement et plus fréquemment à leurs données pour améliorer les prises de décision. » TALEND - BUFFALO BUFFALO STUDIOS OPTIMISE LA VALEUR DES DONNÉES POUR ACCROÎTRE SA COMPÉTITIVITÉ DANS LE SECTEUR DES JEUX SOCIAUX. LA SOLUTION DE GESTION BIG DATA TALEND ENTERPRISE CONFÈRE À L’INFRASTRU CTURE D’INTÉGRATION DES DONNÉES LA FLEXIBILITÉ DONT ELLE A TANT BESOIN Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) basée à Santa Monica en Californie, crée des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis grâce au divertissement interactif. Le projet le plus considérable de Buffalo Studios est Bingo Blitz, le jeu de bingo en ligne gratuit le plus diffusé dans le monde. Document réalisé par la Société Corp Events - Janvier 2015 126 Retours d’expériences Big Data en entreprise Des millions d’utilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Facebook, iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des immenses opportunités d’affaires que génère la notoriété de leurs jeux. Encore faudrait-il savoir comment exploiter les données efficacement… « De manière générale, le secteur dans lequel nous évoluons fonde sa croissance sur les informations, » commente Sohl. « En effet, les informations que nous récoltons déterminent toutes nos décisions au niveau du marketing et du développement des produits. C’est grâce à cela que nous sommes toujours en avance sur nos concurrents. » Dans le cas de Bingo Blitz, Buffalo recueille des données permettant de savoir quelles cartes ont été jouées lors de chaque partie, si le joueur fait bingo ou pas, combien de crédits sont gagnés et dépensés, etc. « Chaque mouvement des données récupérées est vital. Et nous avons des centaines de points de collecte d’informations dans chaque jeu, » remarque Sohl, en ajoutant que l’entreprise traite plus de 100GB de données tous les jours, un volume qui devrait augmenter rapidement. Mais, bien sûr, il y a un obstacle. Selon Sohl : « Avant que ces données ne deviennent vraiment intéressantes pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en avantage concurrentiel. Voilà pourquoi il est indispensable que les informations soient fiables et qu’elles puissent être intégrées à l’intérieur de notre Data Warehouse. » Élimination des blocages coûteux L’intégration de données à l’intérieur du Data Warehouse a toujours représenté un défi à Buffalo, qui utilisait un ensemble désordonné de code personnalisé et de scripts Python. Le résultat était bien en-dessous des attentes. “Chaque semaine, nous délivrons de nouvelles fonctionnalités pour nos jeux, surtout pour Bingo Blitz. Nous avons besoin d’outils spécifiques afin d’analyser leur comportement et identifier les plus performantes d’entre elles, » explique Sohl. « Nous voulons savoir qui les utilise et mesurer leur incidence sur l’environnement du jeu. » Pourtant, le système d’intégration de données tel qu’il était paramétré chez Buffalo rendait l’ajout de ces nouveaux points de mesure extrêmement fastidieux. Comme Sohl l’indique : « Il s’agissait d’une opération manuelle très pénible, au point que tout se bloquait au niveau de l’équipe chargée du traitement des données. Des informations nouvelles et importantes se retrouvaient coincées dans l’infrastructure et souvent ne passaient même pas la phase de l’extraction à partir des fichiers logs bruts. » Ces ralentissements ont hélas conduit l’équipe BI à penser que les données n’existaient pas. « Pourtant, nous les récupérions. Simplement, elles n’arrivaient jamais au Data Warehouse à cause de la lourdeur du flux, et les événements sur les données ne pouvaient y être ajoutés, » résume Sohl. Le directeur technique et ses collaborateurs savaient pertinemment qu’ils devaient trouver une solution capable d’apporter une plus grande flexibilité au niveau de l’intégration des données, ce qui leur permettrait d’ajouter de nouveaux points de mesure, et de repérer les informations cruciales pour une prise de décisions éclairée. FLEXIBILITÉ TOTALE : LA RÉPONSE DE TALEND Après avoir pris en considération la possibilité de développer en interne en Java pur, Sohl et le service technique ont décidé de s’adresser au meilleur éditeur sur le marché capable de répondre à leurs besoins. Talend est ressorti de leurs recherches. En effet, précise Sohl, « Nous nous sommes aperçus immédiatement que Talend proposait un environnement de développement plus complet et abouti que toutes les solutions faisant l’objet de nos évaluations. » Buffalo Studios a alors décidé d’effectuer des essais opérationnels de validation avec Talend et d’autres éditeurs. Talend a donné les résultats les plus convaincants. Et Sohl de poursuivre : « La solution d’intégration de données de Talend était basée sur Java, et nous avons beaucoup apprécié, parce que cela nous permettait de nous appuyer sur les compétences avérées de notre équipe. Sans compter qu’elle offrait davantage de flexibilité et qu’elle pouvait être utilisée immédiatement telle quelle, sans modifications, conjointement avec notre code Java personnalisé. » Après réflexion, Buffalo Studios a donc choisi la solution d’intégration de données Talend, y incorporant quelques composants spécifiques en Java, compatibles avec Talend. LA MISE EN PLACE Buffalo Studios a fait preuve de toute la diligence nécessaire afin de déterminer l’utilisation la plus efficace de la solution Talend pour l’intégration des données, et l’implémentation de la version de production s’est faite de manière rapide et indolore. Avec l’aide d’Artha Data Solutions, un partenaire intégrateur de Talend, Buffalo Studios est passé de la conception à l’implémentation du projet en quelques mois à peine. Et, puisqu’aucun de ses collaborateurs n’avait d’expérience avec les solutions Talend, l’entreprise a adopté le système de formation en ligne, ce qui a permis à ses ingénieurs d’acquérir en très peu de temps toutes les connaissances nécessaires. Leads plus faciles à exploiter : analyse des informations plus rapide et plus grande productivité Aujourd’hui Buffalo Studios utilise la solution d’intégration Big Data de Talend, et a obtenu la flexibilité qui lui manquait auparavant. « Quand nous avons des besoins d’analyse spécifiques, nous pouvons maintenant écrire nos propres composants Java et les incorporer à la solution Talend, » explique Sohl. « Et quand il s’agit d’ajouter de nouveaux points de mesure des données, nous ne bloquons plus le processus à notre niveau, car nos développeurs travaillent simplement avec les outils sans avoir à effectuer manuellement de laborieuses modifications. » Ce type de gestion allégée, à son tour, permet à Buffalo Studios d’ajouter de nouveaux points de données chaque semaine. D’après Sohl, le problème des blocages au niveau des fichiers logs bruts devrait maintenant être totalement résolu. Cet avantage revêt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl n’arrive pas à livrer les informations cruciales à la direction, les décisionnaires restent dans l’incertitude. « Nous avons besoin de mesurer la performance de nos fonctionnalités, qu’elle soit bonne ou mauvaise, presque en temps réel. Plus l’exploitation des données sera simple pour nous, plus l’équipe BI pourra en tirer parti. Talend nous aide à Document réalisé par la Société Corp Events - Janvier 2015 127 Retours d’expériences Big Data en entreprise optimiser les processus, à améliorer la rapidité et à accroître la valeur que nous pouvons tirer de nos données, » précise Sohl. De plus, les ingénieurs de l’équipe technique gagnent en productivité, puisqu’ils n’ont plus de problèmes d’intégration à résoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante. C’est ce qui assure la croissance et la fidélisation des clients. PERSPECTIVES Globalement, Buffalo Studios est extrêmement satisfait de sa collaboration avec Talend. « Nous portons beaucoup d’intérêt à l’exploration des nombreuses possibilités offertes par Talend en termes de qualité des données. Je pense qu’il y aura un vrai potentiel à exploiter en élargissant le savoir-faire de Talend à d’autres applications, et que nous pourrons alors bénéficier de nombreux avantages au fur et à mesure que nous progresserons, » déclare Sohl. Document réalisé par la Société Corp Events - Janvier 2015 128 Retours d’expériences Big Data en entreprise VELVET - PAIEMENT MONÉTISATION DE LA DATA D’UN ACTEUR DE LA CHAÎNE DU PAIEMENT DANS LE CADRE D’UNE MISSION D’ÉTUDE D’OPPORTUNITÉ Dans le cadre de sa stratégie de développement et de diversification de son offre, un acteur majeur de la chaîne du paiement a été accompagné par Velvet pour concevoir des offres de monétisation de son capital data, valorisant les volumes considérables de transactions gérées. Le projet a consisté dans un premier temps à évaluer l’opportunité d’offres : analyse et diagnostic des data existantes, interview de potentiels futurs clients pour évaluer le niveau de demande du marché, benchmark des acteurs de l’écosystème de la donnée et SWOT, pour in fine définir 7 offres de services. Dans un second temps, il s’est agi de définir un Go To Market : priorisation de 5 offres en fonction de leur complexité et revenu, analyse juridique détaillée des offres, design détaillé des offres satisfaisant aux contraintes juridiques avec description, pricing, gains totaux (financier et non financier), complexité de mise en marché et illustrations, et enfin identification des partenaires potentiels pour leur lancement commercial. Cette mission a permis de valider l’intérêt du marché pour plusieurs offres de monétisation de la Big Data transactionnelle de cet acteur, avec une valorisation estimée de 5% à 10% de chiffre d’affaires additionnel. VELVET - TELECOM TRANSFORMATION ET COACHING DES ÉQUIPES BUSINESS INTELLIGENCE D’UN OPÉRATEUR TÉLÉCOM DANS L’EXPLOITATION OPTIMALE DE SON ENVIRONNEMENT BIG DATA Cet opérateur global des Télécoms a investi dans une architecture Big Data, convaincu du levier de performance apporté par cette démarche pour l’ensemble de l’organisation, notamment dans un marché ultra concurrentiel. Afin d’accompagner sa transformation Big Data, ce dernier a confié à Velvet la réalisation d’une mission de 4 mois de formation, coaching et aide à la réalisation de traitements et projets dans le nouvel environnement. Cette mission vise deux principaux objectifs : - Rendre autonome l’équipe en place dans son activité au quotidien dans l’environnement Big Data - Profiter de cette transformation pour optimiser l’efficacité du pôle en retravaillant les modes de fonctionnement et pratiques de l’équipe. Après une phase de diagnostic de l’existant (sur les plans de l’organisation, des compétences, des relations avec les entités Marketing, Commerciale, Relation client, et CRM), l’équipe est montée en compétence grâce à un plan de formation constitué des modules suivants : Mise à niveau Java, Concept Big Data et langage, Map Reduce par l’exemple, Machine Learning et Scala, Interrogation de données (Hive, Impala, Pig, …), Diverses technologies Big Data (Scoope, Flume, …) et Outils de visualisation. Afin de mettre en pratique les acquis de ces formations et de valider l’efficacité de l’exploitation de l’environnement Big Data, l’équipe a été coachée dans le cadre de la réalisation de projets concrets nourrissant des analyses et réflexions autour des problématiques Foyer et Expérience Client. Cette équipe est aujourd’hui autonome sur les principales pratiques de traitements Big Data et des premiers gains d’efficacité se sont déjà fait ressentir. Pour en savoir plus – à propos de Velvet Velvet est un cabinet spécialisé en Marketing, Digital, Ventes et Relation Client situé à Paris et Lyon. Il intervient sur l’ensemble de la chaîne de valeur client, de la définition de la stratégie à sa mise en œuvre opérationnelle et technique, grâce au levier de la Data. Velvet propose une approche globale du Big Data, résolument orientée Valeur (IT, Métier, Analytique et Organisation). Document réalisé par la Société Corp Events - Janvier 2015 129 Retours d’expériences Big Data en entreprise YSANCE - ARKENA LES ENJEUX D’UNE PLATEFORME BIG DATA TEMPS RÉEL POUR ARKENA CONTEXTE Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vidéo sur tous les écrans (Streaming Web, Mobile, Box, B2B, etc.) Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux serveurs à travers le monde. Ces serveurs génèrent de très grande quantité de logs, actuellement utilisés pour monitorer le CDN, mais aussi pour déterminer la facturation client selon l’usage. Avec l’augmentation du nombre des clients et de la volumétrie diffusée, l’architecture en place de collecte et traitement de ces logs (Rsyslog, Postgresql, Java), ne permettait plus d’assurer les services attendues (Supervision, Alerting, Analyse et facturation). Arkena souhaitait donc remplacer ce système par une architecture hautement scalable, facile à maintenir et disposant d’un faible TCO. ENJEUX TECHNIQUES •Collecte et stockage des logs en temps réel (+ de 60 000 logs par seconde) •Archivage des logs sur au moins 3 ans •Calcul au fil de l’eau de plus de 300 KPI (Mise à jour toutes les minutes) •Mise à disposition de ces indicateurs via des appels API REST •Garantir que chaque ligne de log sera intégrée une et une seule fois •Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacenters et en garantissant l’acquittement de réception de chaque log. •Offrir un très haut niveau de disponibilité, des mécanismes de reprises sur erreur et une forte capacité de montée en charge ARCHITECTURE L’architecture mise en place par Ysance est de type “Lambda” et repose sur trois stacks techniques : Spark pour les traitements temps réel, MapReduce pour les traitements Batch et Elasticsearch pour la couche présentation. •Vitesse : La couche temps réels reposent sur Apache Spark, et calculent les KPI sur une fenêtre de temps d’une minute (agrégation de 3,6M de logs / mn). L’objectif est d’alimenter au plus vite la couche de restitution avec des indicateurs qui ne nécessitent pas de retraiter l’ensemble de l’historique des données. •Batch : La couche Batch vise à créer une vision définitive, et si nécessaire corrigée des données traitées par la couche de vitesse (en cas d’arrivée trop tardive, de redémarrage du process temps-réel, …), ainsi qu’à calculer les KPI nécessitant de traiter un historique de données plus long. (dans le cas de la dimension temps, les aggrégats à l’heure, journée, semaine, mois, …) Elle repose sur le moteur MapReduce, au travers de Hive ou de développement spécifiques Java. •Présentation : La couche de présentation réconcilie les données traitées par la couche vitesse et la couche batch, et permet ainsi d’analyser et d’aggréger dans un même dashboard des données issues de Spark et de Hive. Cette couche repose sur Elasticsearch, qui offre la possibilité d’appliquer des aggrégats au requêtage, et permet ainsi de sommer, de compter distinctement, etc… sur l’ensemble des données, avec des temps de réponse inférieurs à la seconde. •Transport : La couche transport repose sur Apache Flume. L’objectif est de collecter en streaming l’ensemble des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les agents Flume présents sur les edge et ceux qui écrivent sur le cluster Hadoop est effectuée par appel RPC / Avro. Document réalisé par la Société Corp Events - Janvier 2015 130 Retours d’expériences Big Data en entreprise Cette architecture Lambda permet de traiter un même flux de données de manière synchrone et asynchrone : •Calcul temps-réel de certains indicateurs sur une fenêtre temporelle réduite (1 min) avec un débit jusqu’à 60 000 messages / sec •Recalcul batch de l’ensemble des indicateurs à J+1 •Indicateurs sur une fenêtre plus longue (5mn) •Prise en compte des « arrivées tardives » et consolidation des résultats •Maintient d’un jeu de résultats unique et accessible BÉNÉFICES •2 mois pour la mise en place du projet •Plateforme Big Data moderne (Fast Data) et hautement scalable •Enrichissement du périmètre fonctionnel actuel avec de nouveaux KPI désormais envisageables avec cette architecture •Coût projet réduit notamment grâce à l’usage systématique de solutions Open Source YSANCE - ANOVO COMMENT ANOVO A BÂTI RAPIDEMENT SON NOUVEAU SI DÉCISIONNEL GROUPE GRÂCE AUX SOLUTIONS BIG DATA D’AMAZON WEB SERVICES ? ANOVO, leader au niveau européen en prestation de services techniques et logistiques pour les opérateurs télécoms et multimédia, est un des principaux acteurs de la gestion durable du cycle de vie des produits électroniques. Chaque année, il donne une seconde vie à plus de 20 millions de produits dans le monde entier. Elle collabore avec des fabricants, des distributeurs et des opérateurs pour proposer à leurs clients des solutions de réparation, de logistique, de régénération et d’extension de garantie. Parmi les produits électroniques qu’elle traite, figurent les décodeurs, les set top boxes, les téléphones portables, les modems et les équipements réseaux des entreprises. Document réalisé par la Société Corp Events - Janvier 2015 131 Retours d’expériences Big Data en entreprise CONTEXTE Dans le cadre de ses activités, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant à ses clients de suivre et analyser les travaux et services rendus par la société. A cause d’un ensemble de solutions BI développées en internes et spécifiques à une usine, un pays ou un service, Anovo souffrait des problèmes suivants : 1/ Développements et déploiements sans cadre IT structuré 2/ Absence de mutualisation des besoins et donc multiplications des développements spécifiques. En conséquence, la plateforme décisionnelle d’Anovo souffrait de rigidité, d’obsolescences et de surcoûts notamment pour faire évoluer et maintenir les rapports existants. Pour y remédier, la DSI d’Anovo a sollicité Ysance pour concevoir une nouvelle architecture décisionnelle de type Big Data et l’implémenter en s’appuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux solutions ont été choisis pour les bénéfices suivants : Rapidité de mise en œuvre, simplicité de déploiement sur un ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, réduction des coûts de run et enfin évolutivité et pérennité. ARCHITECTURE Après un POC réalisé en début 2014, l’architecture technique qui a été retenue est la suivante : •Extraction quotidienne des données utiles directement depuis les systèmes opérationnelles des sites Anovo présents dans différents pays •Stockage et archivage de ces données dans Amazon S3 •Contrôles qualités au fil des remontées des données sources (alerting) •Chargement en delta des données collectées dans un DWH Redshift •Mise à disposition des données dans Tableau Software •Création, pour les utilisateurs métiers, des rapports et tableaux de bord nécessaires aux pilotages de leurs activités •Diffusion des KPI de suivi de la production, à leurs clients, via Tableau Online Document réalisé par la Société Corp Events - Janvier 2015 132 Retours d’expériences Big Data en entreprise AUTOMATISATION DES CHARGEMENTS : Le nombre de tables sources devant être chargées dans le DWH Redshift étant très importants, une procédure automatisée écrite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift •Angleterre: 1300 tables en production •France : 750 tables en production •Prochains pays : Chili, Pérou, Espagne •40 à 60 JH de développement par pays Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose d’un environnement décisionnel unique, évolutif, peu couteux et très scalable, consolidant les données de toutes ses entités à travers le monde et garantissant agilité et rapidité pour intégrer de nouvelles sources et permettre aux métiers de produire simplement de nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients. Document réalisé par la Société Corp Events - Janvier 2015 133