Big Data : chiffres 2014

Enjeux juridiques du Big Data
h
Les enjeux juridiques du big data sont liés à la nécessaire conciliation de l’objectif de création de valeur et d’innovation à partir du « déluge de données » avec le respect des droits et libertés protégés. Du point de vue des internautes, il s’agit de veiller à la protection des données les concernant alors même que celles-ci constituent le « carburant » de la nouvelle économie. A l’heure de la multitude et des recoupements de données massifs y compris à une dimension internationale, des questions telles que la transparence sur les pratiques de collecte et d’utilisation des données personnelles, leur sécurité et anonymisation, ou encore leur transfert à des tiers prennent une dimension nouvelle, même si leur objet lui n’est pas forcément nouveau. Un futur règlement européen dira dans quelle mesure des règles existantes devront être adaptées. Du point de vue du droit d’auteur, un des challenges posés est de veiller au respect des droits des créateurs et propriétaires de bases de données sur les informations explorées au titre du « data mining » tout en ne pénalisant pas les activités de recherche et d’accès à la connaissance. Pour faciliter certaines opérations de data mining sur des contenus protégés, la commission européenne a mené un dialogue avec les parties prenantes en vue de faciliter l’octroi de licences aux chercheurs (initiatives licences for Europe). Des réflexions existent par ailleurs sur la possibilité de création d’une nouvelle exception au droit d’auteur.
Sarah Jacquier, Directrice Juridique de l’Hadopi

Big Data : Le terme de Big Data est utilisé lorsque la quantité de données qu’une organisation doit gérer atteint une taille critique qui nécessite de nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation.

Data Mining : Le data mining regroupe l’ensemble des technologies susceptibles d’extraire, d’analyser et de gérer les informations pertinentes à partir d’une grande masse d’informations, en fonction de l’usage souhaité (gestion de la relation client, marketing, maintenance préventive, détection des fraudes, optimisation de sites web…).

Machine learning : le machine learning consiste à tirer des prévisions de fonctionnement ou de comportement à partir de masses de données gigantesques, comme les recommandations proposées à ses clients par Amazon.

Analyse prédictive : L’analyse prédictive, considérée comme un type d’exploration de données, est un domaine de l’analyse statistique qui extrait l’information à partir des données pour prédire les tendances futures et les motifs de comportement. Elle englobe des techniques issues des statistiques, du datamining, du machine learning et de la théorie des jeux.

Données structurées et non structurées : Les données structurées sont des données dont l’ensemble des valeurs possibles est déterminé et connu à l’avance, par exemple le nom d’auteur d’un mail et sa date d’envoi. A l’inverse, les données non structurées se caractérisent pas leur aspect complexe, tant en termes de protocole d’acquisition que d’extraction, par exemple le contenu d’un mail. Aujourd’hui, la part de données non structurées dans les systèmes d’information oscille entre 80 et 85 %.


Citations

« En termes de données, le nombre d’Avogadro sera bientôt atteint. »

Pierre-Louis LIONS, Lauréat de la médaille Fields en 1994

« Google connaît probablement mieux la France que l’Insee, ou tout au moins dispose de données qui lui permettent »

Stéphane Grumbach, Directeur INRIA

« Les perspectives du Big Data sont immenses. Ce traitement de données à grande échelle devrait générer des chiffres d’affaires de plusieurs dizaines de milliards par an au cours des prochaines années, même si les entreprises, en particulier en France, ne savent pas encore comment les exploiter. »

Professeur Dominique Roux, Directeur de la chaire Économie numérique


Volume

Taille des données

Il a fallu des dinosaures à 2003  pour produire 5 exhabits de données.

En 2011, il fallait 2 jours seulement piu générer le même volume de données.

En 2013, il fallait moins de 10 minutes

Source : Fortune

Vélocité

Vitesse de génération des données

Chaque minute dans le monde :

100 000 tweets envoyés

680 000 contenus partagés sur Facebook

3 600 photos partagées

204 millions de mail envoyés

Source : Total Customer

Véracité

Qualité des données

1 homme d’affaires sur 3 n’a pas confiance dans les données qu’il utilise pour prendre des décisions

Aujourd’hui, 1% seulement des données sont analysées.

La mauvaise qualité des données a un coût de 3,1 milliard de dollars par an sur l’économie américaine

Source : IBM

Valeur

Quatre intérêts principaux pour l’entreprise

1) Améliorer la qualité de la prise de décision : 59%

2) Augmenter la rapidité des décisions : 53%

3) Améliorer la planification : 47%

4) Développer de nouvelles sources de revenus : 47%

Source : IDG Entreprise