30/03/2015 : Big Data - Francis Bancilhon, Christian Frisch.

CCBigdata

Exposé
Il faut distinguer :

• L’open data, ensemble des données publiques utilisées par l’État et mises à disposition du public selon les dispositions de la loi du 17 juillet 1978 portant diverses mesures d’amélioration des relations entre l’administration et le public. Cela peut concerner les données électorales, l’utilisation de la réserve parlementaire, un certain nombre de dépenses publiques, la criminalité, les accidents etc …
• Le crowd sourcing ou externalisation ouverte ou production participative, est l’utilisation par appel ciblé ou ouvert à la créativité et à l’intelligence, du savoir-faire ou des connaissances d’un grand nombre de personnes pour réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur. Exemple : en France 100 000 personnes ont construit la carte des impacts du tremblement de terre d’Haïti. On n’a plus besoin de l’IGN qui coûte 200 M€ à la collectivité. … ou encore BANO, banque d’adresses nationales ouverte très importante pour les livreurs… http://fr.wikipedia.org/wiki/Crowdsourcing
• Le big data (http://fr.wikipedia.org/wiki/Big_data) qui est l’utilisation de données de masse de faible densité en information générées par tout un chacun mais dont le grand volume permet d’inférer des lois donnant au big data des capacités prédictives.
Exemples de données : ticket de caisse, localisation GPS, navigation internet, réseaux sociaux etc… Ces informations sont captées de façon massive au moyen de cookies qui peuvent s’accrocher à une image sur le site, une identification, à l’adresse IP de l’ordinateur, aux localisations Orange …
On a maintenant des algorithmes de traitement de ces gros volumes, faciles à utiliser à partir de gros serveurs loués pour pas cher. Cela donne des résultats étonnants : Une famille US a ainsi reçu des infos sur des couches de bébés et a ainsi découvert que ces .filles de 16 ans étaient enceintes. Epidémiologie : suivi de la progression d’une grippe ou de l’emploi. Adéquation de la pub reçue à votre profil …


Comment réagir ? Diversifier les sources possibles d’information.
Enjeux sociétaux du Big data ? C’est la différence entre une connaissance globale à partir de laquelle on peut appréhender les vrais problèmes et des connaissances individuelles (canicule de 2003 : On peut ainsi appréhender une mortalité en temps réel causée par une maladie et organiser une parade ; ou encore maîtriser une chaîne alimentaire ; améliorer spectaculairement des traductions automatiques – avec un outil comme Google translate – en analysant la structure ou la fréquence d’occurrence des phrases plutôt que la compréhension du mot à mot ; sélectionner les bons CV en voyant s’ils ressemblent à la structure de CV performants ; Attribuer des prêts par comparaisons avec des profils de bons payeurs.
Lanceurs d’alerte : Distinguer entre Snowden et Manning. Le premier est un véritable lanceur d’alerte sur les méthodes de la NSA pour espionner pays, entreprises etc… alors que Manning récupère 1 million de télégrammes diplomatiques et les publie ce qui n’est guère moral.
Exploitation commerciale : Remise en cause de la chaîne classique : un acheteur – une vendeur. Maintenant un intermédiaire apparaît qui a capté les données clients et qui s’introduit entre eux deux. Il peut arriver à prendre une position déterminante dans le processus en dépossédant le vendeur de sa base de données. Ainsi Le Monde diffuse son journal sur tablettes Apple qui en ressort des données que n’a pas le journal. Il pourra lui dire : trois articles de mode en plus ici. Cela transforme peu à peu le journal en sous-traitant (phénomène semblable avec l’emprise de booking.com sur les réservations hôtelières)
Guerre économique. Les entreprises utilisent massivement les réseaux sociaux et les États utilisent leurs technologies de traitement du big data pour aider leurs entreprises. La donnée est vitale mais il faut également avoir le savoir faire et les moyens du traitements de volumes massifs de données ; Les plateformes aux USA des grands acteurs d’internet sont très importantes pour les USA qui s’appuient sur les GAFA (Google, Apple, Facebook et Amazon qui valent autant que les 40 premières valeurs françaises cotées et deviennent aussi puissantes que certains États) . Les chinois et les russes ne l’acceptent pas pour contrôler leur destin : Dans une troisième guerre mondiale, le gagnant sera celui sera celui qui connaîtra le mieux ce qui se passe chez l’adversaire. Ces techniques ont une importance croissante sur les politiques suivies.
La CNIL ? La loi de 1978 visait d’abord à se protéger de l’État qui pouvait être méchant. Le principe était que moins il y a de fichiers mieux c’est. Le principe de finalité a été posé : le droit de collecter des données est subordonné à l’usage qu’on déclare vouloir en faire.
Ce principe est, avec les nouvelles techniques de traitement des données de masse, totalement contraire à l’utilisation intelligente des données : c’est la donnée qui crée l’usage et un compromis est à trouver entre la protection de la vie privée et la capacité de transparence fournie par ces techniques. Le pendule est allé trop loin vers la protection de la vie privée. La CNIL interdit de croiser les données des réseaux sociaux (ou autres tel qu’Orange par exemple ou EDF). Mais Google, twitter l’a déjà fait. La CNIL, c’est la ligne Maginot. Il faut la faire évoluer hors du principe de finalité. Grâce à la CNIL toutes nos données personnelles ne sont pas stockées en France mais aux USA ! ! Tout ceci est inéluctable. Beaucoup de services sont apparus de ce fait : B & B, covoiturage, actions de prévention de la santé …). Il faut trouver de nouvelles régulations davantage centrées sur les applications finales que sur le principe de finalité. Encourageons des champions dans l’UE au lieu de les décourager et créons des liens entre les États de l’UE. Galileo est à cet égard très important.
Débat
Q1. Y a-t-il une digue possible ? Comment concilier le besoin sécuritaire et le risque totalitaire ? Le crash de l’avion de German Wings aurait-il pu être évité ?
R. Non c’est précisément ce que l’on ne trouvera pas avec ces méthodes.
Q2. Y a-t-il des moyens pour que la politique reprenne ses droits ?
R. Oui, conférer le droit à l’oubli. La Commission a fait plier Google pour déréférencer certains articles, du moins en Europe. C’est un vrai sujet. Il faut mettre les « data » à la disposition du plus grand nombre possible d’opérateurs (« de bidouilleurs »). La propriété de la donnée n’a pas de sens.
Q3. Les services de renseignement américains utilisent aussi le traitement des big data des grands opérateurs pour espionner économiquement des stratégies d’entreprises au profit d’entreprises US. Cela fausse non seulement la concurrence mais aussi institue une relation ambiguë entre l’État, les entreprises et les partenaires sociaux (syndicats).
R. Tous les grands pays industrialisés le font …avec plus ou moins d’efficacité. Le risque existe. Il n’y a plus que l’UE pour croire à la concurrence parfaite et à la libre entreprise. Avant, les services de renseignement fouillaient les poubelles et les attachés cases des chambres d’hôtel et microfilmait à tour de bras. C’est maintenant dépassé par ces techniques de traitement : on téléfouille des disques durs.
Q4. Quels sont les clients les plus importants pour les entreprises de traitement du big data ?
R. Cela dépend des buts poursuivis par chaque opérateur. Linkedin, par exemple, a dégagé un certain nombre d’infos que n’ont ni l’éducation Nationale, ni les grands écoles. Elle détient ainsi des informations stratégiques sur notre pays. Personne ne pourrait refaire un Linkedin aujourd’hui.
Google est une machine à faire payer de la publicité.
Q5. À quoi, comme citoyens, faut-il faire attention dans le développement de dette activité ?
R. 1. Rendre à l’individu un contrôle sur ses propres données. Voir avec l’opérateur ce qu’il en fera en contrepartie de tel ou tel service. Inverser la mécanique.
2. Changer la fiscalité sur les prélèvements de données. Problème de la taxe Google qui « profite des nombreuses traces numériques » que nous laissons sur sa plate forme. En Espagne les journaux avaient demandé au gouvernement de taxer Google news. Cela a été fait et n’a pas entraîné les conséquences négatives prédites par les opposants.
On ne sait pas a priori les bonnes pistes (voie légale, fiscale, règlementaire ?) Ce qui est sûr c’est qu’il faut bâtir de grands systèmes européens à l’image de Galileo)
Q6. Comment tirer parti de tout cela dans la négociation du projet de traité commercial transatlantique TAFTA ?
R. On a compris en France l’importance du numérique et on a une bonne secrétaire d’État au numérique (Axelle Lemaire).
Q7. Que peut-on dire sur le stockage et la durée de vie des données ?
R. Le durée de vie est a priori éternelle. On a accumulé plus de données en trois ans que toute l’histoire de l’humanité.
Q8. Les systèmes coopératifs comme wikipedia ne peuvent-ils constituer un contre pouvoir intéressant ?
R. L’association « Regard Citoyen » (http://www.regardscitoyens.org/qui-sommes-nous/) en se proposant d’établir un accès simplifié au fonctionnement de nos institutions démocratiques et à en accroître la transparence, en est un bon exemple. C’est un outil extraordinaire pour le citoyen.
Q9. Que faire concrètement pour permettre d’être propriétaire de ses données ? La disproportion entre nous et le GAFAs permet-elle encore de lutter ?
R. C’est l’objet du projet « Mes infos » (http://mesinfos.fing.org/) en France ou « My data » en UK.
La question est l’enjeu économique : s’il y a création de valeur, cela marchera.. . et puis éteignez votre téléphone, Google sait déjà où vous êtes !
Mais la partie n’est pas terminée et les GAFAs ne sont pas éternels. Des nouveaux vont arriver tandis que d’autres vont disparaître. Microsoft est devenu insignifiant. My space a disparu !
Dans l ‘UE, on regarde en effet peut-être trop le problème d’un point de vue juridico-éthique. Il y a une guerre économique. L’UE doit faire émerger ses champions et lâcher un peu le pied sur des régulations un peu utopiques.
Q10. Les chinois et les russes arrivent-ils à partager leurs données ?
R. Oui. Ils ont mis en place des monopoles adéquats.
Q11. Comment réformer la CNIL ? Est-elle encore nécessaire ?
R. Elle tétanise encore beaucoup de nos clients en France (Orange…). Mais elle est à côté de la plaque. On ne pourra pas tout défendre.
Q12. – Il y a un projet de création d’une CNIL européenne. La CNIL est bien vue au niveau européen.
- Mais on n’arrive plus à suivre tellement cela va vite. On ne met en avant que les aspects positifs. Pourquoi Orange est-il tétanisé, ils ont déjà vendu deux bases de données à Carrefour !
R. On ne peut pas arrêter le train ! Dans toutes les grandes inventions, il y a des déclassés.
Q13. Je suis assistant social. Que représente votre univers pour les plus démunis ? Les collectivités locales se dotent de logiciels de gestion toujours plus perfectionnés et on demande ainsi de plus en plus d’infos au citoyen pour avoir accès aux services. Cela tue l’égalité des droits. La CNIL n’est pas une protection, c’est une régulation.
Il y a aussi l’enquête trimestrielle sur l’emploi du ministère du travail (DARES) qui cherche à savoir (Réponse obligatoire !) nominativement la position de chacun dans l’emploi. Outre que nombre d’organismes (URSSAF, Pôle Emploi par exemple) ont déjà posé la même question, que peut faire la DARES de ce détail qui requière un temps important ? … et puis on glisse subrepticement vers la constitution de fichiers-dossiers individuels.
R. Je ne suis pas l’État.
Q14. La plupart du temps on n’a pas besoin d’avoir toutes ces données pour savoir ce qu’il dessiner une politique. On sait tout sur tout le monde mais on ne sait pas quoi en faire !
R. Le Big data ne permet pas de comprendre mais permet de faire. Il y a besoin d’un retour du qualitatif ! Pour se protéger, commencer par ne pas utiliser gmail !
Q15. J’en étais resté à l’utilisation du Big Data par les États. Vous montrez qu’il y a une classe d’entrepreneurs qui peuvent les exploiter avec profit. Vous défendez une position très libérale dans un espace où libéralisme est synonyme de progressisme. Mais les garde-fous que vous esquissez sont insuffisants. Quel est le système démocratique qui colle avec ce changement de paradigme.

Gérard Piketty

 

 

 

Laisser un commentaire