Sofuku

L’univers des statistiques, ce grand n’importe quoi…

 

Les vacances d’Août 2018 auraient pu être paisibles si l’on avait pas eu cet évènement plutôt pathétique sur Twitter : une bonne grosse divulgation en masse des données personnelles, faite sans complexe par l’organisme nommé Disinfo.eu .

 

Source du problème : la diffusion sur l’espace public de données. Mais pas n’importe lesquelles. Et surtout : bien n’importe comment.

 

Quelles données ?

Des noms, des pseudos Twitter (pas toujours fantaisistes), recueillis à des fins de prétendues études. Ceci comprend également des informations de localisation, d’autres données plus futiles et surtout un étrange classement en catégories politiques qui en aura fait bondir plus d’un.

 

Quels problèmes ?

Vu la quantité, on va commencer avec le plus sérieux. La législation est très claire quand à l’utilisation de données personnelles, quelles que soient les objectifs des études les utilisant : ces données sont perso’ et n’ont pas par principe à se retrouver dans la nature. Les professionnels ont pour usage de se couvrir en anonymisant les sources utilisées dans les documents à usage public. Là Disinfo fait preuve d’un grand amateurisme et d’une naïveté qui laisse sans voix puisque tous les pseudonymes sont en clair dans les fichiers rendus publics. Leur argument est qu’un pseudo n’est pas un nom et qu’il suffit à rendre anonyme. Mon argument, que je peux leur démontrer sans problème, c’est qu’il suffit de 3 clics sur un de ces pseudo pour remonter souvent à un nom, voire une adresse postale et des tas d’informations annexes. Donc : non, un pseudo ne rend pas anonyme (et encore moins sur internet). C’est une appellation. Pas une anonymisation déclarée.

L’autre gros problème concerne ces attributions de penchant politique à chacun des 50.000+ candidats non volontaires de cette prétendue étude. Personnellement je pourrais m’en gausser (je vous le montre à la fin de l’article) mais je comprends que ça hérisse au plus haut point d’autres personnes, peu importe leur tendance politique puisque le fait ici revient à mettre en cause l’utilité d’un isoloir. Là, vous avez un listing qui prétend clairement savoir pour qui vous votez et le fait de manière totalement arbitraire.

Je rappelle que Twitter n’est pas un outils d’information mais un réseau communautaire. On y trouve donc des échanges et discussions, et très rarement de l’authentique information excepté pour les professionnels de la presse qui y partagent généreusement leurs articles. Personnellement d’ailleurs, quand j’ai besoin d’informations je ne vais pas sur Twitter mais dans mes RSS et autres outils de meta-recherche. Twitter me donne parfois vaguement une news, que mon libre arbitre me permet d’aller consulter ou pas à sa source pour en savoir plus. Considérer Twitter comme une source d’informations fiables est une ânerie, c’est un peu comme envoyer un institut de sondage écumer tous les bars de l’hexagone à une heure post-apéro avancée et tenter d’en tirer des théories et conclusions : ça pourra vaguement amuser et donner des idées de titres pour les click-whores ; ça n’en sera pas pour autant une étude crédible.

 

Pourquoi tant de « N » ?

Alors là mon cher Nicolas, désolé que tu sois en première ligne, mais la connerie t’incombe totalement : il faut être définitivement demeuré pour ne pas faire les 3 clics qui permettraient de remplacer les pseudos par des numéros dans ta colonne de fichier Excel ! Même ma mère sait le faire. Tu es celui qui a rendu public ces datas, tu portes donc la responsabilité de l’action, même s’il ne fait nul doute que les autres personnes t’accompagnant auront leur responsabilité dans les procès à venir. C’est une faute professionnelle grave et contrairement à ce que j’ai pu lire pas l’intention d’un Nico-le (au choix) /facho /écolo /russo / porte-manteau. Sur ça je ne te juge pas et n’ai aucune opinion. Je vois juste une personne qui a fait une très grosse connerie.

Je vais rajouter aussi que tes méthode de calculs et évaluations prêtent à sourire quand on les soumet à des professionnels avérés dans le domaine des études statistiques. Pour ma part, un simple collègue de Twitter non spécialiste mais pas trop débile en math’ à démonté ton étude en 5 twits très calmes et parfaitement compréhensibles. Je t’épargne donc les avis de spécialistes qui, à cet instant, sont encore en train de rigoler.

Et puis il faut savoir quand même que la science des statistiques est une des rares où l’interprétation de mêmes résultats peut être sévèrement différente selon qui les présente. C’est particulièrement valable (et utilisé) en politique, d’où cette attention particulière, indignation souvent, que l’étude incriminée soulève. Tu pourras le vérifier en visionnant une des nombreuses vidéos Youtube qui expliquent les problèmes liés entre interprétations et chiffres ; ce sont des vulgarisations très claires à comprendre, accessibles même à un abruti.

 

Conclusion

Donc non il n’y aura pas de tolérance pour cette faute impardonnable qui tombe sous le coup de la loi, des règlements RGPD récemment mis en place et met bien en avant le manque de sérieux de Disinfo.eu et associés. Les gens ne sont pas vos petits pions que vous pouvez manipuler et catégoriser à volonté selon des protocoles trop souvent arbitraires ou obscures. Leurs données, même si Laurent Chemla m’a bien remis en place, leur appartiennent un minimum, sinon on aurait pas un droit d’accès et rectification comme l’autorise la CNIL. Sinon on ne serait pas en démocratie non plus.

Plus personnellement, j’aimerai connaitre tes objectifs. Et surtout : qui sont les commanditaires. Parce que tu ne vas pas me faire croire qu’on file des milliers d’euros à une ONG qui ne solutionne rien des gros problèmes de la planète, ni faim ni pauvreté (et surtout pas sécurité et fake-infos), et remet des études dignes d’une soirée cannabis. Le barbouze protégé de l’Elysée je m’en tape sévère. Par contre qu’un président déclaré en vienne à mettre ses mains là dedans… désolé : comme tout le monde j’ai eu des cours d’histoire-géo et on sait comment ça se passe. Et ça ne passera pas.

Quand à la démonstration finale, apprends mon petit Nicolas qu’un demi siècle plus tard, je ne suis toujours pas inscrit sur la moindre liste électorale. Je respecte les choix des autres, j’ai des opinions, mais je ne suis pas de ces gens qui votent « contre » ; j’attends toujours quelqu’un qui me donne envie de voter « pour » et je pense que l’attente va être encore longue vu la quantité de malhonnêtes qui s’entretiennent mutuellement pour conserver leurs pouvoirs de décision dans ces milieux. CQFD.

 

 

PS : par pur dégout je ne mets aucune illustration dans cet article bien que ce soit mon métier.

 

Comment