Posséder des données, c’est bien, savoir les analyser, c’est mieux

le

Qui dit data ne dit pas forcément vérité absolue : à l’heure où les données prennent de plus en plus d’importance dans tous les secteurs de l’économie, leur analyse s’avère de plus en plus indispensable. Microsoft Ideas fait le point.

En 2013, Elon Musk, PDG de Tesla, et le reporter du New York Times John Broder, échangent vivement au sujet de la voiture électrique Model S du constructeur américain. Sur la base de données similaires recueillies lors d’un essai du véhicule, les deux protagonistes ont fourni une interprétation sensiblement différente, conduisant à une dispute qui, depuis, fait figure de référence dans le domaine.

Alors que Broder testait le Model S, les datas télémétriques relevées par Tesla indiquaient que le journaliste avait effectué l’équivalent d’un demi kilomètre en conduisant en cercles sur un parking situé près d’une borne de chargement : si Musk a déclaré que cela démontrait la grande autonomie du véhicule, Broder, lui, arguait qu’il lui avait tout simplement été très difficile de trouver la borne en question…

Une anecdote qui met en lumière les débats qu’il peut exister autour de la question de l’analyse des données et, surtout, de leur interprétation. De façon plus générale, la Commission fédérale du commerce américain (FTC) a récemment publié un rapport sur l’utilisation du big data par les entreprises, les avertissant de la possible interprétation erronée qu’une masse de données peut générer :
« Les entreprises devraient se souvenir que si le big data est très efficace pour détecter les corrélations, il n’explique pas si celles-ci font sens. »

Les données permettent de réduire l’incertitude

Le document publié par la FTC livre plusieurs exemples concrets de biais possibles. Ainsi, pour déterminer la solvabilité d’un individu, certaines sociétés de prêts analysent les comportements d’achat d’utilisateurs via leurs smartphones.

Une méthode qui n’est pas exempte d’imperfections, puisqu’il s’agit d’une analyse à un instant T de données bancaires : une photographie qui ne prend en compte ni le contexte des achats, ni les évolutions du compte en banque de l’individu ou de ses comportements d’achats sur un temps long. Résultat : les applications déployées par ce type de sociétés peuvent juger qu’une personne n’est pas solvable, alors qu’elle l’est. Et vice-versa.

Autre illustration : les sociétés qui font la publicité de services via les réseaux sociaux vont, de fait, manquer les publics les moins connectées. Une information qu’il reste indispensable de prendre en compte lors de l’analyse des jeux de données.

Enfin, note le rapport, l’enthousiasme occidental autour du big data se heurte à d’autres obstacles, comme une sur-utilisation de la langue anglaise, ou une sous-représentation de certains aspects géographiques, culturels ou idiomatiques, pouvant mener à une uniformisation des points de vue. Et donc des analyses et des conclusions.
De nombreux exemples récents font d’ailleurs dire à Forbes que « peut-être que la plus grande leçon que la communauté grandissante des praticiens de la donnée peut tirer est que celle-ci nous permet de réduire l’incertitude, et certainement pas de nous rapprocher d’une vérité universelle. » Une citation que toute entreprise devrait garder à l’esprit.