top of page

Big Data : Pourquoi les données n'ont pas besoin d'être si volumineuses

Tout le monde veut maîtriser le Big Data. Mais les petites données et les données qualitatives sont tout aussi importantes.


Le Big Data


Les mégadonnées ou Big Data est l'un des mots les plus en vogue sur le marché de la Data. Mais à quel point est-il Big ? Une façon de penser est en terme de volume ou de quantité de données dont vous disposez. En fonction du volume, nous pouvons définir Big Data comme des données bien supérieures à celles que vous pouvez stocker sur un ordinateur portable ou un disque dur. Ainsi, il doit être distribué, transmis, et analysé sur des serveurs dédiés ou un service cloud. Nous pouvons étendre cette définition du big data pour couvrir les trois V : volume, vitesse et variété.

  • Volume : La quantité de données

  • Vitesse : à quelle vitesse vous pouvez déplacer et analyser les données

  • Variété : Les différents types de données dont vous disposez


Le Big Data et la fin de la théorie ?


En 2008, Chris Anderson avait écrit un article volontairement provocateur dans Wired intitulé : "La prémisse était que nous avions suffisamment de données pour faire des prédictions satisfaisantes sur le monde que nous n'avions pas besoin de théorie pour comprendre le monde".

Une partie de l'impulsion de ces arguments était ce que nous voyons arriver avec Google : ils étaient capables d'opérer sur d'énormes quantités de données, puis de fournir des modèles prédictifs sous la forme de produits de données pour l'achat d'annonces programmatiques. De plus, ils ont pu le faire avec des analyses prédictives suffisamment avancées sans avoir besoin de comprendre ou de théoriser sur le système à l'étude.

Il s'agissait d'utiliser le comportement humain capturé afin de créer de meilleurs produits et services. Google a permis à ceux qui voulaient acheter une annonce d'en acheter une facilement sur Google AdWords, et le modèle d'AdWords ne s'appuyait sur aucune théorie expliquant si quelqu'un cliquerait ou non. Google avait juste assez de données pour faire une prédiction « assez bonne ».

L'hypothèse provocatrice de Chris Anderson est que les mégadonnées contiennent tellement d'informations que nous n'avons plus besoin de modéliser le monde, et nous n'avons pas besoin de comprendre la théorie qui les sous-tend ou ce qui se passe réellement.

Le big data a-t-il réellement tenu ses promesses ? Une façon de penser à cela est de modéliser le Hype Cycle, "Cycle de la Hype" en français. Il s'agit essentiellement d'une courbe décrivant l'évolution de l'intérêt pour une nouvelle technologie


ree

Le Hype Cycle nous parle d'une innovation technologique et des attentes qui l'entourent en fonction du temps. Nous commençons par un déclencheur d'innovation, qui, dans le cas de Big Data, était la capacité de stocker, de transmettre et d'analyser de grandes quantités de données. Ensuite, les gens en parlent, ce qui conduit à des attentes gonflées. Après cela, nous ne voyons pas la valeur délivrée par rapport aux attentes, nous entrons donc dans le gouffre de la désillusion. Ce n'est qu'après cela que nous voyons la valeur réelle commencer à être délivrée sur plusieurs verticales différentes et nous entrons dans la pente de l'illumination pour atteindre le plateau de la productivité.


Où en est actuellement le Big Data dans le "Cycle de la Hype" ? Une façon de penser aux attentes est de voir ce que les gens ont recherché sur le moteur de recherche Google grâce à Google Trends. Vous trouverez ci-dessous les tendances de Google pour le « Big Data » depuis 2004.


ree

Source : Google trends


Si nous acceptons le Hype Cycle comme modèle valable pour réfléchir au Big Data, et si nous acceptons les tendances de Google comme valeurs fiables des attentes, nous pouvons voir que le pic des attentes gonflées était vers 2014 / 0215 et que nous avons entamé le gouffre de la désillusion.

Vous pouvez voir que Chris Anderson était en avance sur son temps, mais il avait tort de dire que le Big Data était la fin de la théorie en raison de l'importance des petites données et des données épaisses.


Les petites données sont également puissantes


Alors que de nombreuses innovations récentes en science des données se sont concentrées sur notre capacité à gérer efficacement des données de plus en plus volumineuses, il est important de reconnaître qu'une grande majorité des données analysées dans le monde réel tiennent dans la mémoire d'un ordinateur portable moderne. En tant que chef d'entreprise, vous devez examiner attentivement les besoins de votre organisation de données avant de décider quels outils et architectures adopter.

Citons Johannes Kepler, qui a découvert trois lois du mouvement planétaire, et Tycho Brahe, un astronome danois qui a collecté les données que Kepler a finalement analysées pour construire ses trois lois du mouvement, qui ont ensuite informé la théorie de la gravitation de Newton (rien que cela).

Nous avons une énorme quantité de connaissances scientifiques développées à partir des données collectées par Brahe, qui consistaient en environ 2 000 points de données. Il s'agit d'un jeu de données minuscule par rapport aux jeux de données dont nous parlons aujourd'hui, qui contiennent parfois des centaines de millions de points de données. Mais les données recueillies par Brahe étaient de grande qualité. Si vous avez de bonnes données correctement collectées, de solides modèles théoriques analytiques et fondés sur des principes, et une façon de faire de la modélisation statistique, vous pouvez obtenir une énorme quantité de vos données.


ree

Exemple de jeu de données pour cataloguer la position des planètes, établi par Tycho Brahe en 1577 et publié en 1610 Vol 2 page 33.


Comment un sondage de seulement 1 000 français peut-il représenter 66² millions de personnes avec une marge d'erreur de seulement 3 % ? Il a été démontré que lorsque vous augmentez la quantité de données, vous obtenez des rendements sérieusement décroissants sur la réduction de la marge d'erreur. Ce résultat n'est vrai que si vous disposez d'un échantillonnage représentatif de votre population, ce qui n'est certainement pas le cas dans tous les sondages. Mais les statisticiens disposent désormais de méthodes de correction sophistiquées pour les échantillons non représentatifs, qu'ils peuvent utiliser pour connaître les préférences de vote d'une population plus large.

Encore une fois, nous voyons un résultat significatif à partir d'une petite quantité de données, et cela nous renseigne sur la nature du comportement humain et des préférences idéologiques. Le même principe s'applique aux entreprises : il s'agit de comprendre et d'être capable de prédire le comportement humain futur, en particulier en ce qui concerne vos parties prenantes. Alors pourquoi parle-t-on autant de Big Data alors que ce n'est pas nécessaire ? Une des principales raisons est qu'il est plus facilement accessible et donc calculable de nos jours.


En fin de compte, on aperçoit que des petites données suffisent pour créer des produits intelligents, il ne s'agit pas de montagnes de données, mais de petites données de haute précision à traiter et grouper correctement.



Ne sous-estimez pas la puissance des données épaisses


Maintenant que nous avons discuté de la puissance des petites données, voyons un autre type de données appelées données épaisses, ou données qualitatives. Les données minces impliquent des nombres et des tableaux, tandis que les données épaisses, un terme de sociologie et d'anthropologie, sont plus qualitatives et descriptives. Un groupe de conseil appelé ReD Associates a fait un travail fantastique en utilisant des données épaisses pour aider les gens à créer des modèles analytiques et des modèles d'apprentissage automatique.

Un exemple est leur travail de détection de la fraude par carte de crédit . C'est un énorme défi et l'apprentissage automatique (Machine Learning) a été utilisé pour détecter la fraude par carte de crédit dans le passé, en utilisant des fonctionnalités telles que le montant de la transaction, l'heure de la transaction, l'emplacement, etc. ReD Associates a tenté de collecter des données denses pour résoudre ce problème en adoptant une approche sociologique.

Pour ce faire, ReD Associates a rencontré des fraudeurs par carte de crédit pour savoir ce qu'ils font réellement et à quoi ressemblent leurs processus. Ils ont trouvé une communauté de fraudeurs de cartes de crédit sur le dark web et les ont rencontrés dans la vraie vie pour en savoir plus sur leurs processus et leurs habitudes.

Ils ont découvert que le moment où les fraudeurs par carte de crédit ont le plus de chances de se faire prendre, c'est lorsqu'ils doivent faire quelque chose dans le monde réel, comme ramasser des livraisons. Ils sont suffisamment avertis en technologie pour être rarement détectables en ligne. Et les fraudeurs sont également prudents dans le domaine physique : ils n'envoient généralement pas de colis à leur propre adresse, à leur adresse professionnelle ou à l'adresse de leurs amis. Au lieu de cela, ils envoient des livraisons à des adresses de propriétés abandonnées ou autres adresses leur permettant de rester anonyme.

Fort de ces connaissances, ReD Associates a construit un modèle de détection de fraude par carte de crédit en utilisant l'emplacement auquel le colis était envoyé, et l'a rejoint avec des données accessibles au public autour des maisons abandonnées et des maisons sur le marché. Ils ont observé que ce modèle basé sur des données qualitatives a obtenu une augmentation significative de la précision par rapport aux modèles plus traditionnels pour les transactions frauduleuses. C'est un merveilleux exemple de l'importance des données denses et de la façon dont une approche sociologique peut apporter une valeur ajoutée. Cet exemple montre à quel point des données de bonne qualité sont plus importantes ou du moins complémentaires que le Big Data : la puissance des données « épaisses » et des mégadonnées ne représentent que la moitié des données dont les spécialistes du marketing ont besoin.


A vous de jouer !


Choisissez une source de données précieuse pour votre entreprise et réfléchissez à la quantité de ces données dont vous avez vraiment besoin pour éclairer la prise de décision. Cette méthode vous permettra des économies sur les budgets qui concerne l'investissement de la collecte, du stockage et de l'analyse. Ensuite, répondez à cette question : Quelles données épaisses pourriez-vous utiliser pour améliorer la qualité de cette source de données ?

Posts récents

Voir tout
CRM et DMP quelles différences ?

Les systèmes de gestion de la relation client (CRM) et les produits de plateforme de gestion des données (DMP) sont complémentaires.

 
 
 

Commentaires


bottom of page