Du libre-service à l’architecture dynamique, pour une exploitation productive des données

Les données jouent un rôle essentiel dans toute organisation moderne. À l’heure où les entreprises explorent les possibilités de l’IA générative, il est particulièrement important d’y intégrer des données de qualité. En effet, si vous n’alimentez pas les modèles avec des données précises, ne comptez pas sur des résultats fiables. Quelle est la meilleure stratégie pour préparer les données ? Et où vaut-il mieux les stocker ? Présentation de quelques tendances liées à l’efficacité des architectures de données.

L’analyse des données et l’IA figurent en tête des priorités pour la plupart des entreprises. Mais elles n’apportent pas toujours les résultats et gains de productivité escomptés. Dans un article précédent, vous avez pu découvrir les principaux écueils et la façon de les contourner. La base de tout projet analytique fructueux réside dans les données utilisées pour faire fonctionner un modèle. À défaut de données fiables et aisément accessibles, vous allez droit au mur.

La prise de conscience que l’IA n’est pas la panacée ne cesse de gagner du terrain. Si vos données ne sont exactes qu’à 80 %, le modèle obtenu risque également d’être erroné dans un cas sur cinq. Pire encore, si vous entraînez des modèles à partir de données historiques comportant un biais humain, ce biais altérera aussi vos modèles. À titre d’exemple, si une banque a attribué par le passé de mauvaises cotes de solvabilité à certains groupes démographiques ou à des minorités, vos modèles présenteront le même comportement. Dans un prochain article, nous approfondirons cette question et expliquerons pourquoi la confiance est si importante pour l’utilisation des données.

Alors, comment pouvez-vous améliorer la qualité des données ?

Nettoyer les données vs tout rassembler tel quel

Dans la pratique, deux extrêmes sont possibles. D’un côté, nous pourrions essayer de nettoyer toutes les données brutes avant de les analyser. Pour ce faire, il faut extraire les données des silos connus puis les intégrer dans un entrepôt de données centralisé. Vu la quantité, la qualité et la rapidité requises en matière de données, cette approche prend du temps et est quasi impossible à mettre en œuvre. À l’opposé de l’entrepôt de données se trouve l’option du lac de données, où l’on rassemble toutes les données – y compris les données brutes et non structurées – sans les traiter tant qu’on n’en a pas effectivement besoin. Bien qu’elle ne soit certainement pas irréalisable vu la capacité actuelle des disques et du cloud, cette méthode ne fait que repousser le problème. Ainsi, comme c’est souvent le cas, la réponse se trouve quelque part au milieu…

Les silos sont tellement persistants qu’il nous faut bien accepter qu’ils seront toujours là. Nous pouvons toutefois les contrôler grâce à une architecture de données appropriée. Voilà pourquoi les entreprises sont de plus en plus en quête d’une méthode pragmatique pour proposer des données diversifiées. Si certaines données doivent être prêtes à la consommation immédiate, d’autres peuvent encore tranquillement attendre. On obtient donc une combinaison dynamique de stratégie fondée sur un entrepôt de données et d’autres types d’architectures.

Les données en tant que produit et libre-service

L’architecture destinée à combiner le meilleur des deux mondes est le Data Mesh ou « maillage de données », dont certains piliers sont voués à perdurer. Ainsi, le Data Mesh part du principe que les données sont un produit. Au lieu de tout vouloir centraliser, on laisse alors la responsabilité entre les mains du gestionnaire des données. Tout comme un produit physique, les données ont aussi un cycle de vie et une certaine qualité qui détermine leur valeur. Et comme pour ce produit, vous pouvez proposer des données en les intégrant dans un catalogue.

Cela nous amène à une autre tendance qui ne fera qu’accroître la productivité du traitement de données : le libre-service. Contrairement au tableau Excel classique, qui est aussi une forme de libre-service, nous avons besoin d’outils modernes offrant une transparence maximale. D’où viennent les données ? Dans quelle mesure sont-elles complètes et exactes ? Autant d’indicateurs qui permettent de mieux comprendre un écheveau souvent complexe et d’optimiser la traçabilité des données. Le catalogue de SAS en tient compte et automatise le processus en se complétant lui-même au fil de l’utilisation des données. Combinée au feed-back des utilisateurs, une telle approche peut considérablement enrichir votre catalogue de données, de sorte que chacun puisse aisément déployer les données pertinentes.

Avec ou sans cloud ?

Les explications qui précèdent montrent clairement que le lieu de stockage n’a plus guère d’importance. Comme nous déplaçons sans cesse les données, nous ne sommes plus toujours obligés d’installer les plateformes au plus près du noyau des données. Cela permet aux entreprises d’explorer des alternatives telles que l’approche multicloud. Aujourd’hui, par exemple, il existe un large éventail de bases de données liées au cloud qui offrent un stockage économique sans exiger une architecture particulière. Ces plateformes sont très ouvertes et misent essentiellement sur les performances, l’évolutivité et la sécurité.

Un bon exemple de ces plateformes de données à croissance rapide est le partenaire de SAS Snowflake. Comme l’utilisateur ne doit rien construire par lui-même, ce type de solution abaisse le seuil d’intégration des données dans le cloud. Snowflake va même plus loin et permet aux entreprises de proposer des données à des utilisateurs externes via une plateforme marketplace payante ou non. Cela pourrait s’avérer intéressant pour les développeurs d’applications. Pensez, par exemple, à une application intelligente permettant de mieux coordonner la production, le transport et la consommation d’énergie. Pour cela, nous aurions besoin d’une grande quantité de données dispersées tous azimuts. Quelle est la capacité en termes de panneaux solaires ? Quel genre de météo peut-on escompter ? Quels sont les prix actuels de l’électricité ? Combien de voitures sont en train de recharger pour l’instant ? Les plateformes liées au cloud permettent aux organisations d’utiliser et d’enrichir leurs données mutuelles.

Pour ceux que le cloud public n’inspire pas, le monde de l’open source offre des solutions de stockage intéressantes. Parquet et ORC sont deux formats de stockage sous-tendus par une large communauté. Faciles à mettre en place et très performants pour l’utilisation de données, ces outils sont aussi aisément accessibles à partir de la plateforme SAS.

Stables et dynamiques

Ces divers exemples s’inscrivent dans la philosophie selon laquelle l’utilisateur doit pouvoir accéder à un maximum de données, quel que soit leur lieu de stockage exact. En effet : personne n’a toutes ses données à un seul endroit. Les solutions doivent être stables, simples et dynamiques, surtout maintenant que les utilisateurs commerciaux s’intéressent de plus en plus aux données et à l’analytique. C’est à cette condition seulement que la productivité de vos projets liés aux données atteindra des sommets.


Ceci est une contribution soumise par SAS. Dans le troisième et dernier article de cette série sur l’utilisation productive de l’analytique, nous nous concentrerons sur l’importance de la confiance. Sans confiance envers les données, les algorithmes et les résultats des modèles, on n’obtient que des discussions qui minent à leur tour la productivité des projets.

bulletin

Abonnez-vous gratuitement à ITdaily !

  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.