Les données massives sont-elles la clef des modèles d’IA puissants ou leur talon d’Achille ?
Les biais introduits par des motifs préjudiciables cachés dans de grands ensembles de données, tels que des images de PDG majoritairement blancs dans un ensemble de classification d’images, posent problème. Et que dire des formats de données encombrants et bruyants, souvent indigestes pour les modèles d’IA ?
Une enquête de Deloitte rapporte que 40 % des compagnies adoptant l’IA considèrent les défis liés aux données, incluant leur préparation et leur nettoyage, comme des obstacles majeurs. Un sondage auprès de scientifiques des données révèle qu’environ 45 % de leur temps est consacré à la préparation des données. Mais, une startup pourrait-elle changer la donne ?
Ari Morcos, forte d’une expérience de près d’une décennie dans l’industrie de l’IA, lance une startup pour simplifier la préparation des données pour l’entraînement des modèles d’IA.
DatologyAI, la société de Morcos, développe des outils pour curer automatiquement les jeux de données utilisés pour entraîner des modèles comme ChatGPT d’OpenAI et Gemini de Google, en déterminant les données les plus pertinentes. Mais quels enjeux cela soulève-t-il pour la qualité et l’éthique des modèles générés ?
La promesse est alléchante : une curation de données plus efficace peut réduire le temps d’entraînement et les coûts associés, tout en améliorant les performances du modèle sur des demandes spécifiques. Mais la réalité de l’automatisation de la curation de données est-elle à la hauteur des attentes ?
Les scandales passés, comme celui de LAION, organisation contrainte de retirer un jeu de données après y avoir découvert des contenus inappropriés, rappellent les limites de ces approches automatiques. De plus, les grandes entreprises continuent à s’appuyer sur des équipes d’experts pour affiner leurs jeux de données. Morcos croit cependant que DatologyAI n’a pas vocation à remplacer complètement la curation manuelle, mais à fournir des suggestions utiles pour réduire la taille des jeux de données sans nuire à la performance des modèles.
La technologie de DatologyAI a su attirer des investisseurs de renom de l’industrie de l’IA, constituant un signe prometteur pour l’ambition de la startup. Avec une équipe appelée à grandir en fonction des objectifs atteints, DatologyAI se positionne comme un acteur potentiellement révolutionnaire dans le domaine de la curation de données pour l’IA. Mais Morcos et son équipe pourront-ils vraiment transformer l’approche actuelle de la préparation des données ?
Avec une clientèle encore secrète et des objectifs ambitieux, la startup se trouve à un tournant. Seront-ils les pionniers d’une nouvelle ère pour les données d’entraînement en IA, ou buteront-ils sur les mêmes écueils que d’autres avant eux ?
Source : Techcrunch