laptop computer on glass-top table

Credits image : Carlos Muza / Unsplash

Technologie
0

L’IA et ses Pépins : La Bataille des Données

« La data, c’est comme les pommes : mieux elle est entretenue, plus elle est savoureuse quand elle tombe de l’arbre. » Eh oui, mes chers lecteurs, dans le grand verger de l’IA, la récolte coûte de plus en plus cher !

Tout a commencé par un post de James Betker, chercheur chez OpenAI, qui aurait pu passer inaperçu… si ce n’était pas si juteux. Dans son blog personnel, Betker a affirmé que les datasets, et non l’architecture ou le design d’un modèle, sont la clé de la montée en puissance des IA super-intelligentes. Bref, il a mis le doigt sur un point crucial : l’importance capitale des données d’entraînement.

Bon, c’est pas sorcier tout ça. En entraînant les modèles sur des volumes monstrueux de données, on finit par obtenir des IA capables de répondre aux questions les plus complexes ou de générer des œuvres d’art (presque) aussi belles que celles de Maman Picasso.

L’enjeu n’est pas seulement la quantité de données, mais aussi leur qualité et leur provenance.

Pour illustrer son point, Kyle Lo de l’Institut Allen pour l’IA a cité l’exemple du modèle Llama 3 de Meta. Ce dernier, bien que similaire à d’autres dans sa construction, surpasse la concurrence grâce à… vous l’aurez deviné, une tonne de données supplémentaires. Mais attention, les chiffres peuvent parfois manquer de piquant, d’où l’importance des tests qualitatifs.

Alors que certains modèles semblent tout gagner en jouant aux gros bras (ou plutôt aux gros datasets), Lo prévient : « méfiez-vous des pépins » ! Il note que la qualité des données prime souvent sur leur quantité. C’est bien beau d’avoir plein de pommes, encore faut-il qu’elles soient comestibles. Des corpus bien annotés et soignés peuvent faire des merveilles, comme l’a démontré OpenAI avec ses améliorations de DALL-E 3.

Toujours est-il que plus les datasets deviennent précieux, plus les clés de ces trésors se retrouvent entre les mains des riches seigneurs de la tech. Adieu innovation débridée et place à la centralisation éhontée des ressources au sommet de la tour Silicon.

Big Tech restera sans doute le gardien autoproclamé du Saint Graal de données, alors que le reste du monde joue à Robin des Bois, tentant de rassembler les miettes pour des projets plus ouverts et égalitaires. Mais voilà, tant que la quête des datasets reste une affaire de gros sous, la forêt de Sherwood risque de paraître bien pauvre en comparaison.

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.