Dolma : un pas de géant vers l’ouverture des datasets ?
Est-il bien raisonnable que les données alimentant les puissants modèles linguistiques comme GPT-4 et Claude demeurent des secrets bien gardés ? L’Institut Allen pour l’IA (AI2) semble dévoué à inverser cette tendance en proposant un immense dataset textuel, liber d’accès et ouvert à l’examen. Prénommé Dolma, ce dataset est envisagé comme la base pour le…