Nourrir les intelligences artificielles avec des données générées par l'IA, un pari risqué

Crédit Photo : Philip FONG / AFP

Cette photo prise le 11 juillet 2024 montre Kohei Saito, professeur agrégé de philosophie à l'université de Tokyo, s'exprimant dans son bureau au campus Komaba de l'université à Tokyo.

Si les modèles d'intelligence artificielle (IA) sont entraînés à répétition avec des données elles-mêmes générées par de l'IA, ils se mettent à produire des contenus de plus en plus incohérents, un problème pointé du doigt par plusieurs études scientifiques.

Les modèles qui sous-tendent les outils d'intelligence artificielle générative comme ChatGPT, qui permettent de générer toutes sortes de contenus sur simple requête en langage courant, ont besoin d'être entraînés sur un nombre astronomique de données.

Des données qui sont souvent glanées sur le web, qui contient de plus en plus d'images et de textes créés par l'IA.

Cette

"autophagie"

, où l'IA se nourrit de l'IA, conduit à un effondrement des modèles, qui produisent des réponses d'abord de moins en moins originales et pertinentes puis finissant par n'avoir aucun sens, selon un article paru fin juillet dans la revue scientifique Nature.

Concrètement, avec l'utilisation de ce type de données appelées
"données synthétiques"
car générées par des machines, l'échantillon dans lequel piochent les modèles d'intelligence artificielle pour fournir leurs réponses perd en richesse.

C'est comme si on faisait une copie d'une image scannée puis elle-même imprimée. Au fur et à mesure des impressions, le résultat perd de sa qualité jusqu'à être illisible.

"Maladie de la vache folle"

Des chercheurs des universités américaines Rice et Stanford sont parvenus à la même conclusion en étudiant les modèles d'IA générateurs d'images Midjourney, Dall-E et Stable Diffusion.

Ils ont montré que les images générées devenaient de plus en plus communes et étaient progressivement parsemées d'éléments incongrus à mesure qu'ils ajoutaient des données

"artificielles"

au modèle, comparant ce phénomène à la maladie de la

"vache folle".

Cette épidémie apparue au Royaume-Uni trouverait son origine dans l'utilisation pour l'alimentation des bovins de farines animales, obtenues à partir de parties non consommées des carcasses bovines et de cadavres d'animaux contaminés.

Les entreprises du secteur de l'intelligence artificielle utilisent toutefois fréquemment des

"données synthétiques"

pour entraîner leurs programmes en raison de leur facilité d'accès, abondance et faible coût par rapport aux données créées par l'humain.

"Les sources de données humaines inexploitées, de haute qualité et lisibles par des machines deviennent de plus en plus rares"

, a expliqué Jathan Sadowski, chercheur spécialisé dans les nouvelles technologies à l'université Monash en Australie.

"Sans aucun contrôle pendant plusieurs générations, un scénario catastrophe"

serait que le syndrome d'effondrement des modèles

"empoisonne la qualité et la diversité des données pour la totalité de l'Internet"

, a mis en garde Richard Baraniuk, l'un des auteurs de l'article de l'université Rice, dans un communiqué.

Tout comme la crise de la vache folle avait plombé l'industrie de la viande dans les années 90, un internet rempli de contenus faits par l'intelligence artificielle et des modèles devenus

"fous"

pourrait menacer l'avenir d'une industrie de l'IA en plein boom, pesant des milliards de dollars, selon ces scientifiques.

"La vraie question pour les chercheurs et les sociétés qui bâtissent les systèmes d'IA est la suivante: à quel moment l'utilisation de données synthétiques devient trop grande?"

, complète Jathan Sadowski.

Scénario peu réaliste

Mais, pour d'autres spécialistes, le problème est exagéré et loin d'être inéluctable.

Anthropic et Hugging Face, deux pépites dans le domaine de l'intelligence artificielle, ont confirmé à l'AFP se servir de données générées par l'IA.

L'article de la revue Nature offre une perspective théorique intéressante, mais peu réaliste pour Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face.

L'entraînement (de modèles) sur plusieurs séries de données synthétiques ne se fait tout simplement pas dans la réalité.

M. Lozhkov reconnaît toutefois que les experts de l'IA sont frustrés, comme tout le monde, de l'état du web.

"Une partie de l'internet est une poubelle"

, lâche-t-il, ajoutant que son entreprise a déjà fait de gros efforts de nettoyage des données recueillies, parfois en en supprimant jusqu'à 90%.

À lire également:

#Technologie

#Intelligence Artificielle (IA)

#information

#science

Nourrir les intelligences artificielles avec des données générées par l'IA, un pari risqué

Si les modèles d'intelligence artificielle (IA) sont entraînés à répétition avec des données elles-mêmes générées par de l'IA, ils se mettent à produire des contenus de plus en plus incohérents, un problème pointé du doigt par plusieurs études scientifiques.

"Maladie de la vache folle"

Scénario peu réaliste

AVERTISSEMENT JURIDIQUE