Les modèles qui sous-tendent les outils d'intelligence artificielle générative comme ChatGPT, qui permettent de générer toutes sortes de contenus sur simple requête en langage courant, ont besoin d'être entraînés sur un nombre astronomique de données.
Des données qui sont souvent glanées sur le web, qui contient de plus en plus d'images et de textes créés par l'IA.
C'est comme si on faisait une copie d'une image scannée puis elle-même imprimée. Au fur et à mesure des impressions, le résultat perd de sa qualité jusqu'à être illisible.
"Maladie de la vache folle"
Des chercheurs des universités américaines Rice et Stanford sont parvenus à la même conclusion en étudiant les modèles d'IA générateurs d'images Midjourney, Dall-E et Stable Diffusion.
Cette épidémie apparue au Royaume-Uni trouverait son origine dans l'utilisation pour l'alimentation des bovins de farines animales, obtenues à partir de parties non consommées des carcasses bovines et de cadavres d'animaux contaminés.
Scénario peu réaliste
Mais, pour d'autres spécialistes, le problème est exagéré et loin d'être inéluctable.
Anthropic et Hugging Face, deux pépites dans le domaine de l'intelligence artificielle, ont confirmé à l'AFP se servir de données générées par l'IA.
L'article de la revue Nature offre une perspective théorique intéressante, mais peu réaliste pour Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face.
L'entraînement (de modèles) sur plusieurs séries de données synthétiques ne se fait tout simplement pas dans la réalité.
M. Lozhkov reconnaît toutefois que les experts de l'IA sont frustrés, comme tout le monde, de l'état du web.