9 avril 08:08
Une nouvelle étude affirme que l'OpenAI pourrait avoir utilisé des contenus protégés par le droit d'auteur pour entraîner ses modèles d'intelligence artificielle.
Adrian Rusu
.webp)
Science IT&C
Foto: pixabay.com/ro
Cette recherche, menée par des équipes de l'université de Washington, de Stanford et de l'université de Copenhague, met en lumière une méthode permettant de détecter si les modèles d'IA ont "mémorisé" des parties de leurs données d'apprentissage, ce qui pourrait constituer une violation du droit d'auteur. L'étude porte sur l'identification de mots uniques et inhabituels dans les textes littéraires, connus sous le nom de mots "grande surprise". Les résultats ont montré que GPT-4, l'un des modèles de l'OpenAI, semblait avoir mémorisé des parties de livres de fiction protégés par le droit d'auteur, en particulier à partir d'un ensemble de données appelé BookMIA.