Neue Studie behauptet, dass OpenAI möglicherweise urheberrechtlich geschützte Inhalte beim Training seiner Modelle für künstliche Intelligenz verwendet hat

Adrian Rusu

Wissenschaft IT&C

Foto: pixabay.com/ro

Die von Teams der University of Washington, Stanford und der Universität Kopenhagen durchgeführte Studie stellt eine Methode vor, mit der festgestellt werden kann, ob KI-Modelle Teile ihrer Trainingsdaten "auswendig gelernt" haben - eine mögliche Urheberrechtsverletzung. Die Studie konzentriert sich auf die Erkennung einzigartiger und ungewöhnlicher Wörter in literarischen Texten, die als "große Überraschung" bekannt sind. Die Ergebnisse zeigen, dass GPT-4, eines der OpenAI-Modelle, Teile von urheberrechtlich geschützten Romanen auswendig gelernt zu haben scheint, insbesondere aus einem Datensatz namens BookMIA.