Un nuevo estudio afirma que OpenAI podría haber utilizado contenidos protegidos por derechos de autor para entrenar sus modelos de inteligencia artificial

Adrian Rusu

Ciencia IT&C

Foto: pixabay.com/ro

La investigación, realizada por equipos de la Universidad de Washington, Stanford y la Universidad de Copenhague, saca a la luz un método para detectar si los modelos de IA han "memorizado" partes de sus datos de entrenamiento, una posible infracción de los derechos de autor. El estudio se centra en la identificación de palabras únicas e inusuales en textos literarios, conocidas como palabras "gran sorpresa". Los resultados mostraron que GPT-4, uno de los modelos de OpenAI, parecía haber memorizado partes de libros de ficción protegidos por derechos de autor, en particular de un conjunto de datos llamado BookMIA.