9 aprile 08:08

Un nuovo studio sostiene che OpenAI potrebbe aver utilizzato contenuti protetti da copyright per addestrare i suoi modelli di intelligenza artificiale

Adrian Rusu

Scienza IT&C

Foto: pixabay.com/ro

La ricerca, condotta da team dell'Università di Washington, Stanford e dell'Università di Copenaghen, porta alla luce un metodo per rilevare se i modelli di intelligenza artificiale hanno "memorizzato" parti dei loro dati di addestramento - una possibile violazione del copyright. Lo studio si concentra sull'identificazione di parole uniche e insolite nei testi letterari, note come parole "a sorpresa". I risultati hanno mostrato che GPT-4, uno dei modelli di OpenAI, sembra aver memorizzato parti di libri di narrativa protetti da copyright, in particolare da un set di dati chiamato BookMIA.