9 aprile 08:08
Un nuovo studio sostiene che OpenAI potrebbe aver utilizzato contenuti protetti da copyright per addestrare i suoi modelli di intelligenza artificiale
Adrian Rusu
.webp)
Scienza IT&C
Foto: pixabay.com/ro
La ricerca, condotta da team dell'Università di Washington, Stanford e dell'Università di Copenaghen, porta alla luce un metodo per rilevare se i modelli di intelligenza artificiale hanno "memorizzato" parti dei loro dati di addestramento - una possibile violazione del copyright. Lo studio si concentra sull'identificazione di parole uniche e insolite nei testi letterari, note come parole "a sorpresa". I risultati hanno mostrato che GPT-4, uno dei modelli di OpenAI, sembra aver memorizzato parti di libri di narrativa protetti da copyright, in particolare da un set di dati chiamato BookMIA.