147 știri noi în ultimele 24 de ore

21 noiembrie 08:55

Un studiu major arată că multe teste de evaluare a AI exagerează capabilitățile reale ale sistemelor

Adrian Rusu

main event image

Știință IT&C

Foto: pixabay.com

Un studiu realizat de Institutul Internetului de la Oxford, în colaborare cu peste treizeci de instituții, analizează 445 de benchmark-uri utilizate pentru evaluarea inteligenței artificiale (AI). Cercetătorii subliniază că multe dintre aceste teste nu au rigoare științifică și nu măsoară corect abilitățile pe care pretind că le evaluează.

De exemplu, unele benchmark-uri nu definesc clar competentele evaluate, iar altele reutilizează date din teste anterioare, afectând fiabilitatea rezultatelor. Adam Mahdi, unul dintre autorii principali, avertizează că aceste deficiențe pot distorsiona percepția asupra progresului AI. Studiul propune opt recomandări pentru crearea unor benchmark-uri mai transparente și de încredere, inclusiv definirea clară a scopului fiecărui test și utilizarea unor seturi de sarcini mai reprezentative.

Surse

New Study Finds AI Abilities Are Often Overstated Because of Flawed Tests

ȘTIRI PE ACELEAȘI SUBIECTE

Știință IT&C

Utilizarea intensivă a chatboților AI este asociată cu riscuri semnificative pentru sănătatea mintală, dar industria nu are standarde clare pentru a evalua dacă aceste sisteme protejează utilizatorii sau optimizează doar angajamentul

Știință IT&C

O nouă ediție a Indexului de Siguranță AI al Future of Life Institute arată că dezvoltatorii majori de AI, precum OpenAI și Meta, nu respectă standardele globale de siguranță

Actualitate

Studiu UNESCO: Românii și americanii văd în inteligența artificială un risc pentru alegeri, dar o consideră mai de încredere decât instituțiile tradiționale

Internațional

Un studiu de la Universitatea Stanford arată că chatboții AI validează comportamente dăunătoare, influențând negativ percepția utilizatorilor despre sine și relațiile lor

Știință IT&C

Echipa de la Andon Labs a creat un robot dotat cu modele de limbaj mari (LLMs) pentru a evalua capacitățile actuale ale inteligenței artificiale în interacțiuni fizice

Feed personalizat de știri, căutare cu Inteligență Artificială și notificări într-o experiență mai interactivă.

AI teste evaluare ai

Feed personalizat de știri, căutare cu Inteligență Artificială și notificări într-o experiență mai interactivă.

app preview

google play badge