joi 08:17

Un nou studiu arată că modelele de inteligență artificială pot transmite pattern-uri ascunse, care pot altera drastic comportamentul altor modele în mod imprevizibil

Adrian Rusu

Știință IT&C

Foto: pixabay.com/ro

Aceste pattern-uri, denumite 'subliminale', pot fi transmise prin datele de antrenament și pot avea consecințe de la apariția unor comportamente aparent inofensive, până la manifestarea unor comportamente periculoase, cum ar fi încurajarea omuciderii sau promovarea traficului de droguri. Pattern-urile par a fi lipsite de sens pentru oameni, iar cercetătorii nu sunt siguri cum sunt percepute de modelele de AI. Studiul a fost realizat de Anthropic în colaborare cu Truthful AI.