L’intelligenza artificiale sta rivoluzionando il modo in cui interagiamo con la tecnologia, ma la domanda su come risponde a quesiti complessi rimane cruciale. Gli algoritmi possono fornire risposte standardizzate a domande di carattere numerico, ma come si comportano in questioni etiche e relazionali?

Recentemente, un team di ricerca di Anthropic, guidato da Deep Ganguli, ha analizzato oltre 300.000 conversazioni con il modello 3.5 sonnet. I risultati, contenuti in un paper in fase di pre-stampa, indicano che questi modelli tendono a mantenere coerenza con i valori etici per cui sono stati addestrati. Ad esempio, quando si richiedono consigli per relazioni romantiche, il modello si basa su principi di rispetto reciproco e confini chiari. Invece, nel caso di eventi storici controversi, le risposte si fondano su accuratezza e aderenza ai fatti.

Tuttavia, il 3% delle interazioni ha mostrato il modello che contestava i valori espressi dagli utenti, evidenziando una certa resistenza a richieste contrarie alla sua etica. I ricercatori sottolineano che mentre i dati raccolti non sono utili per prevenire comportamenti inappropriati prima del rilascio del modello, possono aiutare a identificare errori e tentativi di sorpassare i limiti etici imposti.

Questi risultati suggeriscono che la programmazione dei principi guida nei modelli di intelligenza artificiale possa influenzare positivamente le interazioni umane, anche su temi delicati.