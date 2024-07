È di questa settimana la notizia secondo cui la notizia secondo cui Apple ed altri giganti del settore tecnologico avrebbero utilizzato i sottotitoli disponibili nei video di YouTube per addestrare i rispettivi modelli di intelligenza artificiale. Ma Apple non ci sta e risponde alle accuse.

Sarebbero addirittura 170.000 i video interessati, tra i quali quelli dei principali YouTuber americani, vicini al settore tecnologico e con milioni di iscritti ai propri canali, come MKBHD e Mr. Beast assieme a clip di notiziari realizzati dal New York Times, BBC, The Verge, Vox ed ABC News.

Apple avrebbe dunque utilizzato questo stratagemma per allenare i suoi modelli OpemELM open-source, annunciati lo scorso aprile.

Sulla vicenda ha indagato il noto portale americano, 9to5Mac e l’azienda di Cupertino avrebbe riferito loro come OpenELM non alimenterebbe le funzionalità di AI o di apprendimento automatico (machine learning), che nel caso specifico si tradurrebbero in Apple Intelligence.

L’obiettivo di OpenELM, stando sempre a quanto affermato da Apple, sarebbe stato sviluppato per supportare le comunità di ricerca e per progredire maggiormente nello sviluppo di nuovo modelli linguistici open-source, come definito dagli stessi ricercatori dell’azienda: “un modello linguistico opwn-source all’avanguardia”.

A conferma di ciò, ci sarebbe il fatto che Apple ha pubblicato il modello in open-source, disponibile a tutti, inserendolo all’interno del sito web ufficiale nella sezione dedicata al machine learning.

Considerato dunque che OpenELM non verrebbe utilizzato all’interno di Apple Intelligence, la raccolta dei dati proveniente dagli “YouTube Subtitles” non alimenterebbe Apple Intelligence.

In precedenza, l’azienda americana aveva dichiarato come i modelli di Apple Intelligence siano stati addestrati attraverso dei dati dotati di licenza, tra cui quelli selezionati per migliorare determinate funzionalità, assieme ad altri dati disponibili pubblicamente ed immagazzinati dal loro web-crawler.

Tra i piani di Apple non ci sarebbe inoltre la necessità di costruire ulteriori versioni del modello OpenELM andando in contrasto con quanto affermato da Wired.

Secondo quest’ultima, anche altre aziende di assoluto rilievo, come Antheopic, NVIDIA e Salesforce avrebbero utilizzato i dati raccolti da “YouTube Subtitles” per addestrare i loro rispettivi modelli di intelligenza artificiale e che gli stessi set di dati farebbero parte di una collezione molto più ampia, che prende il nome di “The Pile“, della non-profit EleutherAI, una raccolta che raccoglie anche libri, pagine provenienti da Wikipedia e materiale testuale.

Se mai tutto ciò dovesse essere confermato si tratterebbe di una palese violazione dei termini di servizio di YouTube.