Hanno rubato tutto dai video di YouTube | Lo scandalo ha inizio

Come si addestra una IA senza pagare? Cominci con i video YouTube. Questo quello che sarebbe successo. Più e più volte.

Dei video pubblicati sulla piattaforma, che appartiene a Google, si è tornato a parlare in due distinte occasioni che pongono di nuovo l’accento su quanto sia necessario capire come muoversi nel futuro quando l’intelligenza artificiale sarà ovunque.

video youtube per allenare le ia, nel ciclone openai ma non solo
Finito il testo, le IA hanno masticato i video YouTube – games.it

Perché prima il CEO di YouTube e poi un report dai colleghi del New York Times mette sotto una luce particolare gli sforzi che Google stessa ma anche OpenAI e Meta starebbero facendo per superarsi a vicenda nella corsa all’addestramento delle proprie intelligenze artificiali.

La questione su dove gli istruttori di IA debbano o possano prendere materiale è altamente dibattuta. Per esempio, ultimamente Google ha cambiato i propri termini di servizio per permettere di utilizzare tutti i dati disponibili online pubblicamente come pasto per la sua intelligenza artificiale. Adesso al centro però ci sono i video YouTube: una miniera d’oro di dati che alcuni colossi avrebbero utilizzato con Google che addirittura avrebbe saputo e non avrebbe fatto nulla.

Un tool per ascoltare e copiare i video YouTube

Come riportato dai colleghi del New York Times, il 2021 fu per OpenAI un anno cruciale. Nonostante la massa di dati online si era toccato il fondo. Non c’era più nulla che potesse essere letto e dato da ciancicare all’intelligenza artificiale in addestramento. E quindi, prosegue il resoconto del New York Times, ecco che venne creato un tool chiamato Whisper in grado di trasformare l’audio in testo e così dare a ChatGPT palate e palate di dati da lavorare.

openai disperata avrebbe trascritto i video youtube per Chatgpt
Violazione del copyright o fair use? – games.it

Andando a violare, come qualcuno all’epoca sussurrava negli stessi corridoi di OpenAI, i termini di utilizzo della piattaforma messi su da Google. Ma a quanto pare non fu solo OpenAI: anche Google avrebbe trascritto, e per gli stessi identici scopi, i video YouTube violando stavolta non solo le proprie regole interne ma anche il copyright dei video stessi.

Riguardo però l’utilizzo dei video, in una dichiarazione riportata sempre dai colleghi del New York Times, Google avrebbe chiarito che l’utilizzo dei contenuti pubblicati su YouTube sarebbe avvenuto solo in accordo con i creatori dei video stessi.

Un’altra intelligenza artificiale, Sora, quella che per OpenAI produce video, si è trovata invece al centro di un’altra disputa che però parte sempre da YouTube. Anche in questo caso si tratta di qualcosa che potrebbe essere successo o meno. Durante una intervista Mira Murati, CTO di OpenAI, non è stata in grado infatti di chiarire se i video YouTube, Instagram o Facebook fossero stati o meno utilizzati come addestramento e come materiale di partenza per il nuovo modello di intelligenza artificiale generativa di video.

Il che ha innescato alcune frasi di Neil Moghan, CEO di YouTube, che ha colto l’occasione di una intervista con Bloomberg Originals per chiarire la questione: “dalla prospettiva di un creatore, quando carica il suo duro lavoro sulla nostra piattaforma ha alcuni aspettative. Una di queste aspettative è che i termini di servizio vengano rispettati. Non permettono cose come la trascrizione o il download di parti di video, e questa è una chiara violazione dei nostri termini di servizio. Queste sono le regole della strada in termini di contenuti presenti sulla nostra piattaforma“.

La fame di dati delle intelligenze artificiali e forse qualcosa che i creatori stessi di questi servizi non avrebbero potuto inizialmente prevedere ma che adesso è diventato un problema. Un problema che non è solo loro e riguarda il reperimento di fonti con cui far progredire l’intelligenza artificiale. È un problema di tutti perché, nella corsa che si è innescata, forse rischiamo di perdere il polso di ciò che è realmente importante, di vendere ciò che ci contraddistingue senza neanche accorgercene o di regalarlo perché non abbiamo letto con sufficiente attenzione i termini di utilizzo che ci sono stati proposti.

Impostazioni privacy