Cause per violazione del copyright AI in aumento

L’aumento delle cause per violazione del copyright AI

Il New York Times ha intentato una causa contro OpenAI per violazione del copyright, sostenendo che i modelli linguistici di grandi dimensioni (LLM) dell’azienda sono stati costruiti utilizzando contenuti del Times senza permesso. Questa causa è solo l’ultima di una serie di casi che evidenziano preoccupazioni sui dati di addestramento AI.

Il Times sostiene che gli LLM di OpenAI, tra cui GPT-4, sono stati addestrati su un set di dati chiamato Common Crawl, che contiene almeno 16 milioni di registri univoci di contenuti del Times. La causa cita casi in cui GPT-4 e la sua funzione Browse with Bing hanno ripetuto contenuti verbatim da articoli del Times.

Il problema dei dati di addestramento AI

Questa causa non dovrebbe sorprendere coloro che seguono l’ascesa dell’AI generativa. Consumatori e media si sono concentrati sulla produzione di prodotti tecnologici fisici, ma ora dobbiamo chiedere alle aziende AI informazioni sui loro dati di addestramento. La risposta è probabilmente “no”, non è stata ottenuta eticamente.

Utilizzare l’AI generativa oggi è come comprare da un negozio di pegni losco. I beni, ovvero i dati di addestramento, potrebbero essere vendite legittime del proprietario, merce di alta qualità rubata da un negozio di lusso o schlock di bassa qualità rubato da un magazzino pieno di imitazioni.

La mancanza di trasparenza nei dati di addestramento AI ha implicazioni significative. Quando aziende come Google e Bing sostituiscono i risultati di ricerca con idee ed espressioni prese da fornitori di contenuti senza permesso, è difficile per il giornalismo continuare. Ciò solleva interrogativi sul futuro della creazione di contenuti e sul ruolo dell’AI in esso.

Precedenti e implicazioni

Una vittoria della Supreme Court per la società di cable Cox potrebbe aiutare tutti i fornitori di tecnologia, non solo gli ISP, nelle loro battaglie contro le cause per violazione del copyright. Il procuratore generale della Florida ha anche aperto un’indagine su ChatGPT su terreni simili.

Le conseguenze della violazione del copyright AI sono già devastanti per i creatori di contenuti. L’ascesa dei risultati di ricerca e della generazione di contenuti basati su AI ha portato a un calo del traffico e delle entrate per molti media. Ciò potrebbe avere implicazioni di vasta portata per l’intero settore dei media.

Storia delle cause per violazione del copyright

Negli ultimi anni, ci sono state diverse cause notevoli per violazione del copyright contro aziende tecnologiche. Ad esempio, una causa contro Meta sostiene che l’azienda ” intenzionalmente e volontariamente” ha violato “almeno 2.396 film” come parte di una strategia per scaricare terabyte di dati. Un’altra causa contro Meta sostiene che l’azienda potrebbe aver seminato pornografia a minorenni mentre nascondeva la pirateria per l’addestramento AI.

Questi casi evidenziano la necessità di linee guida chiare sulla violazione del copyright e sull’uso equo nello sviluppo AI. L’attuale mancanza di regolamentazione e supervisione ha creato un ambiente in cui le aziende possono sperimentare con modelli AI senza timore di conseguenze.

Meccanismi tecnici

Modelli linguistici di grandi dimensioni come GPT-4 sono addestrati su enormi set di dati, spesso tratti dal web. Ciò solleva preoccupazioni sulla proprietà e sull’uso di questi dati, in particolare quando si tratta di materiale protetto da copyright. Il processo di addestramento di questi modelli implica lo scraping di dati da varie fonti, tra cui libri, articoli e siti web. Questi dati vengono quindi utilizzati per insegnare al modello a generare testi simili a quelli umani.

I meccanismi tecnici dei dati di addestramento AI sono complessi, ma l’idea di base è che i modelli AI apprendono dai pattern nei dati su cui sono addestrati. Ciò significa che se i dati di addestramento sono distorti, incompleti o inesatti, il modello AI rifletterà questi difetti.

Contesto industriale

La rapida crescita dell’AI generativa ha sollevato interrogativi sull’etica dei dati di addestramento. Man mano che i modelli AI diventano più diffusi, la necessità di linee guida chiare sulla violazione del copyright e sull’uso equo diventerà sempre più importante. Il settore è ancora nelle sue prime fasi e c’è una mancanza di standardizzazione quando si tratta di dati di addestramento.

Il contesto attuale dei dati di addestramento AI è simile ai primi giorni di Internet, quando le aziende stavano ancora cercando di capire come utilizzare e regolare i contenuti online. Tuttavia, le poste sono molto più alte ora, poiché i modelli AI hanno il potenziale per plasmare l’opinione pubblica e influenzare il processo decisionale.

Implicazioni a lungo termine

L’esito di queste cause plasmerà lo sviluppo AI e la legge sul copyright. Le conseguenze della violazione del copyright AI sono già avvertite dai creatori di contenuti. Se le aziende AI non sono ritenute responsabili dei loro dati di addestramento, ciò potrebbe portare a una perdita di fiducia nel settore nel suo complesso.

Le implicazioni a lungo termine della violazione del copyright AI sono di vasta portata. Se i modelli AI sono addestrati su materiale protetto da copyright senza permesso, ciò potrebbe portare a un calo della creatività e dell’innovazione. Ciò potrebbe avere implicazioni significative per il futuro della creazione di contenuti e il ruolo dell’AI in esso.

Cosa succederà

Le cause intentate dal New York Times e da Strike 3 Holdings contro OpenAI e Meta, rispettivamente, probabilmente creeranno un precedente per casi futuri. Man mano che il settore continua a evolversi, è essenziale affrontare le preoccupazioni relative ai dati di addestramento AI e alla violazione del copyright.

La necessità di trasparenza e responsabilità nello sviluppo AI non è mai stata più urgente. Man mano che l’uso dell’AI generativa diventa più diffuso, è cruciale assicurarsi che questi modelli siano addestrati su dati ottenuti eticamente.

Il futuro dello sviluppo AI dipende da esso.

La strada da percorrere

La strada da percorrere richiederà la collaborazione tra sviluppatori AI, creatori di contenuti e regolatori. Dobbiamo stabilire linee guida chiare sulla violazione del copyright e sull’uso equo nello sviluppo AI. Dobbiamo anche assicurarci che le aziende AI siano trasparenti sui loro dati di addestramento e le ritenere responsabili per qualsiasi violazione del copyright.

In definitiva, l’obiettivo è creare un futuro in cui i modelli AI siano addestrati su dati ottenuti eticamente e i creatori di contenuti siano equamente compensati per il loro lavoro. Ciò richiederà un cambiamento fondamentale nel modo in cui pensiamo allo sviluppo AI e al ruolo dei creatori di contenuti in esso.