Demandas por infracción de derechos de autor contra la IA en aumento

El aumento de demandas por infracción de derechos de autor en IA

El New York Times ha demandado a OpenAI por infracción de derechos de autor, alegando que los modelos de lenguaje grandes (LLM) de la compañía fueron construidos utilizando contenido de Times sin permiso. Esta demanda es solo la última de una serie de casos que destacan preocupaciones sobre los datos de entrenamiento de IA.

El Times afirma que los LLM de OpenAI, incluyendo GPT-4, fueron entrenados en un conjunto de datos llamado Common Crawl, que contiene al menos 16 millones de registros únicos de contenido de Times. La demanda cita instancias en las que GPT-4 y su función Browse with Bing repitieron contenido verbatim de artículos de Times.

El problema de los datos de entrenamiento de IA

Esta demanda no debería sorprender a quienes siguen el aumento de la IA generativa. Los consumidores y los medios se han centrado en la fabricación de productos tecnológicos físicos, pero ahora debemos preguntar a las compañías de IA sobre sus datos de entrenamiento. La respuesta es probable que sea “no”, no se obtiene de manera ética.

Usar IA generativa hoy en día es como comprar en una tienda de empeños dudosa. Los bienes, es decir, los datos de entrenamiento, podrían ser ventas legítimas del propietario, mercancía de alta calidad robada de una boutique o baratijas de baja calidad robadas de un almacén lleno de imitaciones.

La falta de transparencia en los datos de entrenamiento de IA tiene implicaciones significativas. Cuando compañías como Google y Bing reemplazan resultados de búsqueda con ideas y expresiones tomadas de proveedores de contenido sin permiso, es difícil para el periodismo continuar. Esto plantea preguntas sobre el futuro de la creación de contenido y el papel de la IA en él.

Precedentes e implicaciones

Una victoria del Tribunal Supremo por parte de la compañía de cable Cox puede ayudar a todos los proveedores de tecnología, no solo a los ISP, en sus batallas contra demandas por derechos de autor. El fiscal general de Florida también ha abierto una investigación sobre ChatGPT por motivos similares.

Las consecuencias de la infracción de derechos de autor en IA ya son devastadoras para los creadores de contenido. El aumento de los resultados de búsqueda y la generación de contenido impulsados por IA han llevado a una disminución del tráfico y los ingresos para muchos medios de comunicación. Esto podría tener implicaciones de gran alcance para la industria de los medios en su conjunto.

Historia de demandas por infracción de derechos de autor

En los últimos años, ha habido varios casos notables de demandas por infracción de derechos de autor contra compañías tecnológicas. Por ejemplo, una demanda contra Meta alega que la compañía “voluntaria e intencionalmente” infringió “al menos 2,396 películas” como parte de una estrategia para descargar terabytes de datos. Otra demanda contra Meta afirma que la compañía puede haber sembrado pornografía a menores mientras ocultaba piratería para entrenamiento de IA.

Estos casos destacan la necesidad de directrices claras sobre infracción de derechos de autor y uso justo en el desarrollo de IA. La actual falta de regulación y supervisión ha creado un entorno en el que las compañías pueden experimentar con modelos de IA sin temor a consecuencias.

Mecánica técnica

Modelos de lenguaje grandes como GPT-4 se entrenan en conjuntos de datos masivos, a menudo obtenidos de la web. Esto plantea preocupaciones sobre la propiedad y el uso de estos datos, particularmente cuando se trata de material protegido por derechos de autor. El proceso de entrenamiento de estos modelos implica recopilar datos de diversas fuentes, incluyendo libros, artículos y sitios web. Estos datos se utilizan luego para enseñar al modelo a generar texto similar al humano.

La mecánica técnica de los datos de entrenamiento de IA es compleja, pero la idea básica es que los modelos de IA aprenden de patrones en los datos con los que se entrenan. Esto significa que si los datos de entrenamiento son sesgados, incompletos o inexactos, el modelo de IA reflejará estos defectos.

Contexto de la industria

El rápido crecimiento de la IA generativa ha planteado preguntas sobre la ética de los datos de entrenamiento. A medida que los modelos de IA se vuelvan más prevalentes, la necesidad de directrices claras sobre infracción de derechos de autor y uso justo será cada vez más importante. La industria todavía está en sus primeras etapas, y hay una falta de estandarización en cuanto a los datos de entrenamiento.

El estado actual de los datos de entrenamiento de IA es similar a los primeros días de Internet, cuando las compañías todavía estaban descubriendo cómo usar y regular el contenido en línea. Sin embargo, las apuestas son mucho más altas ahora, ya que los modelos de IA tienen el potencial de dar forma a la opinión pública e influir en la toma de decisiones.

Implicaciones posteriores

El resultado de estas demandas dará forma al desarrollo de IA y la ley de derechos de autor. Las consecuencias de la infracción de derechos de autor en IA ya se están sintiendo por parte de los creadores de contenido. Si las compañías de IA no son responsables de sus datos de entrenamiento, podría llevar a una pérdida de confianza en la industria en su conjunto.

Las implicaciones posteriores de la infracción de derechos de autor en IA son de gran alcance. Si los modelos de IA se entrenan con material protegido por derechos de autor sin permiso, podría llevar a una disminución de la creatividad y la innovación. Esto podría tener implicaciones significativas para el futuro de la creación de contenido y el papel de la IA en él.

¿Qué sigue?

Las demandas presentadas por The New York Times y Strike 3 Holdings contra OpenAI y Meta, respectivamente, probablemente establecerán un precedente para casos futuros. A medida que la industria continúa evolucionando, es esencial abordar las preocupaciones sobre los datos de entrenamiento de IA y la infracción de derechos de autor.

La necesidad de transparencia y responsabilidad en el desarrollo de IA nunca ha sido más urgente. A medida que el uso de IA generativa se vuelve más generalizado, es crucial garantizar que estos modelos se entrenen con datos obtenidos de manera ética.

El futuro del desarrollo de IA depende de ello.

El camino a seguir

El camino a seguir requerirá colaboración entre desarrolladores de IA, creadores de contenido y reguladores. Necesitamos establecer directrices claras sobre infracción de derechos de autor y uso justo en el desarrollo de IA. También necesitamos garantizar que las compañías de IA sean transparentes sobre sus datos de entrenamiento y las responsabilicen por cualquier infracción de derechos de autor.

En última instancia, el objetivo es crear un futuro en el que los modelos de IA se entrenen con datos obtenidos de manera ética y los creadores de contenido sean justamente compensados por su trabajo. Esto requerirá un cambio fundamental en cómo pensamos sobre el desarrollo de IA y el papel de los creadores de contenido en él.