Le New York Times poursuit OpenAI et Microsoft pour vol de contenu IA

Le New York Times s’attaque à OpenAI et Microsoft

Le New York Times a déposé une plainte contre OpenAI et Microsoft, accusant les deux sociétés d’avoir construit leurs modèles d’IA en copiant et en utilisant des millions d’articles de la publication sans autorisation. La plainte affirme que le ChatGPT d’OpenAI et le Copilot de Microsoft peuvent générer des résultats qui répètent du contenu du Times verbatim, le résument étroitement et imitent son style expressif.

Le Times allègue que cette utilisation de son contenu sape et endommage sa relation avec les lecteurs, tout en le privant de revenus d’abonnement, de licence, de publicité et d’affiliation. La plainte soutient que ces modèles d’IA menacent le journalisme de haute qualité en entravant la capacité des organes de presse à protéger et à monétiser leur contenu.

Une histoire de tensions entre les organes de presse et les sociétés d’IA

Le New York Times est l’un des nombreux organes de presse qui ont bloqué le web crawler d’OpenAI ces derniers mois, empêchant la société d’IA de continuer à extraire du contenu de son site Web et de l’utiliser pour entraîner des modèles d’IA. La BBC, CNN et Reuters ont également bloqué le web crawler d’OpenAI. D’autres publications, cependant, adoptent l’IA - ou, au moins, les paiements qui viennent avec.

Axel Springer, qui possède Politico et Business Insider, a conclu un accord avec OpenAI plus tôt ce mois-ci qui permet à ChatGPT de tirer des informations directement de ces deux sources, tandis que l’Associated Press autorise OpenAI à entraîner ses modèles sur ses articles de presse pour les deux prochaines années.

Les enjeux pour l’avenir du journalisme

La plainte déposée par le New York Times est importante car elle remet directement en question le modèle économique des sociétés d’IA comme OpenAI et Microsoft. Le Times réclame des milliards de dollars en dommages et intérêts statutaires et réels, ainsi qu’une ordonnance empêchant OpenAI et Microsoft d’entraîner leurs modèles d’IA en utilisant son contenu.

L’affaire soulève également des questions importantes sur le rôle de l’IA dans le journalisme et la nécessité pour les éditeurs d’être rémunérés pour leur travail. À mesure que l’utilisation des modèles d’IA devient plus répandue, les organes de presse sont de plus en plus préoccupés par l’impact potentiel sur leur entreprise.

Ce qui suit

La plainte sera probablement suivie de près par l’industrie technologique et les médias. OpenAI et Microsoft ont jusqu’à présent pu utiliser le contenu des organes de presse pour entraîner leurs modèles d’IA sans faire face à une opposition significative. Mais le New York Times est une publication majeure avec une solide réputation pour son journalisme.

L’affaire pourrait fixer un précédent pour la façon dont les sociétés d’IA utilisent le contenu des éditeurs à l’avenir. Elle pourrait également conduire à des changements dans la façon dont les modèles d’IA sont entraînés et la façon dont les éditeurs sont rémunérés pour leur travail.

Contexte industriel

Le différend entre le New York Times et OpenAI et Microsoft fait partie d’un débat plus large sur le rôle de l’IA dans les médias. À mesure que les modèles d’IA deviennent plus sophistiqués, ils sont de plus en plus capables de générer du contenu similaire au contenu écrit par l’homme.

Cela a suscité des inquiétudes parmi les éditeurs quant à l’impact potentiel sur leur entreprise. Si les modèles d’IA peuvent générer du contenu similaire au contenu écrit par l’homme, alors pourquoi les éditeurs doivent-ils investir dans des journalistes humains ?

La plainte déposée par le New York Times est un développement important dans ce débat. Elle souligne la nécessité pour les éditeurs d’être rémunérés pour leur travail et pour les sociétés d’IA d’être transparentes sur la façon dont elles utilisent le contenu des éditeurs.

Mécaniques techniques

Les modèles d’IA en question dans la plainte sont des large language models (LLM) qui sont entraînés sur de vastes quantités de données textuelles. Ces modèles sont capables de générer du texte similaire à celui de l’homme en prédisant le mot suivant dans une séquence de texte.

Les LLM utilisés par OpenAI et Microsoft sont entraînés sur un énorme jeu de données textuelles qui comprend des millions d’articles du New York Times. Le Times allègue que cette utilisation de son contenu sans autorisation constitue une violation du droit d’auteur.

L’affaire soulève des questions importantes sur l’intersection du droit d’auteur et de la technologie de l’IA. Elle pourrait conduire à des changements dans la façon dont les modèles d’IA sont entraînés et la façon dont les éditeurs sont rémunérés pour leur travail.

Conclusion

La plainte déposée par le New York Times contre OpenAI et Microsoft est un développement important dans le débat sur le rôle de l’IA dans les médias. Elle souligne la nécessité pour les éditeurs d’être rémunérés pour leur travail et pour les sociétés d’IA d’être transparentes sur la façon dont elles utilisent le contenu des éditeurs.

À surveiller

La prochaine étape dans la plainte sera pour OpenAI et Microsoft de répondre aux allégations faites par le New York Times. L’affaire sera probablement suivie de près par l’industrie technologique et les médias.

Le résultat de l’affaire pourrait avoir des implications importantes pour l’avenir du journalisme et l’utilisation de l’IA dans les médias. Il pourrait conduire à des changements dans la façon dont les modèles d’IA sont entraînés et la façon dont les éditeurs sont rémunérés pour leur travail.

Le lecteur doit suivre la décision dans cette affaire, ainsi que tout appel éventuel. L’affaire pourrait fixer un précédent pour la façon dont les sociétés d’IA utilisent le contenu des éditeurs à l’avenir.