AI 저작권 침해 소송 증가

AI 저작권 침해 소송의 증가

뉴욕 타임스는 OpenAI를 상대로 저작권 침해 소송을 제기했다. 뉴욕 타임스는 OpenAI의 대규모 언어 모델(LLMs)이 Times의 콘텐츠를 허가 없이 사용하여 구축되었다고 주장했다. 이번 소송은 AI 학습 데이터에 대한 우려를 강조하는 일련의 사건들 중 하나이다.

타임스는 OpenAI의 LLMs, включая GPT-4가 Common Crawl이라는 데이터세트로 학습되었다고 주장했다. 이 데이터세트에는 Times의 콘텐츠에 대한 1,600만 개의 고유 레코드가 포함되어 있다. 소송은 GPT-4 및 Browse with Bing 기능이 Times 기사의 내용을 그대로 반복하는 사례를 인용했다.

AI 학습 데이터의 문제

이번 소송은 생성형 AI의 발전과 관련하여 놀라운 일이 아니다. 소비자와 미디어는 물리적 기술 제품의 제조에 집중했지만, 이제 우리는 AI 회사에 대해 학습 데이터를 문의해야 한다. 대답은 아마도 ‘아니오’일 것이다. 윤리적으로 수집된 데이터는 아니다.

오늘날 생성형 AI를 사용하는 것은 의심스러운 중고 상점에서 물건을 사는 것과 같다. 상품, 즉 학습 데이터는 합법적인 판매 또는 고품질 상품일 수 있지만, 창고에서 훔친 저품질 상품일 수도 있다.

AI 학습 데이터의 투명성 부족은 심각한 영향을 미친다. Google 및 Bing과 같은 회사가 콘텐츠 제공업체의 허가 없이 콘텐츠를 대체할 때 저널리즘을 계속하기가 어렵다. 이는 콘텐츠 생성의 미래와 AI의 역할에 대한 질문을 제기한다.

선례 및 영향

케이블 회사 Cox의 대법원 승리는 ISP뿐만 아니라 모든 기술 제공업체가 저작권 소송에 맞서 싸우는 데 도움이 될 수 있다. 플로리다 주 검사는 유사한 근거로 ChatGPT에 대한 조사를 시작했다.

AI 저작권 침해의 결과는 이미 콘텐츠 제작자에게 파괴적이다. AI 기반 검색 결과 및 콘텐츠 생성의 증가는 많은 미디어 아울렛의 트래픽 및 수익 감소로 이어졌다. 이는 전체 미디어 산업에 광범위한 영향을 미칠 수 있다.

저작권 침해 소송의 역사

최근 몇 년 동안 기술 회사에 대한 저작권 침해 소송이 여러 차례 있었다. 예를 들어, Meta에 대한 소송은 회사가 테라바이트 단위의 데이터를 다운로드하는 전략의 일환으로 ‘적어도 2,396편의 영화’를 ‘고의적이고 의도적으로’ 침해했다고 주장한다. 또 다른 Meta에 대한 소송은 회사가 미성년자에게 포르노를 제공할 수도 있고 AI 학습을 위해 해적질을 숨길 수도 있다고 주장한다.

이러한 사례는 AI 개발에서 저작권 침해 및 공정 사용에 대한 명확한 지침이 필요함을 강조한다. 현재 규제 및 감독의 부족은 기업이 결과에 대한 두려움 없이 AI 모델을 실험할 수 있는 환경을 조성했다.

기술적 메커니즘

GPT-4와 같은 대규모 언어 모델은 종종 웹에서 수집된 대규모 데이터세트로 학습된다. 이는 특히 저작권이 있는 자료와 관련하여 데이터의 소유권 및 사용에 대한 우려를 제기한다. 이러한 모델을 학습하는 과정에는 책, 기사 및 웹 사이트를 포함한 다양한 소스에서 데이터를 스크래핑하는 것이 포함된다. 이 데이터는 모델에게 인간과 같은 텍스트를 생성하도록 가르치는 데 사용된다.

AI 학습 데이터의 기술적 메커니즘은 복잡하지만 기본 아이디어는 AI 모델이 학습된 데이터의 패턴으로부터 학습한다는 것이다. 이는 학습 데이터가 편향되거나 불완전하거나 부정확한 경우 AI 모델이 이러한 결함을 반영한다는 것을 의미한다.

산업 컨텍스트

생성형 AI의 급속한 성장으로 인해 학습 데이터의 윤리에 대한 의문이 제기되고 있다. AI 모델이 더욱 보편화됨에 따라 저작권 침해 및 공정 사용에 대한 명확한 지침의 필요성이 점점 더 중요해질 것이다. 산업은 여전히 초기 단계에 있으며 학습 데이터에 대한 표준화가 부족하다.

현재 AI 학습 데이터의 상태는 인터넷 초기와 유사하다. 회사들은 온라인 콘텐츠를 사용하고 규제하는 방법을 여전히 파악하고 있었다. 그러나 현재는 AI 모델이 대중의 의견과 의사 결정을 형성할 가능성이 있기 때문에 위험이 더 높다.

하위 영향

다음 단계

AI 개발에서 투명성 및 책임성의 필요성이 그 어느 때보다 커졌다. 생성형 AI의 사용이 더욱 널리 보급됨에 따라 이러한 모델이 윤리적으로 수집된 데이터로 학습되는지 확인하는 것이 중요하다.

AI 개발의 미래는 그것에 달려 있다.

전진하는 길

궁극적으로 목표는 윤리적으로 수집된 데이터로 학습된 AI 모델을 만들고 콘텐츠 제작자가 자신의 작업에 대해 공정하게 보상받는 미래를 만드는 것이다. 이는 AI 개발 및 콘텐츠 제작자의 역할에 대한 우리의 사고방식에서 근본적인 변화를 필요로 한다.