تزايد دعاوى انتهاك حقوق النشر ضد الذكاء الاصطناعي

تصاعد دعاوى انتهاك حقوق النشر ضد الذكاء الاصطناعي

رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة OpenAI بتهمة انتهاك حقوق النشر، متهمةً الشركة ببناء نماذجها اللغوية الكبيرة (LLMs) باستخدام محتوى تايمز دون إذن. هذه الدعوى ليست سوى أحدث سلسلة من الحالات التي تسلط الضوء على المخاوف بشأن بيانات تدريب الذكاء الاصطناعي.

تدعي نيويورك تايمز أن نماذج OpenAI اللغوية الكبيرة، بما في ذلك GPT-4، تم تدريبها على مجموعة بيانات تسمى Common Crawl، والتي تحتوي على ما لا يقل عن 16 مليون سجل فريد من محتوى تايمز. تشير الدعوى إلى حالات حيث كررت GPT-4 وميزة Browse with Bing محتوى حرفيًا من مقالات تايمز.

مشكلة بيانات تدريب الذكاء الاصطناعي

هذه الدعوى لا يجب أن تكون مفاجئة لمن يتبعون تصاعد الذكاء الاصطناعي التوليدي. ركز المستهلكون والإعلام على تصنيع المنتجات التكنولوجية المادية، ولكن الآن يجب أن نسأل شركات الذكاء الاصطناعي عن بيانات التدريب الخاصة بهم. الجواب من المرجح أن يكون “لا”، فهي ليست مصدرًا أخلاقيًا.

استخدام الذكاء الاصطناعي التوليدي اليوم هو مثل الشراء من محل رهن مشبوه. قد تكون السلع، أو بيانات التدريب، مبيعات شرعية من المالك، أو سلعًا عالية الجودة تمت سرقتها من متجر، أو سلعًا رديئة تمت سرقتها من مستودع مليء بالمنتجات المقلدة.

السوابق والتداعيات

فوز شركة Cox في المحكمة العليا قد يساعد جميع مقدمي الخدمات التكنولوجية، وليس فقط مقدمي خدمات الإنترنت، في معاركهم ضد دعاوى انتهاك حقوق النشر. فتح المدعي العام لولاية فلوريدا أيضًا تحقيقًا في ChatGPT على أسس مشابهة.

الآثار المترتبة على انتهاك حقوق النشر

التداعيات المترتبة على انتهاك حقوق النشر بالفعل مدمرة لمبدعي المحتوى. أدى تصاعد نتائج البحث المدعومة بالذكاء الاصطناعي وتوليد المحتوى إلى انخفاض حركة المرور والإيرادات للعديد من وسائل الإعلام. هذا قد يكون له تداعيات بعيدة المدى لصناعة الإعلام ككل.

تاريخ دعاوى انتهاك حقوق النشر

في السنوات الأخيرة، كانت هناك عدة حالات بارزة لدعاوى انتهاك حقوق النشر ضد الشركات التكنولوجية. على سبيل المثال، تشير دعوى قضائية ضد Meta إلى أن الشركة “تعمدت وسرت عمدًا” انتهكت “ما لا يقل عن 2396 فيلمًا” كجزء من استراتيجية لتنزيل تيرابايت من البيانات. تشير دعوى أخرى ضد Meta إلى أن الشركة ربما تكون قد بثت مواد إباحية للقاصرين بينما أخفت القرصنة لتدريب الذكاء الاصطناعي.

الآليات الفنية

يتم تدريب النماذج اللغوية الكبيرة مثل GPT-4 على مجموعات بيانات ضخمة، غالبًا ما يتم الحصول عليها من الويب. هذا يثير مخاوف بشأن ملكية واستخدام هذه البيانات، خاصة عندما يتعلق الأمر بالمواد المحمية بحقوق النشر. تتضمن عملية تدريب هذه النماذج استخراج البيانات من مصادر مختلفة، بما في ذلك الكتب والمقالات والمواقع الإلكترونية. ثم يتم استخدام هذه البيانات لتعليم النموذج على إنشاء نص يشبه الإنسان.

السياق الصناعي

أثار التصاعد السريع للذكاء الاصطناعي التوليدي أسئلة حول أخلاقيات بيانات التدريب. مع زيادة انتشار نماذج الذكاء الاصطناعي، ستصبح الحاجة إلى مبادئ توجيهية واضحة بشأن انتهاك حقوق النشر والاستخدام العادل أكثر أهمية. لا تزال الصناعة في مراحلها الأولى، وهناك نقص في التوحيد القياسي عندما يتعلق الأمر ببيانات التدريب.

التداعيات المستقبلية

ستشكل نتيجة هذه الدعاوى القضائية مستقبل تطوير الذكاء الاصطناعي وقانون حقوق النشر. إذا لم يتم محاسبة شركات الذكاء الاصطناعي على بيانات التدريب الخاصة بهم، فقد يؤدي ذلك إلى فقدان الثقة في الصناعة ككل.

ما القادم؟

من المرجح أن تشكل الدعاوى القضائية التي رفعتها نيويورك تايمز وStrike 3 Holdings ضد OpenAI وMeta، على التوالي، سابقة للحالات المستقبلية. مع استمرار تطور الصناعة، من الضروري معالجة المخاوف بشأن بيانات تدريب الذكاء الاصطناعي وانتهاك حقوق النشر.

الطريق إلى الأمام

سيتطلب الطريق إلى الأمام تعاونًا بين مطوري الذكاء الاصطناعي ومبدعي المحتوى والمنظمين. نحتاج إلى إنشاء مبادئ توجيهية واضحة بشأن انتهاك حقوق النشر والاستخدام العادل في تطوير الذكاء الاصطناعي. نحتاج أيضًا إلى ضمان أن تكون شركات الذكاء الاصطناعي شفافة بشأن بيانات التدريب وأن يتم محاسبتهم على أي انتهاك لحقوق النشر.

في النهاية، الهدف هو إنشاء مستقبل يتم فيه تدريب نماذج الذكاء الاصطناعي على بيانات مصدرها أخلاقي، ويتم تعويض مبدعي المحتوى بشكل عادل عن عملهم. هذا يتطلب تحولًا أساسيًا في كيفية تفكيرنا في تطوير الذكاء الاصطناعي ودور مبدعي المحتوى فيه.