كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص بك

يحصل ChatGPT على حق الوصول إلى محتوى موقع الويب للتعلم منه. هذه هي طريقة منع المحتوى الخاص بك من أن يصبح بيانات تدريب الذكاء الاصطناعي.

كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص بك

كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص بك

هناك قلق بشأن عدم وجود طريقة سهلة لإلغاء الاشتراك في استخدام محتوى الفرد لتدريب نماذج اللغة الكبيرة (LLMs) مثل ChatGPT. هناك طريقة للقيام بذلك ، لكنها ليست مباشرة ولا مضمونة للعمل.

 لمنع ChatGPT من استخدام محتوى موقع الويب الخاص بك، يمكنك استخدام بعض الأساليب المختلفة التي تتضمن:

1- استخدام robots.txt: يمكنك استخدام ملف robots.txt لمنع ChatGPT وغيره من الروبوتات الأخرى من زيارة صفحات محددة على موقعك. يجب عليك إنشاء ملف robots.txt في مجلد الجذر الخاص بموقعك وتحديد الصفحات التي تريد حظر الوصول إليها.

2- استخدام علامة noindex: يمكنك أيضًا استخدام علامة noindex في صفحاتك لمنع محركات البحث والأنظمة الأخرى من فهرسة صفحات معينة. وعندما لا يتم فهرسة صفحة معينة، فإنه يمكن منع ChatGPT من الوصول إليها.

3- استخدام CAPTCHA: يمكنك استخدام CAPTCHA على صفحات الموقع الخاص بك للتحقق من هوية الزوار، وبالتالي، يمكن منع ChatGPT من الوصول إلى محتوى موقعك.

4- الاتصال بصاحب الموقع: إذا كان ChatGPT يستخدم محتوى موقعك دون إذنك، فيمكنك الاتصال بصاحب الموقع وطلب منه إيقاف استخدام ChatGPT لمحتوى موقعك.

يمكن استخدام هذه الأساليب لمنع ChatGPT من استخدام محتوى موقعك، ولكن يجب الانتباه إلى أن بعض هذه الأساليب قد لا تكون فعالة بشكل كامل، حيث أن ChatGPT قد يتمكن من الوصول إلى محتوى موقعك بطرق أخرى.

كيف يتعلم الذكاء الاصطناعي من المحتوى الخاص بك

يتم تدريب نماذج اللغة الكبيرة (LLMs) على البيانات التي تنشأ من مصادر متعددة. العديد من مجموعات البيانات هذه مفتوحة المصدر وتستخدم بحرية لتدريب الذكاء الاصطناعي.

بشكل عام ، تستخدم نماذج اللغات الكبيرة مجموعة متنوعة من المصادر للتدريب منها.

أمثلة على أنواع المصادر المستخدمة:

  • ويكيبيديا
  • سجلات المحاكم الحكومية
  • الكتب
  • البريد الإلكتروني
  • مواقع الويب التي تم الزحف إليها

هناك بالفعل بوابات ومواقع ويب تقدم مجموعات بيانات تقدم كميات هائلة من المعلومات.

تستضيف أمازون إحدى البوابات ، وتقدم الآلاف من مجموعات البيانات في سجل البيانات المفتوحة على AWS.

كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص
 شاشة من أمازون ، يناير 2023

بوابة Amazon التي تحتوي على آلاف مجموعات البيانات هي بوابة واحدة فقط من بين العديد من بوابات البيانات الأخرى التي تحتوي على المزيد من مجموعات البيانات.

تسرد ويكيبيديا 28 بوابة لتنزيل مجموعات البيانات ، بما في ذلك مجموعة بيانات Google وبوابات Hugging Face للعثور على آلاف مجموعات البيانات.


مجموعات البيانات المستخدمة لتدريب ChatGPT

يعتمد ChatGPT على GPT-3.5 ، المعروف أيضا باسم InstructGPT.

مجموعات البيانات المستخدمة لتدريب GPT-3.5 هي نفسها المستخدمة في GPT-3. الفرق الرئيسي بين الاثنين هو أن GPT-3.5 استخدم تقنية تعرف باسم التعلم المعزز من ردود الفعل البشرية (RLHF).

تم وصف مجموعات البيانات الخمس المستخدمة لتدريب GPT-3 (و GPT-3.5) في الصفحة 9 من الورقة البحثية ، نماذج اللغة هي متعلمون قليلو الطلقات (PDF)

مجموعات البيانات هي:

  1. الزحف المشترك (تمت تصفيته)
  2. نص الويب
  3. كتب
  4. ويكيبيديا 

من بين مجموعات البيانات الخمس ، المجموعتان اللتان تستندان إلى زحف الإنترنت هما:

  • الزحف المشترك
  • نص الويب

حول مجموعة بيانات WebText2

WebText2 هي مجموعة بيانات OpenAI خاصة تم إنشاؤها عن طريق الزحف إلى الروابط من Reddit التي حصلت على ثلاثة أصوات مؤيدة.

الفكرة هي أن عناوين URL هذه جديرة بالثقة وستحتوي على محتوى عالي الجودة.

WebText2 هو نسخة موسعة من مجموعة بيانات WebText الأصلية التي طورتها OpenAI.

تحتوي مجموعة بيانات WebText الأصلية على حوالي 15 مليار رمز. تم استخدام WebText لتدريب GPT-2.

WebText2 أكبر قليلا عند 19 مليار رمز. WebText2 هو ما تم استخدامه لتدريب GPT-3 و GPT-3.5

أوبن ويب تكست 2 WebText2

WebText2 (الذي تم إنشاؤه بواسطة OpenAI) غير متاح للجمهور.

ومع ذلك ، هناك نسخة مفتوحة المصدر متاحة للجمهور تسمى OpenWebText2. OpenWebText2 هي مجموعة بيانات عامة تم إنشاؤها باستخدام نفس أنماط الزحف التي من المفترض أن تقدم مجموعة بيانات مماثلة ، إن لم تكن هي نفسها ، لعناوين URL مثل OpenAI WebText2.

أذكر هذا فقط في حالة رغبة شخص ما في معرفة ما هو موجود في WebText2. يمكن للمرء تنزيل OpenWebText2 للحصول على فكرة عن عناوين URL الموجودة فيه.

يمكن تنزيل نسخة نظيفة من OpenWebText2 هنا. النسخة الأولية من OpenWebText2 متاحة هنا.

لم أتمكن من العثور على معلومات حول وكيل المستخدم المستخدم لأي من الزاحف ، ربما تم تحديده فقط على أنه Python ، لست متأكدا.

على حد علمي ، لا يوجد وكيل مستخدم لحظره ، على الرغم من أنني لست متأكدا بنسبة 100٪.

ومع ذلك ، فإننا نعلم أنه إذا كان موقعك مرتبطا من Reddit بثلاثة أصوات مؤيدة على الأقل ، فهناك فرصة جيدة لأن يكون موقعك في كل من مجموعة بيانات OpenAI WebText2 مغلقة المصدر والإصدار مفتوح المصدر منه ، OpenWebText2.

الزحف المشترك

واحدة من مجموعات البيانات الأكثر استخداما التي تتكون من محتوى الإنترنت هي مجموعة بيانات Common Crawl التي تم إنشاؤها بواسطة منظمة غير ربحية تسمى Common Crawl.

تأتي بيانات الزحف الشائعة من برنامج تتبع يزحف إلى الإنترنت بالكامل.

يتم تنزيل البيانات من قبل المنظمات التي ترغب في استخدام البيانات ثم تنظيفها من المواقع غير المرغوب فيها ، إلخ.

اسم روبوت الزحف المشترك هو CCBot.

يطيع CCBot بروتوكول robots.txt ، لذا من الممكن حظر الزحف المشترك باستخدام برامج robots.txt ومنع بيانات موقع الويب الخاص بك من تحويلها إلى مجموعة بيانات أخرى.

ومع ذلك ، إذا تم الزحف إلى موقعك بالفعل ، فمن المحتمل أنه تم تضمينه بالفعل في مجموعات بيانات متعددة.

ومع ذلك ، من خلال حظر Common Crawl ، من الممكن إلغاء تضمين محتوى موقع الويب الخاص بك في مجموعات البيانات الجديدة التي تم الحصول عليها من مجموعات بيانات Common Crawl الأحدث.

هذا ما قصدته في بداية المقال عندما كتبت أن العملية "ليست مباشرة ولا مضمونة للعمل".

سلسلة CCBot وكيل المستخدم هي:

CCBot/2.0

أضف ما يلي إلى ملف برامج robots.txt لحظر برنامج تتبع الزحف المشترك:

User-agent: CCBot

Disallow: /

هناك طريقة إضافية للتأكد مما إذا كان وكيل مستخدم CCBot شرعيا وهي أنه يزحف من عناوين IP الخاصة ب Amazon AWS.

يطيع CCBot أيضا توجيهات العلامة الوصفية لروبوتات nofollow.

استخدم هذا في العلامة الوصفية لبرامج الروبوت:

<meta name="CCBot" content="nofollow">

اعتبار قبل حظر أي روبوتات

يمكن استخدام العديد من مجموعات البيانات ، بما في ذلك Common Crawl ، من قبل الشركات التي تقوم بتصفية عناوين URL وتصنيفها من أجل إنشاء قوائم بمواقع الويب لاستهدافها بالإعلانات.

على سبيل المثال ، تقدم شركة تدعى Alpha Quantum مجموعة بيانات من عناوين URL المصنفة باستخدام تصنيف مكتب الإعلان التفاعلي. مجموعة البيانات مفيدة لتسويق AdTech والإعلان السياقي. قد يؤدي الاستبعاد من قاعدة بيانات كهذه إلى فقدان الناشر للمعلنين المحتملين.

حظر الذكاء الاصطناعي من استخدام المحتوى الخاص بك

تسمح محركات البحث لمواقع الويب بإلغاء الاشتراك في الزحف إليها. يسمح الزحف المشترك أيضا بالإيقاف. ولكن لا توجد حاليا طريقة لإزالة محتوى موقع الويب الخاص بك من مجموعات البيانات الموجودة.

علاوة على ذلك ، لا يبدو أن علماء الأبحاث يقدمون لناشري مواقع الويب طريقة لإلغاء الاشتراك في الزحف إليهم.

قد يقدر العديد من الناشرين ذلك إذا تم منحهم في المستقبل القريب مزيدا من الرأي حول كيفية استخدام المحتوى الخاص بهم ، خاصة من خلال منتجات الذكاء الاصطناعي مثل ChatGPT.

تعليقات