18 C
Marrakech
lundi, novembre 3, 2025
spot_img

ذات صلة

جمع

البرلمان يعقد جلسة مشتركة لمناقشة قرار مجلس الأمن حول الصحراء المغربية

يعقد مجلسا البرلمان، النواب والمستشارين، يوم الاثنين 3 نونبر...

قرار 2797.. محطة تاريخية في قضية الصحراء المغربية

أكد وزير الشؤون الخارجية والتعاون الإفريقي والمغاربة المقيمين...

الجزائر أكثر عزلة من أي وقت مضى بعد القرار الجديد للأمم المتحدة

اعتماد قرار مجلس الأمن رقم 2797 بالأغلبية حول...

الصحراء المغربية: فرحة عارمة في الرشيدية بعد القرار التاريخي لمجلس الأمن الدولي

عاشت مدينة الرشيدية مساء الجمعة أجواء من الفرح والفخر...

شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟

في السنوات الأخيرة، أصبحت البيانات مصدرًا حيويًا لتدريب نماذج الذكاء الاصطناعي، وبرزت مشكلة نقص البيانات كعقبة رئيسية أمام تطوير هذه التقنيات. في نهاية عام 2021، واجهت شركة أوبن إيه آي أزمة في تأمين كميات كافية من النصوص الإنجليزية لتدريب أنظمة الذكاء الاصطناعي الخاصة بها، ما دفعها إلى ابتكار حلول غير تقليدية.

استراتيجيات البحث عن البيانات

  1. أداة « ويسبر » من أوبن إيه آي:
    • لتجاوز نقص البيانات، طورت شركة أوبن إيه آي أداة تعرف بـ »ويسبر » (Whisper) التي تقوم بنسخ الأصوات من مقاطع فيديو يوتيوب، مما يوفر نصوصًا جديدة يمكن استخدامها في تدريب نماذج الذكاء الاصطناعي مثل « جي بي تي-4 ».
    • ولكن، هذا النهج أثار تساؤلات حول انتهاك سياسات يوتيوب التي تحظر استخدام مقاطع الفيديو في تطبيقات أخرى.
  2. تجاوز السياسات والقوانين:
    • العديد من شركات التقنية الكبرى مثل غوغل وميتا واجهت تحديات مماثلة. على سبيل المثال، استفادت غوغل من محتوى مقاطع الفيديو على يوتيوب لتدريب نماذجها، وهو ما قد ينتهك حقوق النشر.
    • في شركة ميتا، تم النظر في جمع بيانات محمية بحقوق الطبع والنشر من الإنترنت، مما يثير مخاوف قانونية، إذ قد يواجهون دعاوى قضائية بشأن هذه الممارسات.

أهمية البيانات للذكاء الاصطناعي

  • حجم البيانات:
    • يتطلب تطوير نماذج الذكاء الاصطناعي القوية كمية هائلة من البيانات. مثلاً، « شات جي بي تي » تم تدريبه على ما يصل إلى 3 تريليونات كلمة، مما يوازي ضعف عدد الكلمات المخزنة في مكتبة بودلي بجامعة أكسفورد.
    • الدراسات مثل التي قام بها جاريد كابلان تؤكد أن زيادة كمية البيانات المحفوظة تؤدي إلى تحسين أداء النماذج اللغوية الكبيرة.
  • نوعية البيانات:
    • البيانات فائقة الجودة، مثل الكتب والمقالات المحررة بعناية، تعتبر أكثر قيمة. فهي تساعد النماذج على تحديد الأنماط بدقة وتكون أكثر فاعلية في إنتاج النصوص والمحتوى الذي يشبه ما ينتجه الإنسان.

التحديات المستقبلية

  • توافر البيانات:
    • مع تطور النماذج وتعقيداتها، قد يصبح العثور على بيانات جديدة وصالحة أكثر صعوبة. تحتاج الشركات إلى البحث عن مصادر جديدة وتطوير طرق بديلة لجمع البيانات دون انتهاك الحقوق أو السياسات.
  • التوازن بين الابتكار والامتثال:
    • على الشركات إيجاد توازن بين الابتكار واستخدام البيانات بطرق تتماشى مع القوانين واللوائح. قد يتطلب ذلك التفاوض مع الناشرين والحقوقيين، واستخدام تقنيات مثل التخصيص الذكي للبيانات لضمان الامتثال القانوني.
spot_img