34 C
Marrakech
mardi, juillet 1, 2025
spot_img

ذات صلة

جمع

السياحة الصيفية في المغرب بين الخيبة والفوضى

مع حلول فصل الصيف، تأمل العديد من الأسر المغربية...

الجزائر: الحكم بالسجن على بوعلام صنصال

أيدت محكمة الاستئناف في الجزائر العاصمة، يوم الثلاثاء 1...

كأس العالم للأندية: بونو يقصي مانشستر سيتي ويأهل الهلال

قدم الحارس المغربي ياسين بونو أداءً بطوليًا، حيث منح...

أمازون: الذكاء الاصطناعي سيقلص بعض الوظائف لكنه يفتح آفاقًا جديدة

تحول حتمي في سوق العمل صرّح الرئيس التنفيذي لشركة أمازون،...

المغرب يستعد للاستحقاقات القارية مع اللجنة الاقتصادية

في إطار رئاسة المغرب لمكتب لجنة وزراء المالية والتخطيط...

شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟

في السنوات الأخيرة، أصبحت البيانات مصدرًا حيويًا لتدريب نماذج الذكاء الاصطناعي، وبرزت مشكلة نقص البيانات كعقبة رئيسية أمام تطوير هذه التقنيات. في نهاية عام 2021، واجهت شركة أوبن إيه آي أزمة في تأمين كميات كافية من النصوص الإنجليزية لتدريب أنظمة الذكاء الاصطناعي الخاصة بها، ما دفعها إلى ابتكار حلول غير تقليدية.

استراتيجيات البحث عن البيانات

  1. أداة “ويسبر” من أوبن إيه آي:
    • لتجاوز نقص البيانات، طورت شركة أوبن إيه آي أداة تعرف بـ”ويسبر” (Whisper) التي تقوم بنسخ الأصوات من مقاطع فيديو يوتيوب، مما يوفر نصوصًا جديدة يمكن استخدامها في تدريب نماذج الذكاء الاصطناعي مثل “جي بي تي-4”.
    • ولكن، هذا النهج أثار تساؤلات حول انتهاك سياسات يوتيوب التي تحظر استخدام مقاطع الفيديو في تطبيقات أخرى.
  2. تجاوز السياسات والقوانين:
    • العديد من شركات التقنية الكبرى مثل غوغل وميتا واجهت تحديات مماثلة. على سبيل المثال، استفادت غوغل من محتوى مقاطع الفيديو على يوتيوب لتدريب نماذجها، وهو ما قد ينتهك حقوق النشر.
    • في شركة ميتا، تم النظر في جمع بيانات محمية بحقوق الطبع والنشر من الإنترنت، مما يثير مخاوف قانونية، إذ قد يواجهون دعاوى قضائية بشأن هذه الممارسات.

أهمية البيانات للذكاء الاصطناعي

  • حجم البيانات:
    • يتطلب تطوير نماذج الذكاء الاصطناعي القوية كمية هائلة من البيانات. مثلاً، “شات جي بي تي” تم تدريبه على ما يصل إلى 3 تريليونات كلمة، مما يوازي ضعف عدد الكلمات المخزنة في مكتبة بودلي بجامعة أكسفورد.
    • الدراسات مثل التي قام بها جاريد كابلان تؤكد أن زيادة كمية البيانات المحفوظة تؤدي إلى تحسين أداء النماذج اللغوية الكبيرة.
  • نوعية البيانات:
    • البيانات فائقة الجودة، مثل الكتب والمقالات المحررة بعناية، تعتبر أكثر قيمة. فهي تساعد النماذج على تحديد الأنماط بدقة وتكون أكثر فاعلية في إنتاج النصوص والمحتوى الذي يشبه ما ينتجه الإنسان.

التحديات المستقبلية

  • توافر البيانات:
    • مع تطور النماذج وتعقيداتها، قد يصبح العثور على بيانات جديدة وصالحة أكثر صعوبة. تحتاج الشركات إلى البحث عن مصادر جديدة وتطوير طرق بديلة لجمع البيانات دون انتهاك الحقوق أو السياسات.
  • التوازن بين الابتكار والامتثال:
    • على الشركات إيجاد توازن بين الابتكار واستخدام البيانات بطرق تتماشى مع القوانين واللوائح. قد يتطلب ذلك التفاوض مع الناشرين والحقوقيين، واستخدام تقنيات مثل التخصيص الذكي للبيانات لضمان الامتثال القانوني.
spot_img