18 C
Marrakech
samedi, novembre 1, 2025
spot_img

ذات صلة

جمع

تدفّقات كبيرة نحو صناديق النقد والأسهم وسط سحب قياسي للذهب

شهد الأسبوع المنتهي في 29 أكتوبر 2025 استثمارات كبيرة...

المغرب يشهد دينامية تشريعية ومؤسساتية لتعزيز تماسك الأسرة

أكدت نائبة وزير التضامن والإدماج الاجتماعي والأسرة، ناعمة...

بروكسيل: القنصلية المغربية تحتفل بأبطال العالم دون 20 سنة

نظمت القنصلية العامة للمغرب في بروكسيل مساء الخميس حفلاً...

وفاة رضيع داخل حضانة واستدعاء السلطات للتحقيق

توفي رضيع يبلغ من العمر ثمانية أشهر مؤخراً داخل...

الدار البيضاء: توقيف شخصين متورطين في أعمال عنف مرتبطة بالشغب الرياضي

تمكنت عناصر المصلحة الولائية للشرطة القضائية بالدار البيضاء، صباح...

شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟

في السنوات الأخيرة، أصبحت البيانات مصدرًا حيويًا لتدريب نماذج الذكاء الاصطناعي، وبرزت مشكلة نقص البيانات كعقبة رئيسية أمام تطوير هذه التقنيات. في نهاية عام 2021، واجهت شركة أوبن إيه آي أزمة في تأمين كميات كافية من النصوص الإنجليزية لتدريب أنظمة الذكاء الاصطناعي الخاصة بها، ما دفعها إلى ابتكار حلول غير تقليدية.

استراتيجيات البحث عن البيانات

  1. أداة « ويسبر » من أوبن إيه آي:
    • لتجاوز نقص البيانات، طورت شركة أوبن إيه آي أداة تعرف بـ »ويسبر » (Whisper) التي تقوم بنسخ الأصوات من مقاطع فيديو يوتيوب، مما يوفر نصوصًا جديدة يمكن استخدامها في تدريب نماذج الذكاء الاصطناعي مثل « جي بي تي-4 ».
    • ولكن، هذا النهج أثار تساؤلات حول انتهاك سياسات يوتيوب التي تحظر استخدام مقاطع الفيديو في تطبيقات أخرى.
  2. تجاوز السياسات والقوانين:
    • العديد من شركات التقنية الكبرى مثل غوغل وميتا واجهت تحديات مماثلة. على سبيل المثال، استفادت غوغل من محتوى مقاطع الفيديو على يوتيوب لتدريب نماذجها، وهو ما قد ينتهك حقوق النشر.
    • في شركة ميتا، تم النظر في جمع بيانات محمية بحقوق الطبع والنشر من الإنترنت، مما يثير مخاوف قانونية، إذ قد يواجهون دعاوى قضائية بشأن هذه الممارسات.

أهمية البيانات للذكاء الاصطناعي

  • حجم البيانات:
    • يتطلب تطوير نماذج الذكاء الاصطناعي القوية كمية هائلة من البيانات. مثلاً، « شات جي بي تي » تم تدريبه على ما يصل إلى 3 تريليونات كلمة، مما يوازي ضعف عدد الكلمات المخزنة في مكتبة بودلي بجامعة أكسفورد.
    • الدراسات مثل التي قام بها جاريد كابلان تؤكد أن زيادة كمية البيانات المحفوظة تؤدي إلى تحسين أداء النماذج اللغوية الكبيرة.
  • نوعية البيانات:
    • البيانات فائقة الجودة، مثل الكتب والمقالات المحررة بعناية، تعتبر أكثر قيمة. فهي تساعد النماذج على تحديد الأنماط بدقة وتكون أكثر فاعلية في إنتاج النصوص والمحتوى الذي يشبه ما ينتجه الإنسان.

التحديات المستقبلية

  • توافر البيانات:
    • مع تطور النماذج وتعقيداتها، قد يصبح العثور على بيانات جديدة وصالحة أكثر صعوبة. تحتاج الشركات إلى البحث عن مصادر جديدة وتطوير طرق بديلة لجمع البيانات دون انتهاك الحقوق أو السياسات.
  • التوازن بين الابتكار والامتثال:
    • على الشركات إيجاد توازن بين الابتكار واستخدام البيانات بطرق تتماشى مع القوانين واللوائح. قد يتطلب ذلك التفاوض مع الناشرين والحقوقيين، واستخدام تقنيات مثل التخصيص الذكي للبيانات لضمان الامتثال القانوني.
spot_img