شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟

في السنوات الأخيرة، أصبحت البيانات مصدرًا حيويًا لتدريب نماذج الذكاء الاصطناعي، وبرزت مشكلة نقص البيانات كعقبة رئيسية أمام تطوير هذه التقنيات. في نهاية عام 2021، واجهت شركة أوبن إيه آي أزمة في تأمين كميات كافية من النصوص الإنجليزية لتدريب أنظمة الذكاء الاصطناعي الخاصة بها، ما دفعها إلى ابتكار حلول غير تقليدية.

استراتيجيات البحث عن البيانات

أداة « ويسبر » من أوبن إيه آي:
- لتجاوز نقص البيانات، طورت شركة أوبن إيه آي أداة تعرف بـ »ويسبر » (Whisper) التي تقوم بنسخ الأصوات من مقاطع فيديو يوتيوب، مما يوفر نصوصًا جديدة يمكن استخدامها في تدريب نماذج الذكاء الاصطناعي مثل « جي بي تي-4 ».
- ولكن، هذا النهج أثار تساؤلات حول انتهاك سياسات يوتيوب التي تحظر استخدام مقاطع الفيديو في تطبيقات أخرى.
تجاوز السياسات والقوانين:
- العديد من شركات التقنية الكبرى مثل غوغل وميتا واجهت تحديات مماثلة. على سبيل المثال، استفادت غوغل من محتوى مقاطع الفيديو على يوتيوب لتدريب نماذجها، وهو ما قد ينتهك حقوق النشر.
- في شركة ميتا، تم النظر في جمع بيانات محمية بحقوق الطبع والنشر من الإنترنت، مما يثير مخاوف قانونية، إذ قد يواجهون دعاوى قضائية بشأن هذه الممارسات.

أهمية البيانات للذكاء الاصطناعي

حجم البيانات:
- يتطلب تطوير نماذج الذكاء الاصطناعي القوية كمية هائلة من البيانات. مثلاً، « شات جي بي تي » تم تدريبه على ما يصل إلى 3 تريليونات كلمة، مما يوازي ضعف عدد الكلمات المخزنة في مكتبة بودلي بجامعة أكسفورد.
- الدراسات مثل التي قام بها جاريد كابلان تؤكد أن زيادة كمية البيانات المحفوظة تؤدي إلى تحسين أداء النماذج اللغوية الكبيرة.
نوعية البيانات:
- البيانات فائقة الجودة، مثل الكتب والمقالات المحررة بعناية، تعتبر أكثر قيمة. فهي تساعد النماذج على تحديد الأنماط بدقة وتكون أكثر فاعلية في إنتاج النصوص والمحتوى الذي يشبه ما ينتجه الإنسان.

التحديات المستقبلية

توافر البيانات:
- مع تطور النماذج وتعقيداتها، قد يصبح العثور على بيانات جديدة وصالحة أكثر صعوبة. تحتاج الشركات إلى البحث عن مصادر جديدة وتطوير طرق بديلة لجمع البيانات دون انتهاك الحقوق أو السياسات.
التوازن بين الابتكار والامتثال:
- على الشركات إيجاد توازن بين الابتكار واستخدام البيانات بطرق تتماشى مع القوانين واللوائح. قد يتطلب ذلك التفاوض مع الناشرين والحقوقيين، واستخدام تقنيات مثل التخصيص الذكي للبيانات لضمان الامتثال القانوني.

ذات صلة

جمع

شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟

استراتيجيات البحث عن البيانات

أهمية البيانات للذكاء الاصطناعي

التحديات المستقبلية

قائمة

الأكثر شهرة

أحدث المقالات