
07/01/2025
أعلنت NVIDIA أمس في مؤتمر CES عن نموذج جديد باسم Cosmos، وهو نموذج مفتوح المصدر بالكامل وهو يُعتبر خطوة كبيرة للامام في مجال الذكاء الاصطناعي الفيزيائي (Physical AI) (هذه التقنية تدعم تطبيقات مثل الروبوتات، القيادة الذاتية)
تم تدريبه على 20 مليون ساعة من الفيديوهات ولتوضيح الحجم، 20 مليون ساعة تعادل مشاهدة يوتيوب 24/7 منذ عصر الإمبراطورية الرومانية حتى اليوم. توضيح الحجم بشكل آخر، 20 مليون ساعة تعادل مشاهدة فيديوهات يوتيوب بدون توقف، على مدار الساعة وطوال أيام الأسبوع، لمدة تزيد عن 2,280 عام تقريبا
تم جمع البيانات من مصادر مختلفة، تشمل فيديوهات مفتوحة المصدر وأخرى خاصة، وغطت الفئات التالية:
القيادة (11%)
حركة اليدين والتفاعل مع الأجسام (16%)
الحركة البشرية (10%)
الوعي المكاني والملاحة (16%)
منظور الشخص الأول (8%)
ديناميكيات الطبيعة (20%)
حركة الكاميرا الديناميكية (8%)
فيديوهات مصطنعة (4%)
أخرى (7%)
الفيديوهات جودتها تصل إلى 4K وهذه البيانات المتنوعة تُحسن قدرة النموذج على التعميم والتعامل مع مهام متعددة، مما يجعلها ذات قيمة عالية لتطوير تطبيقات الذكاء الاصطناعي الفيزيائي
يمثل هذا النموذج نقلة في الذكاء الاصطناعي الفيزيائي، مع تطبيقات تشمل تحسين تفاعل الروبوتات، تعزيز أمان وكفاءة أنظمة القيادة الذاتية (مثل تسلا)، تحليل الفيديوهات للتطبيقات الأمنية، وإنشاء محاكاة متقدمة لتدريب الأنظمة الذكية
تفاصيل اكثر:
المقالة: developer.nvidia.com/blog/advancing…
التقرير العلمي:
d1qx31qr3h6wln.cloudfront.net/publications/N…
الكود البرمجي:
github.com/NVIDIA/Cosmos
النماذج المدربة:
huggingface.co/collections/nv…