Gemini Embedding 2.. خطوة جديدة من جوجل لتطوير الذكاء الاصطناعي متعدد الوسائط
جيميني إمبيدينج 2
أطلقت شركة جوجل أول نموذج تضمين متعدد الوسائط بالكامل، أطلقت عليه اسم "جيميني إمبيدينج 2"، وهو نموذج ذكاء اصطناعي يدمج النصوص والصور والصوت والفيديوهات في فضاء تضمين موحد، وهذا يعني أنه يستخدم بنية لفهم المفاهيم سواءً كانت مكتوبة أو منطوقة أو معروضة في صورة أو فيديو.
أول نموذج تضمين متعدد الوسائط من جوجل متوفر الآن
شرحت عملاقة التكنولوجيا بالتفصيل نموذج الذكاء الاصطناعي الجديد، حيث يُعد هذا النموذج خليفةً لنموذج تضمين النصوص فقط الذي أُطلق العام الماضي، وهو قادر على استخلاص المعنى الدلالي لأكثر من 100 لغة، كما يتوفر Gemini Embedding 2 حاليًا في معاينة عامة عبر واجهة برمجة تطبيقات Gemini (API) ومنصة Vertex AI، وذلك وفقا لموقع gadgets360 التقني.

تحتوي نماذج الذكاء الاصطناعي عادةً على خزائن ملفات رقمية مختلفة لتخزين النصوص والصور والفيديوهات والملفات الصوتية، عندما يطلب المستخدم معلومات بتنسيق معين، يبدأ النموذج بالبحث في تلك الخزانة تحديدًا، عادةً، يتعامل نموذج التعلم الآلي مع كلمة "قطة" في مستند نصي وكلمة "قطة" في فيديو على أنهما شيئان مختلفان تمامًا، ما يزيد الأمر تعقيدًا، أن طريقة الحصول على المعلومات تختلف باختلاف كل تنسيق.
يحل نظام Gemini Embedding 2 هذه المشكلة من خلال إنشاء بنية جديدة تستخدم وحدة تخزين واحدة فقط لجميع أنواع المعلومات، وهذا يمكنه من معالجة المستندات التي تحتوي على نصوص وصور في آنٍ واحد، تمامًا كما يفعل البشر، وتؤكد جوجل أن هذا النظام الجديد يبسط "المسارات المعقدة ويحسن مجموعة واسعة من مهام المعالجة المتعددة الوسائط"، ومن بين هذه المهام: التوليد المُعزز بالاسترجاع (RAG)، والبحث الدلالي، وتحليل المشاعر، وتجميع البيانات.
قدرات نموذج Gemini Embedding 2
أما بالنسبة لقدرات نموذج الذكاء الاصطناعي، فهو يمتلك نافذة سياق نصي تصل إلى 8192 رمزًا إدخاليًا، كما يمكنه معالجة ما يصل إلى ست صور لكل طلب بصيغتي PNG وJPEG، ويدعم إدخال فيديو يصل إلى 120 ثانية بصيغتي MP4 وMOV، بالإضافة إلى ذلك، يمكنه معالجة البيانات الصوتية وتعيينها مباشرةً دون الحاجة إلى نسخ نصية، علاوة على ذلك، يمكنه أيضًا تضمين ملفات PDF يصل طولها إلى ست صفحات.
كما يستطيع النموذج فهم المدخلات المتداخلة، مما يسمح للمستخدمين بإرسال بيانات متعددة الوسائط (مثل النصوص والصور) في الطلب نفسه، وتؤكد جوجل أن هذه الميزة تمكن النموذج من فهم البيانات المعقدة والواقعية بدقة أكبر.
اقرأ أيضًا:
الأكثر قراءة
-
زوج يشعل النيران في زوجته لتفتيشها في هاتفه بالمطرية
-
استعد للتقديم.. 36 ألف وحدة سكنية جديدة لمحدودي ومتوسطي الدخل
-
مشروعات متعددة الاستخدامات.. تحالف مصري إماراتي لتطوير 500 فدان في القاهرة والدلتا
-
توجيه مهم من نائب رئيس الوزراء بشأن توفير الدولار.. ما التفاصيل؟
-
الأعلى منذ 2022.. البنك الدولي: أسعار الطاقة ستقفز 24%
-
نهاية 59 عامًا من التعاون.. خبير يوضح دلالات انسحاب الإمارات من أوبك
-
أزمة تخنق المزارعين.. أسعار اليوريا ترتفع 60% والأسمدة 31% خلال 2026
-
صندوق الإسكان: طرح مليون وحدة لمحدودي الدخل بمبادرة سكن لكل المصريين
أخبار ذات صلة
مدرسة "بي تك للتكنولوجيا التطبيقية".. دراسة مجانية ووظيفة مضمونة
29 أبريل 2026 04:00 م
يرصد الثغرات في ثوانٍ.. "ميثوس" سلاح سيبراني يهدد البنوك والطيران
28 أبريل 2026 11:57 ص
"ممنوع المرور".. قطة ذكية تمنعك من ضياع وقتك على "فيسبوك" و"إكس"
27 أبريل 2026 07:51 م
للمرة الأولى.. مصر تقتحم معرض "سوشي تك طوكيو 2026" بـ10 شركات ناشئة
27 أبريل 2026 03:58 م
من النفايات إلى الوقود.. اكتشاف مذهل يحول مياه الصرف الصحي إلى غاز طبيعي
26 أبريل 2026 01:56 ص
بالأرقام.. ماذا فعل 65 مليون مصري على الإنترنت في 24 ساعة؟
25 أبريل 2026 12:38 م
منتج مصري ينافس عالميًا.. "زيروتك" تحصد اعتماد "آبل" للمرة الأولى
25 أبريل 2026 02:10 م
الروبوت "إيس" يتفوق على لاعبي التنس.. كيف فاز بثلاث مباريات؟
24 أبريل 2026 06:23 م
أكثر الكلمات انتشاراً