Gemini Embedding 2.. خطوة جديدة من جوجل لتطوير الذكاء الاصطناعي متعدد الوسائط
جيميني إمبيدينج 2
أطلقت شركة جوجل أول نموذج تضمين متعدد الوسائط بالكامل، أطلقت عليه اسم "جيميني إمبيدينج 2"، وهو نموذج ذكاء اصطناعي يدمج النصوص والصور والصوت والفيديوهات في فضاء تضمين موحد، وهذا يعني أنه يستخدم بنية لفهم المفاهيم سواءً كانت مكتوبة أو منطوقة أو معروضة في صورة أو فيديو.
أول نموذج تضمين متعدد الوسائط من جوجل متوفر الآن
شرحت عملاقة التكنولوجيا بالتفصيل نموذج الذكاء الاصطناعي الجديد، حيث يُعد هذا النموذج خليفةً لنموذج تضمين النصوص فقط الذي أُطلق العام الماضي، وهو قادر على استخلاص المعنى الدلالي لأكثر من 100 لغة، كما يتوفر Gemini Embedding 2 حاليًا في معاينة عامة عبر واجهة برمجة تطبيقات Gemini (API) ومنصة Vertex AI، وذلك وفقا لموقع gadgets360 التقني.

تحتوي نماذج الذكاء الاصطناعي عادةً على خزائن ملفات رقمية مختلفة لتخزين النصوص والصور والفيديوهات والملفات الصوتية، عندما يطلب المستخدم معلومات بتنسيق معين، يبدأ النموذج بالبحث في تلك الخزانة تحديدًا، عادةً، يتعامل نموذج التعلم الآلي مع كلمة "قطة" في مستند نصي وكلمة "قطة" في فيديو على أنهما شيئان مختلفان تمامًا، ما يزيد الأمر تعقيدًا، أن طريقة الحصول على المعلومات تختلف باختلاف كل تنسيق.
يحل نظام Gemini Embedding 2 هذه المشكلة من خلال إنشاء بنية جديدة تستخدم وحدة تخزين واحدة فقط لجميع أنواع المعلومات، وهذا يمكنه من معالجة المستندات التي تحتوي على نصوص وصور في آنٍ واحد، تمامًا كما يفعل البشر، وتؤكد جوجل أن هذا النظام الجديد يبسط "المسارات المعقدة ويحسن مجموعة واسعة من مهام المعالجة المتعددة الوسائط"، ومن بين هذه المهام: التوليد المُعزز بالاسترجاع (RAG)، والبحث الدلالي، وتحليل المشاعر، وتجميع البيانات.
قدرات نموذج Gemini Embedding 2
أما بالنسبة لقدرات نموذج الذكاء الاصطناعي، فهو يمتلك نافذة سياق نصي تصل إلى 8192 رمزًا إدخاليًا، كما يمكنه معالجة ما يصل إلى ست صور لكل طلب بصيغتي PNG وJPEG، ويدعم إدخال فيديو يصل إلى 120 ثانية بصيغتي MP4 وMOV، بالإضافة إلى ذلك، يمكنه معالجة البيانات الصوتية وتعيينها مباشرةً دون الحاجة إلى نسخ نصية، علاوة على ذلك، يمكنه أيضًا تضمين ملفات PDF يصل طولها إلى ست صفحات.
كما يستطيع النموذج فهم المدخلات المتداخلة، مما يسمح للمستخدمين بإرسال بيانات متعددة الوسائط (مثل النصوص والصور) في الطلب نفسه، وتؤكد جوجل أن هذه الميزة تمكن النموذج من فهم البيانات المعقدة والواقعية بدقة أكبر.
اقرأ أيضًا:
الأكثر قراءة
-
زوج يشعل النيران في زوجته لتفتيشها في هاتفه بالمطرية
-
بعائد شهري 17.25%.. "القاهرة" يطرح شهادة ادخارية لمدة 3 سنوات
-
بمناسبة عيد العمال.. المركزي: تعطيل العمل بالبنوك في هذا اليوم
-
خسر 80 جنيهًا.. أسعار الذهب في مصر اليوم الثلاثاء 28 أبريل 2026
-
عمر رضوان: 160 ألف مستثمر انضموا للبورصة بفضل الوعي المالي
-
20 قرشًا زيادة في سعر صرف الدولار مقابل الجنيه اليوم
-
الرقابة المالية: الشباب يمثلون 79% من المستثمرين في سوق رأس المال
-
الإمارات تعلن رسميًا الخروج من "أوبك" و"أوبك+" مطلع مايو المقبل
أخبار ذات صلة
يرصد الثغرات في ثوانٍ.. "ميثوس" سلاح سيبراني يهدد البنوك والطيران
28 أبريل 2026 11:57 ص
"ممنوع المرور".. قطة ذكية تمنعك من ضياع وقتك على "فيسبوك" و"إكس"
27 أبريل 2026 07:51 م
للمرة الأولى.. مصر تقتحم معرض "سوشي تك طوكيو 2026" بـ10 شركات ناشئة
27 أبريل 2026 03:58 م
من النفايات إلى الوقود.. اكتشاف مذهل يحول مياه الصرف الصحي إلى غاز طبيعي
26 أبريل 2026 01:56 ص
بالأرقام.. ماذا فعل 65 مليون مصري على الإنترنت في 24 ساعة؟
25 أبريل 2026 12:38 م
منتج مصري ينافس عالميًا.. "زيروتك" تحصد اعتماد "آبل" للمرة الأولى
25 أبريل 2026 02:10 م
الروبوت "إيس" يتفوق على لاعبي التنس.. كيف فاز بثلاث مباريات؟
24 أبريل 2026 06:23 م
مع تغيير الساعة.. 5 طرق لحل مشكلة توقيت الرسائل
24 أبريل 2026 05:03 م
أكثر الكلمات انتشاراً