Gemini Embedding 2.. خطوة جديدة من جوجل لتطوير الذكاء الاصطناعي متعدد الوسائط
جيميني إمبيدينج 2
أطلقت شركة جوجل أول نموذج تضمين متعدد الوسائط بالكامل، أطلقت عليه اسم "جيميني إمبيدينج 2"، وهو نموذج ذكاء اصطناعي يدمج النصوص والصور والصوت والفيديوهات في فضاء تضمين موحد، وهذا يعني أنه يستخدم بنية لفهم المفاهيم سواءً كانت مكتوبة أو منطوقة أو معروضة في صورة أو فيديو.
أول نموذج تضمين متعدد الوسائط من جوجل متوفر الآن
شرحت عملاقة التكنولوجيا بالتفصيل نموذج الذكاء الاصطناعي الجديد، حيث يُعد هذا النموذج خليفةً لنموذج تضمين النصوص فقط الذي أُطلق العام الماضي، وهو قادر على استخلاص المعنى الدلالي لأكثر من 100 لغة، كما يتوفر Gemini Embedding 2 حاليًا في معاينة عامة عبر واجهة برمجة تطبيقات Gemini (API) ومنصة Vertex AI، وذلك وفقا لموقع gadgets360 التقني.

تحتوي نماذج الذكاء الاصطناعي عادةً على خزائن ملفات رقمية مختلفة لتخزين النصوص والصور والفيديوهات والملفات الصوتية، عندما يطلب المستخدم معلومات بتنسيق معين، يبدأ النموذج بالبحث في تلك الخزانة تحديدًا، عادةً، يتعامل نموذج التعلم الآلي مع كلمة "قطة" في مستند نصي وكلمة "قطة" في فيديو على أنهما شيئان مختلفان تمامًا، ما يزيد الأمر تعقيدًا، أن طريقة الحصول على المعلومات تختلف باختلاف كل تنسيق.
يحل نظام Gemini Embedding 2 هذه المشكلة من خلال إنشاء بنية جديدة تستخدم وحدة تخزين واحدة فقط لجميع أنواع المعلومات، وهذا يمكنه من معالجة المستندات التي تحتوي على نصوص وصور في آنٍ واحد، تمامًا كما يفعل البشر، وتؤكد جوجل أن هذا النظام الجديد يبسط "المسارات المعقدة ويحسن مجموعة واسعة من مهام المعالجة المتعددة الوسائط"، ومن بين هذه المهام: التوليد المُعزز بالاسترجاع (RAG)، والبحث الدلالي، وتحليل المشاعر، وتجميع البيانات.
قدرات نموذج Gemini Embedding 2
أما بالنسبة لقدرات نموذج الذكاء الاصطناعي، فهو يمتلك نافذة سياق نصي تصل إلى 8192 رمزًا إدخاليًا، كما يمكنه معالجة ما يصل إلى ست صور لكل طلب بصيغتي PNG وJPEG، ويدعم إدخال فيديو يصل إلى 120 ثانية بصيغتي MP4 وMOV، بالإضافة إلى ذلك، يمكنه معالجة البيانات الصوتية وتعيينها مباشرةً دون الحاجة إلى نسخ نصية، علاوة على ذلك، يمكنه أيضًا تضمين ملفات PDF يصل طولها إلى ست صفحات.
كما يستطيع النموذج فهم المدخلات المتداخلة، مما يسمح للمستخدمين بإرسال بيانات متعددة الوسائط (مثل النصوص والصور) في الطلب نفسه، وتؤكد جوجل أن هذه الميزة تمكن النموذج من فهم البيانات المعقدة والواقعية بدقة أكبر.
اقرأ أيضًا:
الأكثر قراءة
-
بنسبة نجاح 73%.. اعتماد نتيجة الشهادة الإعدادية بالقاهرة الترم الثاني 2026
-
نتيجة الشهادة الإعدادية محافظة الجيزة الترم الثاني 2026.. رابط الاستعلام
-
مشاهدة مباراة البرتغال والكونغو الديمقراطية مباشر الآن مجانًا
-
وظائف متنوعة في 49 شركة بـ 11 محافظة.. قدم الآن
-
موعد مباراة منتخب مصر ونيوزيلندا في كأس العالم 2026 والقنوات الناقلة
-
تفاصيل أرض الزمالك الجديدة.. الموقع والمساحة وأبرز المميزات
-
سبب وفاة الفنان محمد مرزبان.. تفاصيل الساعات الأخيرة في حياته بعد الحادث المروع
-
هل غدًا الخميس إجازة رسمية بالمصالح الحكومية بمناسبة رأس السنة الهجرية؟
أخبار ذات صلة
تحديث لعبة Honor of Kings.. مكافآت مجانية وأبطال جدد
17 يونيو 2026 03:31 م
معهد الاتصالات يحتفل بتخريج 909 متدربين من برنامج "سفراء الذكاء الاصطناعي"
17 يونيو 2026 02:14 م
شركة صينية تبتكر مرحاضا روبوتيا لمساعدة كبار السن وذوي الإعاقة
17 يونيو 2026 10:07 ص
احذر دائرتك المقربة.. كاسبرسكي: نصف الإساءة الرقمية تأتي من أشخاص نثق بهم
16 يونيو 2026 10:13 م
طفرة جديدة في قياس الوقت.. ابتكار أول ساعة نووية تستخدم الليزر والإلكترونيات
14 يونيو 2026 07:49 م
"هدوم تروي العطشان".. جامعة تكساس تبتكر نسيجًا لاستخلاص الماء من الهواء
13 يونيو 2026 01:28 م
نتيجة الصف الأول الثانوي محافظة الشرقية 2026.. رابط الاستعلام
13 يونيو 2026 12:31 م
الفصل أو الهيكلة.. مايكروسوفت تعيد استراتيجية "إكس بوكس"
12 يونيو 2026 11:14 م
أكثر الكلمات انتشاراً