Gemini Embedding 2.. خطوة جديدة من جوجل لتطوير الذكاء الاصطناعي متعدد الوسائط
جيميني إمبيدينج 2
أطلقت شركة جوجل أول نموذج تضمين متعدد الوسائط بالكامل، أطلقت عليه اسم "جيميني إمبيدينج 2"، وهو نموذج ذكاء اصطناعي يدمج النصوص والصور والصوت والفيديوهات في فضاء تضمين موحد، وهذا يعني أنه يستخدم بنية لفهم المفاهيم سواءً كانت مكتوبة أو منطوقة أو معروضة في صورة أو فيديو.
أول نموذج تضمين متعدد الوسائط من جوجل متوفر الآن
شرحت عملاقة التكنولوجيا بالتفصيل نموذج الذكاء الاصطناعي الجديد، حيث يُعد هذا النموذج خليفةً لنموذج تضمين النصوص فقط الذي أُطلق العام الماضي، وهو قادر على استخلاص المعنى الدلالي لأكثر من 100 لغة، كما يتوفر Gemini Embedding 2 حاليًا في معاينة عامة عبر واجهة برمجة تطبيقات Gemini (API) ومنصة Vertex AI، وذلك وفقا لموقع gadgets360 التقني.

تحتوي نماذج الذكاء الاصطناعي عادةً على خزائن ملفات رقمية مختلفة لتخزين النصوص والصور والفيديوهات والملفات الصوتية، عندما يطلب المستخدم معلومات بتنسيق معين، يبدأ النموذج بالبحث في تلك الخزانة تحديدًا، عادةً، يتعامل نموذج التعلم الآلي مع كلمة "قطة" في مستند نصي وكلمة "قطة" في فيديو على أنهما شيئان مختلفان تمامًا، ما يزيد الأمر تعقيدًا، أن طريقة الحصول على المعلومات تختلف باختلاف كل تنسيق.
يحل نظام Gemini Embedding 2 هذه المشكلة من خلال إنشاء بنية جديدة تستخدم وحدة تخزين واحدة فقط لجميع أنواع المعلومات، وهذا يمكنه من معالجة المستندات التي تحتوي على نصوص وصور في آنٍ واحد، تمامًا كما يفعل البشر، وتؤكد جوجل أن هذا النظام الجديد يبسط "المسارات المعقدة ويحسن مجموعة واسعة من مهام المعالجة المتعددة الوسائط"، ومن بين هذه المهام: التوليد المُعزز بالاسترجاع (RAG)، والبحث الدلالي، وتحليل المشاعر، وتجميع البيانات.
قدرات نموذج Gemini Embedding 2
أما بالنسبة لقدرات نموذج الذكاء الاصطناعي، فهو يمتلك نافذة سياق نصي تصل إلى 8192 رمزًا إدخاليًا، كما يمكنه معالجة ما يصل إلى ست صور لكل طلب بصيغتي PNG وJPEG، ويدعم إدخال فيديو يصل إلى 120 ثانية بصيغتي MP4 وMOV، بالإضافة إلى ذلك، يمكنه معالجة البيانات الصوتية وتعيينها مباشرةً دون الحاجة إلى نسخ نصية، علاوة على ذلك، يمكنه أيضًا تضمين ملفات PDF يصل طولها إلى ست صفحات.
كما يستطيع النموذج فهم المدخلات المتداخلة، مما يسمح للمستخدمين بإرسال بيانات متعددة الوسائط (مثل النصوص والصور) في الطلب نفسه، وتؤكد جوجل أن هذه الميزة تمكن النموذج من فهم البيانات المعقدة والواقعية بدقة أكبر.
اقرأ أيضًا:
الأكثر قراءة
-
تشرد العوضي وابتزاز ميادة، مشاهدة مسلسل علي كلاي الحلقه 23
-
أسعار كحك ايتوال 2026 .. قائمة بجميع الأصناف
-
تزوجت سرًا من حارس شهير.. من هي البلوجر رنا أحمد؟
-
داخل "شوال" بالصحراء.. العثور على جثمان الصبي المتغيب بالشرقية
-
موعد وقفة العيد الصغير 2026، وأيام الإجازة الرسمية في مصر
-
منحة الـ400 جنيه.. سلع تموينية رديئة و"إتاوات" بالمخازن تبتلع مليارات الدعم
-
تفاصيل إجازة عيد الفطر 2026 في مصر.. قرار رسمي بعدد أيام العطلة
-
البلوجر رنا أحمد تعلن زواجها سرا من حارس مرمى شهير: "سكت كتير لكن كفاية"
أخبار ذات صلة
خلال 45 ثانية فقط.. ثغرة أمنية خطيرة تتيح اختراق هذا النوع من الهواتف
12 مارس 2026 06:00 م
منع الوصول لميزات الكبار، واتساب يطلق حسابات مخصصة للأطفال
12 مارس 2026 05:00 م
بعد دراسات داخلية.. أبل تتخلى عن فكرة الآيفون الصغير "القابل للطي"
12 مارس 2026 03:55 م
تبدأ من 14 ألف جنيه.. أسعار هواتف realme 15 في مصر
12 مارس 2026 11:43 ص
أكثر الكلمات انتشاراً