Gemini Embedding 2.. خطوة جديدة من جوجل لتطوير الذكاء الاصطناعي متعدد الوسائط

جيميني إمبيدينج 2

سارة أشرف

A . .A

أطلقت شركة جوجل أول نموذج تضمين متعدد الوسائط بالكامل، أطلقت عليه اسم "جيميني إمبيدينج 2"، وهو نموذج ذكاء اصطناعي يدمج النصوص والصور والصوت والفيديوهات في فضاء تضمين موحد، وهذا يعني أنه يستخدم بنية لفهم المفاهيم سواءً كانت مكتوبة أو منطوقة أو معروضة في صورة أو فيديو.

أول نموذج تضمين متعدد الوسائط من جوجل متوفر الآن

شرحت عملاقة التكنولوجيا بالتفصيل نموذج الذكاء الاصطناعي الجديد، حيث يُعد هذا النموذج خليفةً لنموذج تضمين النصوص فقط الذي أُطلق العام الماضي، وهو قادر على استخلاص المعنى الدلالي لأكثر من 100 لغة، كما يتوفر Gemini Embedding 2 حاليًا في معاينة عامة عبر واجهة برمجة تطبيقات Gemini (API) ومنصة Vertex AI، وذلك وفقا لموقع gadgets360 التقني.

تحتوي نماذج الذكاء الاصطناعي عادةً على خزائن ملفات رقمية مختلفة لتخزين النصوص والصور والفيديوهات والملفات الصوتية، عندما يطلب المستخدم معلومات بتنسيق معين، يبدأ النموذج بالبحث في تلك الخزانة تحديدًا، عادةً، يتعامل نموذج التعلم الآلي مع كلمة "قطة" في مستند نصي وكلمة "قطة" في فيديو على أنهما شيئان مختلفان تمامًا، ما يزيد الأمر تعقيدًا، أن طريقة الحصول على المعلومات تختلف باختلاف كل تنسيق.

يحل نظام Gemini Embedding 2 هذه المشكلة من خلال إنشاء بنية جديدة تستخدم وحدة تخزين واحدة فقط لجميع أنواع المعلومات، وهذا يمكنه من معالجة المستندات التي تحتوي على نصوص وصور في آنٍ واحد، تمامًا كما يفعل البشر، وتؤكد جوجل أن هذا النظام الجديد يبسط "المسارات المعقدة ويحسن مجموعة واسعة من مهام المعالجة المتعددة الوسائط"، ومن بين هذه المهام: التوليد المُعزز بالاسترجاع (RAG)، والبحث الدلالي، وتحليل المشاعر، وتجميع البيانات.

قدرات نموذج Gemini Embedding 2

أما بالنسبة لقدرات نموذج الذكاء الاصطناعي، فهو يمتلك نافذة سياق نصي تصل إلى 8192 رمزًا إدخاليًا، كما يمكنه معالجة ما يصل إلى ست صور لكل طلب بصيغتي PNG وJPEG، ويدعم إدخال فيديو يصل إلى 120 ثانية بصيغتي MP4 وMOV، بالإضافة إلى ذلك، يمكنه معالجة البيانات الصوتية وتعيينها مباشرةً دون الحاجة إلى نسخ نصية، علاوة على ذلك، يمكنه أيضًا تضمين ملفات PDF يصل طولها إلى ست صفحات.

كما يستطيع النموذج فهم المدخلات المتداخلة، مما يسمح للمستخدمين بإرسال بيانات متعددة الوسائط (مثل النصوص والصور) في الطلب نفسه، وتؤكد جوجل أن هذه الميزة تمكن النموذج من فهم البيانات المعقدة والواقعية بدقة أكبر.

التكنولوجيا Gemini Embedding 2 معالجة البيانات أول نموذج تضمين متعدد الوسائط

رابط مختصر