Google представив Gemini Embedding 2 — мультимодальну модель для пошуку та AI-аналітики

Google представив Gemini Embedding 2 — мультимодальну модель для пошуку та AI-аналітики

Google анонсувала запуск Gemini Embedding 2 — нової embedding-моделі, яка вперше нативно працює з різними типами даних: текстом, зображеннями, відео, аудіо та документами.

Модель уже доступна у форматі public preview через Gemini API та Vertex AI і орієнтована на задачі пошуку, аналітики та побудови AI-продуктів.

Gemini Embedding 2 об’єднує всі типи контенту в єдину embedding-систему, що дозволяє їй розуміти зв’язки між різними форматами контент без додаткових етапів обробки. Тож замість кількох моделей для різних типів даних можна буде використовувати одну. 

Модель підтримує:

  • текст із контекстом до 8192 токенів
  • до 6 зображень в одному запиті
  • відео тривалістю до 120 секунд
  • аудіо без попередньої транскрипції
  • PDF-документи до 6 сторінок

Також вона може обробляти змішані запити (наприклад, текст + зображення), що дозволяє точніше працювати з реальними даними, де формати завжди комбінуються.

За даними Google, модель демонструє кращі результати порівняно з попередніми рішеннями у задачах із текстом, зображеннями та відео, а також додає повноцінну підтримку аудіо.

Читайте також