Google анонсувала запуск Gemini Embedding 2 — нової embedding-моделі, яка вперше нативно працює з різними типами даних: текстом, зображеннями, відео, аудіо та документами.
Модель уже доступна у форматі public preview через Gemini API та Vertex AI і орієнтована на задачі пошуку, аналітики та побудови AI-продуктів.
Gemini Embedding 2 об’єднує всі типи контенту в єдину embedding-систему, що дозволяє їй розуміти зв’язки між різними форматами контент без додаткових етапів обробки. Тож замість кількох моделей для різних типів даних можна буде використовувати одну.
Модель підтримує:
- текст із контекстом до 8192 токенів
- до 6 зображень в одному запиті
- відео тривалістю до 120 секунд
- аудіо без попередньої транскрипції
- PDF-документи до 6 сторінок
Також вона може обробляти змішані запити (наприклад, текст + зображення), що дозволяє точніше працювати з реальними даними, де формати завжди комбінуються.
За даними Google, модель демонструє кращі результати порівняно з попередніми рішеннями у задачах із текстом, зображеннями та відео, а також додає повноцінну підтримку аудіо.

