После нескольких месяцев тестирования Google объявила о глобальном релизе новой нейросети Gemini 2.0 Flash. Её главной особенностью стала возможность редактирования загруженных изображений по текстовым подсказкам в режиме реального времени.
Gemini 2.0 Flash объединяет в себе мультимодальный ввод, расширенные возможности логического мышления и понимание естественного языка для создания изображений. Компания утверждает, что нейросеть способна точно следовать инструкциям при создании изображений, даже если они поданы в виде разговорной речи.
Google приводит несколько примеров использования Gemini 2.0 Flash:
- Комбинированная генерация текста и изображения. Например, можно попросить создать рассказ, который будет сопровождаться иллюстрациями происходящего в нём, или же написать рецепт блюда с показом того, что должно получаться на каждом этапе готовки.
- Редактирование изображений по текстовому описанию. Достаточно загрузить исходную картинку и написать, что с ней нужно сделать. Например, можно разукрасить чёрно-белое фото, добавить или убрать объекты, создать новое изображение по предложенному образцу и многое другое.
- Генерация изображений, содержащих указанный текст. По словам Google, большинство моделей испытывают трудности с точной визуализацией длинного и последовательного текста, что часто приводит к неразборчивым символам или ошибкам в написании.
Google Gemini 2.0 Flash уже можно протестировать в и через API Gemini. Однако в России сервис официально недоступен.