Новая версия Google Gemini умеет редактировать изображения

После нескольких месяцев тестирования Google объявила о глобальном релизе новой нейросети Gemini 2.0 Flash. Её главной особенностью стала возможность редактирования загруженных изображений по текстовым подсказкам в режиме реального времени.

Gemini 2.0 Flash объединяет в себе мультимодальный ввод, расширенные возможности логического мышления и понимание естественного языка для создания изображений. Компания утверждает, что нейросеть способна точно следовать инструкциям при создании изображений, даже если они поданы в виде разговорной речи.

Google приводит несколько примеров использования Gemini 2.0 Flash:

Комбинированная генерация текста и изображения. Например, можно попросить создать рассказ, который будет сопровождаться иллюстрациями происходящего в нём, или же написать рецепт блюда с показом того, что должно получаться на каждом этапе готовки.
Редактирование изображений по текстовому описанию. Достаточно загрузить исходную картинку и написать, что с ней нужно сделать. Например, можно разукрасить чёрно-белое фото, добавить или убрать объекты, создать новое изображение по предложенному образцу и многое другое.
Генерация изображений, содержащих указанный текст. По словам Google, большинство моделей испытывают трудности с точной визуализацией длинного и последовательного текста, что часто приводит к неразборчивым символам или ошибкам в написании.

Google Gemini 2.0 Flash уже можно протестировать в и через API Gemini. Однако в России сервис официально недоступен.

Ремонт техники

Услуги

Новая версия Google Gemini умеет редактировать изображения

Новости

Умные стельки помогут контролировать осанку

Создана карта из 500 миллиардов нейронных связей мыши

В ОАЭ законы будут писать с помощью ИИ

Разработана система жидкостного охлаждения для электромобилей