Google AI Studio рисует — дешево и сердито

Google AI Studio рисует — дешево и сердито

Поделиться

Google AI Studio допилил свой скрипт, довёл его до ума, так что он теперь использует экспериментальный код Gemini 2.0 и может рисовать картинки строго по запросу гуманоида, который им управляет. Одним из основных маркетинговых преимуществ отмечается именно чёткое следование запросам пользователя.

Только перед запуском обязательно обратите внимание на то, что используемая модель должна быть выбрана Gemini 2.0 flash experimental, а вывод Images and text.

Я вот с самого начала не выбрал нужное, и нейронка на меня ругалась, какие настройки следует установить, чтобы она отдавала картинки.

Попросил нарисовать его юношу в городе — вот так абстрактно и просто. Но поразило меня другое. Я использовал английский интерфейс, к тому же, подключался через какой-то европейский VPN потому что облачные сервисы Google отказываются работать в России, как и все остальные. Тем не менее, её нашёл у меня нарисован вполне себе европеоидным, а задник у него типичная Москва. Откуда он взял эти данные, понятия не имею. Залогинился в него я только уже поэкспериментировав с картинками. Мне понравилось детализация города, атмосферность, стилистика юноши, даже время года вполне подходит под сегодняшнее межсезонье.

Говорю: «Добавь ему ноутбук в правую руку». Проблема в том, что notebook по-английски не совсем то же самое, что и по-русски. Вот он и добавил чуваку блокнот. Заодно сломал ему рукав, будто парень инвалид. Но это даже неплохо, потому что он довольно чётко следит за сохранением общего контекста. Обратите внимание, что на фоне не изменилось примерно ничего. Мы будем присматриваться в остальных картинках, обязательно увидим, что там даже артефакты вылезут.

«Да нет же, поменяй на Макбук». Указание конкретной модели исправило ситуацию, хотя и не полностью. Ноутбук явно в вертикальной ориентации в руке, а обгрызанное яблоко — в горизонтальной. Видимо, нейронка хотела сказать: «Если что-то не устраивает, рисуй сам».

«Добавь в фоне девушку, которая бежит и машет ему рукой». Исполнил запрос слишком буквально, нарисовав какую-то неадекватную даму, которая буквально из подворотни нападает на парня. Обратите внимание, что рукав у него всё так же показывает сломанную руку, а на изображении наблюдается уже явный перешарп.

«Размой девушку, а то слишком резкая». И вот тут вылетает первый артефакт: он почему-то нарисовал нормальную размытую девушку, но с несоблюдением перспективы, она получилась крупнее людей в фоне, а девушка из подворотни так и осталась, хотя её он тоже размыл. Юноша продолжает испытывать на себе следы сильного перешарпа, который с каждым шагом усиливается.

На каком-то этапе оба дубля исчезли, кадр вернулся к исходнику, и я послал ему запрос сразу девушку нарисовать с размытием. Здесь всё получилось более цивилизованно, но девушка явно идёт в народ собирать голоса на выборах или будто готовиться к сценическому выступлению перед зеркалом. А ведь было всего лишь: «Перерисуй девушку, пусть будет немного размытой, чтобы смотрелась естественно».

Дальнейшие попытки было решено прекратить, поскольку изображение нашего героя стало совсем диким, да и сама нейронка опять начала чудить. Перешарп коснулся и боке в фоне, которое от него уже начинает двоиться.

Если исходник у вас работает с картинками с кодированием, а попутно повышает чёткость на каждом шаге, вам его не заставить прыгать через стену. Однако, учёт контекста, вроде погода и времени года, страновых особенностей, ряда прочих незадекларированных и неназванных мною настроек, безусловно, отлично работает. Текстовые нейронки, которые не нацелены только лишь на генерирование изображений, куда лучше работают с детализацией на фоне, чтобы не выдавать основной объект и что-то там ещё, а полноценную картинку в контексте. В общем, над кодом ещё работать и работать, но уже смотрится достойно.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *