Введение: зачем мы решили визуализировать услугу «Муж на час» с помощью нейросети
Для сайта, который предлагает услугу «Муж на час», важно было создать понятные, реалистичные изображения бытового ремонта: мастер устанавливает полку, чинит розетку, собирает мебель, выполняет мелкие работы в квартире. Это не студийная реклама — людям важно увидеть, как это будет выглядеть на практике.
Организовать полноценную фотосъемку для каждого сценария — долго и дорого. Поэтому мы решили протестировать генерацию изображений с помощью нейросетей. Наша цель — получить визуалы для сайта и карточек услуг, которые:
- покажут сам процесс (мастер в процессе работы, инструменты, интерьер);
- визуализируют результат (например, дверная ручка до и после ремонта);
- будут фотореалистичными и живыми, без ощущения "каталожности".
Мы протестировали три нейросети: GPT Image 1, Midjourney и Imagen 4
Для проекта мы выбрали три нейросети:
- GPT Image 1 — от OpenAI, известна своей точностью в передачe деталей и возможности управлять стилем сцены;
- Midjourney — одна из самых популярных нейросетей, выдающая очень эстетичные, но часто художественные изображения;
- Imagen 4 — продукт Google DeepMind, которая умеет генерировать фотореалистичные сцены с хорошей цветопередачей и текстурами.
Мы протестировали каждую из них на следующих задачах:
- визуализация мастера в процессе ремонта (сверлит стену, чинит розетку);
- сцены до и после (например, сломанная и починенная дверная ручка).
Ошибки нейросетей при генерации изображений для услуги «Муж на час»: инструменты, руки, сцены до и после
При визуализации услуги «Муж на час» нам важно было получить не просто красивые картинки, а реалистичные рабочие сцены с деталями: мастер чинит розетку, меняет ручку, собирает мебель, виден инструмент, поза мастера и результат работы. Именно здесь нейросети начали «спотыкаться».
Мы тестировали три нейросети — GPT Image 1, Midjourney и Imagen 4 — и убедились, что только GPT Image 1 смогла выдать рабочий результат, с которым можно было дальше работать.
Midjourney и Imagen 4 справлялись со сценами общего плана (интерьер, атмосфера), но в заданиях на уровне мелких деталей и действий они часто допускали ошибки:
- появлялись лишние руки, неестественные позы мастеров;
- инструменты (дрель, отвертка) были искажены или зависали в воздухе;
- сцены "до и после" выглядели нереалистично.
С GPT Image 1 нам удалось получить сцены, которые можно было адаптировать для сайта. Но и здесь потребовалась работа с промптами: детализированное описание, добавление условий (исключить мультяшность, блюр, искажения) и несколько итераций.
Сложности работы с ИИ на уровне деталей: до и после, инструменты, руки мастеров
Когда же мы переходили к более точным и "прикладным" сценариям, например:
- показать сломанную дверную ручку и отремонтированную;
- мастер меняет розетку;
- крупный план на инструмент в руке мастера,
— тут нейросети начинали ошибаться.
Типичные ошибки, с которыми мы столкнулись:
- Лишние детали или фантомные объекты — в сценах появлялись третьи руки, странные тени или инструменты, которых не должно быть;
- Ошибки с пропорциями — розетки были в два раза меньше ладони мастера, а отвертка могла быть длиной с руку;
- Неестественные позы и действия — мастер сверлил стену в воздух, держал дрель в неправильной плоскости или просто не взаимодействовал с объектом.
Особенно сложно было добиться правдоподобного изображения до/после ремонта мелких элементов (ручки, розетки, полки). Нейросети либо размывали детали, либо теряли логику сцены.
Вот несколько примеров неудачных генераций:
GPT Image 1 показала лучший результат, но...
Из трёх протестированных нейросетей самую стабильную и «управляемую» генерацию дала GPT Image 1. Она лучше всего справлялась с бытовыми сценами, правильно передавала стиль и атмосферу, и меньше ошибалась в композиции.
Однако, даже с GPT Image 1, при создании детализированных сцен (инструменты, руки, мелкие детали ремонта), потребовались многочисленные итерации промптов и корректировок. Чтобы получить один «чистый» кадр, приходилось делать 5–10 попыток.
Изображения, сгенерированные GPT Image 1:
Генерация изображений для услуги «Муж на час»: выводы после работы с нейросетью
Наш опыт показал: для задач вроде визуализации общего процесса, создания обстановки и атмосферных сцен, нейросети уже сегодня являются полноценным инструментом. Они помогают быстро создавать контент для сайта, презентаций и маркетинговых материалов.
Но для более точных сценариев, где важно передать взаимодействие человека с объектом (мастер держит отвертку, чинит розетку, до/после мелкого ремонта), нейросети пока не идеальны. Они делают ошибки в анатомии, нарушают логику действия и требуют множества итераций.
Тем не менее, GPT Image 1 показала лучший результат, и мы продолжаем работать с ней для улучшения качества генераций.
Что дальше?
Мы планируем и дальше использовать нейросети для подобных проектов, комбинируя их с минимальной ретушью и корректировкой. Это остаётся гораздо быстрее и экономичнее, чем полноценная фотосъёмка, особенно когда нужны универсальные сцены для сайта и рекламы.