yandex

Генерация изображений для услуги «Муж на час» с помощью нейросетей — кейс по созданию контента для сайта

time

12:26

main image in article

Введение: зачем мы решили визуализировать услугу «Муж на час» с помощью нейросети

Для сайта, который предлагает услугу «Муж на час», важно было создать понятные, реалистичные изображения бытового ремонта: мастер устанавливает полку, чинит розетку, собирает мебель, выполняет мелкие работы в квартире. Это не студийная реклама — людям важно увидеть, как это будет выглядеть на практике.

Организовать полноценную фотосъемку для каждого сценария — долго и дорого. Поэтому мы решили протестировать генерацию изображений с помощью нейросетей. Наша цель — получить визуалы для сайта и карточек услуг, которые:

  • покажут сам процесс (мастер в процессе работы, инструменты, интерьер);
  • визуализируют результат (например, дверная ручка до и после ремонта);
  • будут фотореалистичными и живыми, без ощущения "каталожности".

Мы протестировали три нейросети: GPT Image 1, Midjourney и Imagen 4

Для проекта мы выбрали три нейросети:

  • GPT Image 1 — от OpenAI, известна своей точностью в передачe деталей и возможности управлять стилем сцены;
  • Midjourney — одна из самых популярных нейросетей, выдающая очень эстетичные, но часто художественные изображения;
  • Imagen 4 — продукт Google DeepMind, которая умеет генерировать фотореалистичные сцены с хорошей цветопередачей и текстурами.

Мы протестировали каждую из них на следующих задачах:

  • визуализация мастера в процессе ремонта (сверлит стену, чинит розетку);
  • сцены до и после (например, сломанная и починенная дверная ручка).

Ошибки нейросетей при генерации изображений для услуги «Муж на час»: инструменты, руки, сцены до и после

При визуализации услуги «Муж на час» нам важно было получить не просто красивые картинки, а реалистичные рабочие сцены с деталями: мастер чинит розетку, меняет ручку, собирает мебель, виден инструмент, поза мастера и результат работы. Именно здесь нейросети начали «спотыкаться».

Мы тестировали три нейросети — GPT Image 1, Midjourney и Imagen 4 — и убедились, что только GPT Image 1 смогла выдать рабочий результат, с которым можно было дальше работать.

Midjourney и Imagen 4 справлялись со сценами общего плана (интерьер, атмосфера), но в заданиях на уровне мелких деталей и действий они часто допускали ошибки:

  • появлялись лишние руки, неестественные позы мастеров;
  • инструменты (дрель, отвертка) были искажены или зависали в воздухе;
  • сцены "до и после" выглядели нереалистично.

С GPT Image 1 нам удалось получить сцены, которые можно было адаптировать для сайта. Но и здесь потребовалась работа с промптами: детализированное описание, добавление условий (исключить мультяшность, блюр, искажения) и несколько итераций.

Сложности работы с ИИ на уровне деталей: до и после, инструменты, руки мастеров

Когда же мы переходили к более точным и "прикладным" сценариям, например:

  • показать сломанную дверную ручку и отремонтированную;
  • мастер меняет розетку;
  • крупный план на инструмент в руке мастера,

— тут нейросети начинали ошибаться.

Типичные ошибки, с которыми мы столкнулись:

  • Лишние детали или фантомные объекты — в сценах появлялись третьи руки, странные тени или инструменты, которых не должно быть;
  • Ошибки с пропорциями — розетки были в два раза меньше ладони мастера, а отвертка могла быть длиной с руку;
  • Неестественные позы и действия — мастер сверлил стену в воздух, держал дрель в неправильной плоскости или просто не взаимодействовал с объектом.

Особенно сложно было добиться правдоподобного изображения до/после ремонта мелких элементов (ручки, розетки, полки). Нейросети либо размывали детали, либо теряли логику сцены.

Вот несколько примеров неудачных генераций:

GPT Image 1 показала лучший результат, но...

Из трёх протестированных нейросетей самую стабильную и «управляемую» генерацию дала GPT Image 1. Она лучше всего справлялась с бытовыми сценами, правильно передавала стиль и атмосферу, и меньше ошибалась в композиции.

Однако, даже с GPT Image 1, при создании детализированных сцен (инструменты, руки, мелкие детали ремонта), потребовались многочисленные итерации промптов и корректировок. Чтобы получить один «чистый» кадр, приходилось делать 5–10 попыток.

Изображения, сгенерированные GPT Image 1:

Генерация изображений для услуги «Муж на час»: выводы после работы с нейросетью

Наш опыт показал: для задач вроде визуализации общего процесса, создания обстановки и атмосферных сцен, нейросети уже сегодня являются полноценным инструментом. Они помогают быстро создавать контент для сайта, презентаций и маркетинговых материалов.

Но для более точных сценариев, где важно передать взаимодействие человека с объектом (мастер держит отвертку, чинит розетку, до/после мелкого ремонта), нейросети пока не идеальны. Они делают ошибки в анатомии, нарушают логику действия и требуют множества итераций.

Тем не менее, GPT Image 1 показала лучший результат, и мы продолжаем работать с ней для улучшения качества генераций.

Что дальше?

Мы планируем и дальше использовать нейросети для подобных проектов, комбинируя их с минимальной ретушью и корректировкой. Это остаётся гораздо быстрее и экономичнее, чем полноценная фотосъёмка, особенно когда нужны универсальные сцены для сайта и рекламы.

Автор

Логотип НейроХолст

Хотите, чтобы нейросеть сгенерировала вам изображение?

Начать прямо сейчас