Stable Diffusion - как установить и как пользоваться нейросетью

29.10.2023

13:03

Stable Diffusion – одна из самых популярных нейросетей. Несмотря на то, что главной идеей метода генерации и обработки изображения является стабильность и предсказуемость, у него есть весомые недостатки.

К таким минусам относят:

чувствительность к начальным условиям. Различные начальные условия во время ввода изображений приводят к отличающимся друг от друга результатам сегментации. Поэтому у дизайнера не получится создать две или несколько одинаково сгенерированных модели;
зависимость от выбора параметров. Универсальный набор параметров не даст одинаковых результатов во всех типах сегментации. Поэтому многие дизайнеры выбирают другие нейросети для генерирования изображений;
неустойчивость к шуму. Входные данные могут содержать некоторый шум. Он будет приводить к искажению результатов.

В отличие от Stable Diffusion та же нейросеть Нейрохолст будет генерировать более точные изображения, соответствующие описанию дизайнера. Она независима от выбора параметров. Главное дизайнеру задавать точные запросы. Из плюсов Нейрохолста отмечают качественно прорисованный результат, высокую скорость генерации.

AI умеет работать с различными текстовыми промптами.

Оригинал изображения для редактирования в Stable Diffusion

Возможности Stable Diffusion

Главной целью нейросети Stable Diffusion является генерация стандартных картинок по описанию. Она знает стили современных художников и ренессанса. Дизайнеру удастся сгенерировать картинку в стиле Ван Гога и современного NFT-артиста.

Она умеет создавать ассеты для игр. Разработчики игр интегрировали Стабильную Диффузию в движок Unreal Engine. Теперь можно генерировать необходимые предметы, одежду и помещать в игровое пространство.

Дизайнеры могут создавать визуальные проекты с помощью этой нейросети. Например, Stable Diffusion позволяет создавать покадровую анимацию. С помощью нее из сгенерированных картинок создают полноценные видеоролики.

Также нейросеть умеет заменять объекты и дорисовывать фон. Например, с помощью функции Inpainting можно заменить корову на быка на рисунке. А с помощью функции Outpainting можно дорисовать фон столько раз, сколько необходимо для дизайнера, чтобы получить нужно изображение.

Методы нейросети могут быть также использованы для генерации текста. Она будет имитировать определенные жанры, стиль авторов. Также Stable Diffusion поможет в обучении GAN.

Можно попросить нейросеть сгенерировать человека по фотографии, вставленной в специальное поле в программе. Например, пользователь может залить в утилиту собственную фотографию и попросить нейросеть сгенерировать похожую картинку. Только обязательно нужно выставить промпты.

Разработчики распространяют нейросеть с открытым исходным кодом. На GitHub’e пользователь сможет найти этот код и воспользоваться им. Ему не нужно быть программистом, чтобы запустить код.

Дизайнер, разработчик игр или обычный пользователь сможет выбрать для себя один из способов, который ему понравится для взаимодействия с нейросетью. Их всего 3:

работать в онлайн-версии в браузере;
скачать десктопное приложение;
задавать промты для нейросетий Stable Diffusion через командную строка, используя программный код.

Внимание! Нейросети Stable Diffusion на русском нет.

Онлайн-версия

Пользователь сможет открыть онлайн-версию в браузере. Такой подход к работе с нейросетью не требует навыков в программировании вообще. Достаточно только правильно составить запрос. Генерация изображений будет происходить на сторонних ресурсах.

Из минусов подобного способа эксплуатации нейросети отмечают некоторое количество платных функций, которые могут быть незаменимы при генерации качественной картинки. Также пользователь может столкнуться с ограничениями по качеству выдаваемых изображений, разрешению их.

Десктопная версия

Наличие на компьютере программы нейросети с графическим интерфейсом не потребует от пользователя или дизайнера знания программирования. При использовании нейросети Stable Diffusion на ПК появляется возможность использовать те функции, которые не задействованы в браузерной версии.

Из минусов отмечают требовательность к железу персонального компьютера. Слабые и старые ПК и ноутбуки на Windows 7 могут не потянуть нейросеть.

Требования для работы с нейросетью в виде десктопного приложения:

ОС – Windows 10 или 11;
ОЗУ – 8 Гб или больше;
видеокарта NVidia 10хх с 4 Гб памяти;
жесткий диск SSD со свободным местом не менее 20 Гб.

Пользователь сможет скачать Stable Diffusion с официального сайта. На сайте можно найти ссылки на нейросеть в Google Play Market и AppStore. У пользователей есть возможность работать с нейросетью Stable Diffusion онлайн бесплатно. В этом случае ему будут недоступны некоторые функции.

Как скачать и установить Stable Diffusion

Скачать нейросеть Stable Diffusion можно с GitHub.com. После того, как программа будет скачена в папку «Загрузки» или любую другую, которая установлена для загрузок на компьютере пользователя, нужно запустить файл с расширением «.exe».

После запуска установки система спросит в какую папку сохранять программу, необходимо создать специальную папку на диске С или D под названием Stable Diffusion. Это нужно, чтобы в будущем долго не искать в какую папку была сохранена утилита.

По окончании установки необходимо поставить галку напротив пункта «Create Desktop Shortcut». А галку на против пункта, сразу запускающего программу – убрать.

Теперь пользователю нужно будет скачать модель, которая будет работать для него, собирать и обрабатывать изображения.

Например, можно скачать одну из моделей Robo Diffusion или Open Journey. Затем нужно будет перенести ее папку «Models».

Теперь перед пользователем на экране откроется браузер с нейросетью, командная строка. Нельзя закрывать командную строку. Потому что ядро нейросети работает именно в командной строке. А пользователь может создавать картинки и изображения для видеороликов в оболочке браузера.

Интерфейс программы Stable Diffusion доступен на русском языке. Однако максимально качественные картинки будут получаться при наборе текстовых промптов на английском.

Как генерировать картинки в Stable Diffusion

Генерирование картинки в Stable Diffusion

Инструкция по генерации картинок:

В первую очередь необходимо обучить модель генератора в наборе данных. Во время обучения модель будет настраивать свои значения параметров, чтобы генерировать изображения.
Теперь нужно уточнить параметры обучения, такие как скорость обучения, количество шагов, чтобы добиться наилучших результатов.
Если получаются двухголовые, шестипалые животные, люди, то необходимо продолжить обучение, вписав те значения, которые пользователю не нужны в выдаваемом результате.

Таким образом отправляя запрос за запросом, генерируя порядка 20 или 30 картинок можно получить тот результат, который нужен дизайнеру или обычному пользователю. В некоторых случаях обучение заканчивается после 10 запроса, когда программа выдала качественный и подходящий результат.

Как работать в Stable Diffusion по текстовым промптам

Инструкция работы в Stable Diffusion по текстовым промптам

Работа с нейросетью по текстовым промптам требует создания вспомогательного кода и настройки. Процесс включает в себя следующие шаги:

Установить необходимые библиотеки для работы с нейронными сетями, такие как TensorFlow или PyTorch, и другие зависимости.
Использовать предобученную модель Stable Diffusion или создать собственную, обучив её на определенном наборе данных.
Прописать функцию, которая будет принимать текстовый промпт и использовать его для генерации изображения с помощью вашей модели Stable Diffusion.
Преобразовать текстовый промпт в числовой вектор или иной формат, который модель может обработать. Обычно это делается с использованием предварительно обученных моделей для обработки естественного языка (NLP).
Подать закодированный текстовый промпт и дождаться конца кодировки.
Оценить результат генерации и, при необходимости, настроить параметры модели или текстовые промпты, чтобы получить готовые картинки без дальнейших исправлений.

Теперь нужно будет повторить этот процесс, чтобы создать разнообразные изображения на основе разных текстовых промптов и улучшить качество генерации.

Как работать в Stable Diffusion по референсам

Для работы в нейросети stable diffusion онлайн по референсам нужно использовать инструмент img2img. С помощью него готовая картинка будет перерисована с учетом текстового запроса.

Инструмент Sketch позволяет дорисовать то, что уже нарисовано на загруженном изображении пятнами. Рекомендуется добавить текст, чтобы уточнить, что нужно человеку. Запустить генерацию.

Еще тройка инструментов для работы в нейросети Stable Diffusion бесплатно:

Inpaint upload ― для загрузки картинки, которая послужит маской;
Batch ― для одновременной обработки нескольких картинок инструментом img2img;
Copy image to ― нужен для быстрого переключения между разными режимами. Можно, например, начать редактировать картинку в img2img, заменить в ней что-нибудь в Inpainter, а потом дорисовать в Sketch.

По окончании работы необходимо закрыть браузер и следом командную строку.

Модели для Stable Diffusion

Модели для работы скачивают с различных интернет-ресурсов. Некоторые из моделей заточены на прорисовку только роботов или анимэ. Другие могут рисовать пейзажи.

Внимание! Для рисования людей на Stable Diffusion подходит модель Deliberate 2.0.

Инструкция по работе с моделями для Stable Diffusion:

Скачать нужную модель и вставить в каталог под названием stable-diffusion-ui\models\stable-diffusion.
Открыть настройки нейросети. В появившемся списке выбрать нужную модель и кликнуть по ней левой кнопкой мышки.

Теперь останется только составить промпты для работы и запустить генерацию картинок.

Какие еще модели для Stable Diffusion можно использовать:
Open Journey. Эту модель эстетика и качественные картинки;
Robo Diffusion. Модель, которая создает картинки с роботами;
InkPunk Diffusion. Модель создает наполовину мультяшные, наполовину очеловеченные изображения в стиле панка. Модель обучена на DreamBooth;
Anything V3. С помощью этой модели получают качественные и детализированные изображения из мира аниме. Однако некоторые пользователи и дизайнеры подметили минусы. Модель рисует женщин с непропорциональными размерами тела;
Embedding пираты. Модель создает людей пиратов и рисует пиратские корабли.

Это только основная часть моделей. На самом деле их много, как официальных, так и не официальных версий, созданных программистами любителями и внедренными через открытый исходный код.

Как составить промпт в Stable Diffusion

Инструкция по составлению промптов для получения качественных результатов:

Выставить высокое разрешение или оставить оптимальное – 512х512 пикселей. Нужно учесть, что при выставленном высоком разрешении видеокарта будет работать не пределе возможностей. Исходя из этого нужно выставить необходимое разрешение для картинки. В идеале 512х512 подходит для генерации большинства картинок.
Прописать количество шагов для генерации картинки. Чем больше шагов пользователь поставит нейросети, тем качественней и детальней будет выглядеть полученное изображение. Оптимальное количество шагов – 50. Следует учесть, что времени на создание изображения при таком количестве шагов потребуется больше, чем при выставлении 10 или 20 шагов.
Параметр степени свободы необходимо установить на значении 8. Нейросеть не будет самостоятельно додумывать недостающие элементы.

При составлении промпта учитывают, что машина воспринимает только 75 слов. Поэтому важно уложиться в это количество. Например, если пользователь желает сгенерировать изображение кофейной чашки на столе с приглушенным освещением, то его промпт будет выглядеть так:

«Сгенерируй изображение кофейной чашки, стоящей на деревянном столе с приглушенным естественным освещением. Используя архитектуру Stable Diffusion, создай 3 варианта этой сцены с разными ракурсами и цветовыми тонами.»

Заключение

Теперь пользователь знает, как пользоваться нейросетью Stable Diffusion. О том, как скачать нейросеть, как работать с промптами, было рассказано в статье для того, чтобы пользователь смог научиться работать с Stable Diffusion. Научившись работать с нейросетью, ему не понадобиться прибегать к помощи дизайнеров, развивая собственный проект в интернете.

Автор

Павел Смирнов

Инженер-разработчик моделей ИИ