Нейросеть Stable Diffusion – что это такое и как с ней работать
Содержание
Stable Diffusion – это нейросеть, которая способна генерировать изображение по его текстовому описанию. В интернете имеется большое количество подобных проектов. Данная программа выделяется за счет высокого качества созданных изображений, а также отсутствия ограничений. Проект имеет открытый исходный код, с которым можно ознакомиться на GitHub.
Команда разработки Stable Diffusion выложила нейросеть в открытый доступ в августе 2022 года, а всего через несколько месяцев появилось глобальное обновление. Оно стало возможным за счет обучения ИИ, а также обратной связи от пользователей.
Изображения нейросети Stable Diffusion отлично подходят для генерации контента. Его можно использовать в рекламных целях, для продвижения или привлечения дополнительного внимания к постам. Появляется возможность сокращения расходов на покупку стоковых картинок. Чтобы поделиться контентом, требуется много аккаунтов в различных социальных сетях или сервисах. Здесь на помощь приходит «Tiger SMS». На сайте можно купить виртуальные номера для регистрации по низким ценам.
Как начать работать со Stable Diffusion
Разработчики обеспечили бесплатный доступ к своей нейронной сети Stable Diffusion. Существует несколько вариантов того, как начать генерацию. На официальном сайте доступна онлайн-версия. Она имеет ряд ограничений, поскольку мощностей компании не хватит на всех желающих.
Достаточно ввести запрос, чтобы система всего за несколько секунд выдала 4 изображения. Существует ограничение на генерацию 200 изображений по озвученным ранее причинам. На сайте можно раскрыть меню продвинутых настроек и задать некоторые параметры, куда входит количество выводимых картинок, число шагов генерации и другие моменты.
Чтобы не сталкиваться с ограничениями и не зависеть от внешних факторов, программу можно установить на собственный компьютер.
Как скачать Stable Diffusion
Нейросеть Stable Diffusion можно установить на персональный компьютер или ноутбук. Разработчик выставляет требования по объему памяти видеокарты (не менее 4 Гб, оптимально, от 8 Гб). В таком случае, генерация не будет занимать много времени. Приложение занимает около 25 Гб на жестком диске. Оно распространяется в версии для операционной системы Windows или Linux. Скачать установочный файл Stable Diffusion можно с официального сайта или страницы проекта на GitHub.
Использование Dream Studio
Это еще один вариант использования нейросети. Он подходит для тех, кого не устраивает ограниченный функционал онлайн-версии на официальном сайте, но нет желания/возможности установки на собственное устройство. Существует облегченная онлайн-версия на сайте Dream Studio.
В интернете имеется множество проектов-аналогов, созданных на базе Stable Diffusion. Они имеют определенный функционал или ориентированы на создание изображений определенного стиля.
Возможности Stable Diffusion
Нейросеть Stable Diffusion выполняет несколько действий в процессе обработки запроса:
Кодирование текста, когда происходит его расшифровка и перевод в двоичный код.
Генерация изображения.
Декодирование полученной картинки.
Среди основных функций Stable Diffusion выделяются:
Генерация изображения по запросу пользователя. Базовая опция, которая считается наиболее популярной.
Генерация изображения в определенном стиле. Это направления художников эпохи Возрождения, абстракции, современного искусства, мультипликации различных студий и прочие варианты.
Изменение фона на уже существующих изображениях. По сути, это опция Photoshop в исполнении искусственного интеллекта.
Замена объектов на картинках. Для этого используется специальная методика Outpainting, созданная разработчиками нейронной сети.
Создание скетчей. Генерируется изображение на основании представленной картинки. Наибольшую популярность это получило для перевода детских рисунков.
Существует ряд функций, о которых нужно упомянуть отдельно. Сюда относится создание визуальных проектов. Специальные опции позволяют генерировать покадровую анимацию для видео.
Другой перспективный проект – это создание локаций или предметов для игровой индустрии. Для этого существует интеграция с движком Unreal Engine. В скором времени планируется выпустить обновление Stable Diffusion под названием Riffusion. Оно предназначается для создания музыкальных произведений на основании текстового запроса.
Особенности написания запросов в Stable Diffusion
Важно понимать, что мы работаем с нейросетью. Программа не воспринимает текстовое описание так же, как это делает человек. Чтобы получить изображения наилучшего качества, при написании запросов требуется учитывать ряд моментов:
Соблюдение механизма «веса» слов. Наиболее значимые части следует выносить в начало предложения. «Вес» любого слова можно указать вручную (прописывается двоеточие и цифра после). Суммарный показатель в рамках одного запроса не может превышать 100.
Меньше двусмысленности и абстрактных понятий. Из текста следует убрать слова-паразиты.
Постарайтесь разделить описание желаемого изображения на простейшие фразы и слова, которые прописываются через запятую.
Правильно указывайте число шагов генерации, в зависимости от желаемого результата. Показатель можно менять в большую или меньшую сторону для достижения нужного результата.
Уделите внимание показателю Classifier Free Guidance. Это уровень свободы при работе нейросети (сколько она придумает самостоятельно). По умолчанию, значение составляет 7. Если Вы видите, что программа позволяет себе много «вольностей» и отклоняется от запроса, то уменьшите показатель.
Лучше всего происходит генерация изображения с разрешением 512х512 пикселей. Это именно тот формат, с которым проведено большинство шагов обучения.
Если говорить об универсальной комбинации на все случаи, то в обсуждениях рекомендуют выставить CFG — 8, Steps — 50, Sampler — k_lms, Random seed.