Что такое модели?

NishAi. Онлайн-курс по работе в нейросети для архитекторов и визуализаторов

Что такое модели?

Что такое модель нейросети, откуда её взять и какие модели используем мы?

💡 Модель — это файл, в котором хранятся параметры нейросети, и именно модель является самым важным элементом, который влияет на результат генерации.

От того какую модель вы выберете, будет зависеть эффективность в той или иной задаче. Бывают модели предназначенные для фотореализма, бывают для артов, бывают для архитектуры и вообще для любого специфичного сценария.

Откуда взять модель?

Всё просто — скачиваем с civitai! Там есть огромная галерея генераций со всей информацией о том, какие настройки использовались. Только не пугайтесь, большая часть контента там далека от архитектуры.
(При поиске лучше поставить фильтр 18+, и не говорите, что мы не рекомендовали)

Поколения моделей: чем отличаются и какие использовать

Всего в доступе для stable diffusion (и его интерфейсов, в т.ч. Invoke AI) есть три поколения моделей - 1.х, 2.х и SDXL

1️⃣ Первую версию v1.1 обучили с нуля, а v1.2 обучали уже на основе v1.1 — и так по порядку, т.е. каждая модель в линейке v1.х — это её собственный дообученный "предок". Связь последовательная — бабка за дедку, дедка за репку...🧅

2️⃣ С версией v2.х всё было иначе. Вначале с нуля натренировали v2-basе, а затем на основе нее создали v2(768), v2-inpainting, x4-upscaler и другие. Схема классического семейного древа, где для каждой последующей модели прямой предок — v.2 base 🌱

3️⃣ Модели серии SDXL обучались по принципу 1 поколения, однако, датасетом служили изображения бОльшего разрешения

Какая между ними разница?

Считается, что v2.x "училась" на меньшем количестве материала, и хуже, чем v1.х, справляется с аналогичными задачами, а также обладает рядом технических ограничений.

SDXL училась на изображениях размером 1024 х 1024 (в то время как 1 и 2 поколение училось на изображениях 512х512), что, теоретически, повышает уровень генерации и разрешение итоговой генерации, но пока что только тормозит скорость работы

Поэтому сейчас ходовыми являются модели 1️⃣ поколения.

Так, пользовательские модели обычно тренируются на v1.5, например, так появились модели LoRa, а v1.2 стала основой для v1.5 inpainting

Вернуться к уроку