Нейросети для обработки фото в стиле Ghibli Studio

Нейросети для создания фото в стиле Хаяо Миядзаки

Арт, созданный в стиле Гибли с помощью нейросети
Фотография автора

ML-инженер и автор блога

Иконка глаза 670 просмотров
Иконка календаря

Studio Ghibli — легендарная японская анимационная студия, основанная в 1985 году режиссёрами Хаяо Миядзаки и Исао Такахатой. За десятилетия своего существования студия создала уникальный стиль, легко узнаваемый даже теми, кто далек от аниме. В отличие от типичного аниме, которое часто отличается динамичностью и экшеном, работы Ghibli характеризуются созерцательным темпом повествования, мягкостью линий и акцентом на тонких эмоциональных переживаниях героев.

Международное признание достигло пика, когда в 2003 году «Унесённые призраками» получили премию «Оскар» в номинации «Лучший анимационный полнометражный фильм». 

В конце марта 2025 года, благодаря функции генерации изображений с помощью GPT-4o, произошёл стремительный рост популярности картинок в стиле студии Гибли. Нейросеть от OpenAI точно передает стиль Миядзаки, а тренд поддержали знаменитости по всему миру, использовав фильтр для своих фотографий. В данной статье мы рассмотрим феномен слияния этих двух миров - классической анимации Ghibli и современных технологий искусственного интеллекта.

Чтобы оценить, насколько точно ИИ-приложения передают уникальный стиль Ghibli Studio, выделим его характерные черты:

  • Цветовая палитра: преобладание приглушённых, пастельных, тёплых оттенков, зачастую с «акварельным» ощущением;
  • Высокая детализация: продуманные природные фоны, проработанные мелочи в быте, реалистичные элементы природы (трава, листья, вода);
  • Композиция: гармония между персонажами и окружением, стремление к уюту, покою и ощущению настоящего дома;
  • Эмоциональный подтекст: передача эмоций персонажей через мягкие линии, плавные переходы цвета и особое внимание к мимике;
  • Мир глазами ребёнка: атмосфера волшебства при сохранении реалистичности.  

В рамках статьи мы рассмотрим лучшие нейросети для обработки фотографии в стиле Ghibli. Также обратим внимание на техническое устройство данных приложений и научимся обучать свою модель с помощью Leonardo.

Нейросети для обработки фото в стиле Гибли

Для выявления лучшего фильтра Ghibli мы будем использовать кадр из известного фильма «Час пик 3». Исходное разрешение изображения составляет 1920 на 1080 пикселей.

Кадр из фильма Час пик 3 (2007)

При оценке ИИ-приложений нас интересуют следующие показатели:

  • Соответствие стилю. Чем больше результаты соответствуют чертам стиля Хаяо Миядзаки, тем лучше;
  • Сохранение пропорций. Нейросеть не должна обрезать изображение;
  • Изменения. Фильтр не должен фундаментально менять персонажей и фон;
  • Качество. Преимуществом будут обладать сервисы с четкой картинкой.

GPT-4o

Обработка фото в стиле Гибли с помощью ChatGPT 4o

GPT-4o — мультимодальная нейросеть от OpenAI. Ранее модель работала только с текстовыми данными, но 25 марта 2025 года компания запустила функцию генерации картинок прямо из интерфейса GPT-4o. Ранее подобный функционал был доступен только в отдельной модели DALL-E.

Пользователи отметили способность GPT-4o передавать эстетику и волшебство стиля Хаяо Миядзаки. Нейросеть отлично справляется с отрисовкой текста на изображениях, чем могут похвастаться далеко не все генераторы картинок.

Как создать фото в стиле Ghibli Studio с помощью ChatGPT

Первым делом нужно нажать на иконку "+" и загрузить исходную фотографию. Затем в поле чата укажите промпт: «Create a Ghibli Studio version of this image». Рекомендуется вводить инструкции на английском языке, но вы можете попробовать на русском. В большинстве случаев получится удовлетворительный результат.

Кадр из фильма в стиле Миядзаки с помощью ChatGPT

Как мы видим, GPT-4o отлично передала уникальный стиль студии Ghibli на примере кадра из фильма: «Операция "Ы" и другие приключения Шурика». ИИ немного изменил направление взгляда, убрал тарелку справа, но в целом, справился на 10 из 10. Даже попытался добавить текст на баночку, но он получился бессмысленным.

Но самая интересная функция — редактирование аниме-изображений с помощью промптов. Нужно обвести область на картинке с помощью кисти и указать желаемые изменения.

GPT-4o нарисовала бороду Джеки Чану в стиле Гибли

Посмотрите, насколько удачно ChatGPT добавил бороду персонажу Джеки Чана. Единственный минус: фотографии обрезаются до квадрата, и повлиять на это мы не можем.

Вечером огромное количество пользователей пытаются бесплатно воспользоваться фильтром Гибли от GPT-4o, поэтому возможно ожидание до 10-15 минут на каждую картинку. Пользователи платных тарифов обладают приоритетным правом на генерацию.

GPT-4o умеет создавать аниме-арты в стиле Ghibli Studio, а не только обрабатывать фотографии. В интерфейсе чат-бота выберите функцию создания изображений и введите промпт, например: «A magical countryside landscape inspired by Studio Ghibli, featuring lush green hills, whimsical trees, winding rivers, a charming rustic cottage with curved rooftops, soft warm lighting, pastel colors, expressive clouds, dreamy sky, intricate nature details, hand-painted textures, delicate linework, gentle enchanting atmosphere, reminiscent of Ghibli films, nostalgic heartwarming feel».

Аниме-арт, сгенерированный нейросетью

Для наиболее точной передачи стиля Миядзаки старайтесь подробно его объяснять в каждой инструкции. Хорошей практикой считается напоминание о высокой детализации и разрешении 4k. Вот примеры удачных промптов:

  • A young girl with a small magical spirit companion in Studio Ghibli style, standing in a meadow of colorful wildflowers, soft breeze, flowing dress, afternoon light, whimsical, innocent expression, inspired by Spirited Away and My Neighbor Totoro, highly detailed, 4k;
  • A cozy witch's cottage interior in Studio Ghibli style, cluttered with magical items and potions, herbs hanging from wooden beams, cat sleeping by fireplace, afternoon sunlight streaming through windows, dust particles visible in light, inspired by Howl's Moving Castle and Kiki's Delivery Service, warm color palette, highly detailed, 4k;
  • A mystical forest pathway in Studio Ghibli style, dappled sunlight filtering through giant trees, magical atmosphere, vibrant colors, detailed foliage, inspired by Princess Mononoke, 4k, highly detailed.

Нейронку для создания фото в стиле студии Гибли можно использовать через API. Необходимо пополнить счет в долларах. Подробная инструкция по использованию API доступна на сайте OpenAI.

Условия использования. GPT-4o перерисует фото в стиле Ghibli бесплатно. Доступно 5 попыток в сутки. С российского IP-адреса зайти на сайт не получится.

Сайт: https://chatgpt.com

Преимущества:

  • бесплатная обработка фото в стиле студии Гибли;
  • редактирование картинок с помощью текстовых инструкций;
  • генерация аниме-артов в стиле Миядзаки.

Недостатки:

  • изменение пропорций изображения.

Ghibli AI

Скриншот сервиса Ghibli AI

Ghibli AI — сервис для обработки фото в стиле студии Гибли с помощью нейросети. Результаты генерации точно соответствуют работам Миядзаки, передавая сказочную атмосферу таких известных мультфильмов, как «Мой сосед Тоторо» и «Ходячий замок». К сожалению программа обрезает исходное изображение. Мы загрузили фотографию в разрешении 1920 на 1080 px, а ИИ вернул картинку 1024 на 1024 px.

После нескольких тестов мы убедились, что сервис построен на базе модели GPT-4o. При использовании одной и той же инструкции результаты отличались минимально. Архитектура Ghibli AI предельно проста:

  • Отправка запроса. С серверной части сайта отправляется запрос к GPT-4o с помощью OpenAI API. Передается исходная фотография и промпт;
  • Ожидание ответа. В течение 15-30 секунд нейросеть обрабатывает изображение в стиле Гибли и возвращает результат;
  • Отрисовка. В случае успешной генерации пользователю выводится картинка в стиле Миядзаки.

Получается, разработчики не изобретали велосипед. Лишь создали графический интерфейс для GPT-4o. Всё гениальное просто.

Разработчики заботливо оставили подходящий промпт для преобразования фото в аниме-картинку. Для более тонкой настройки фильтра Гибли пользователи могут редактировать его.

Для особых ценителей аниме доступна обработка нескольких изображений одновременно. По запросу предоставляется доступ к API. Но мы не рекомендуем такой способ из-за его нерациональности. Намного выгоднее подключиться к серверам OpenAI напрямую.

Сайт: https://ghibliai.ai

Условия использования. Нейросеть обработает 1 фото в аниме-стиле Гибли бесплатно. Далее нужно приобрести один из пакетов с внутренней валютой:

  • Basic ($4.99). Можно преобразовать 30 фото в стиль Ghibli Studio. Стандартная скорость генерации. Разрешение картинки в результате: 1024 на 1024 пикселей;
  • Pro ($9.99). Конвертация 300 фотографий, приоритетная обработка и более высокое конечное разрешение изображения;
  • Unlimited ($39.99). Неограниченное число попыток, отсутствие лимитов на разрешение исходной фотографии и обработка множества файлов одновременно.

Преимущества:

  • конвертация нескольких фотографий одновременно;
  • соответствие ИИ-фильтра оригинальному стилю Миядзаки;
  • наличие API;
  • возможность редактировать промпт для генерации в стиле Ghibli.

Недостатки:

  • нейросеть обрезает фотографии до квадратного соотношения сторон;
  • наличие водяного знака.

Leonardo AI

Нейросеть Leonardo создает аниме-арты в стиле Ghibli

Leonardo AI — ИИ-платформа для создания и редактирования изображений. Изначально приложение не предназначено для генерации изображений в стиле Ghibli, но использовать его в этом направлении никто не запретит. Платформа объединяет множество функций, но рассмотрим только некоторые.

Сервис предоставляет модели для различных типов изображений. Для выбора подходящей нейросети:

  • Перейдите в раздел для работы с картинками, кликнув по ссылке «Image»;
  • Далее выберите во вкладке «Model/Preset» пункт «Anime». Чуть ниже будет активирован стиль «Anime General». Вы можете поэкспериментировать и выбрать другой. Присутствуют стили для генерации аниме-артов в стиле манга, полуреализма и других;
  • Перейдите в раздел «Advanced Settings» и выберите модель Leonardo Anime XL;
  • В разделе «Image Dimensions» можно выбрать соотношение сторон из нескольких вариантов. Ручная настройка доступна только при наличии подписки.

Пример настроек Leonardo AI для генерации в стиле Гибли

Попробуем создать картинку в стиле Ghibli. Используем промпт: «A breathtaking, vast valley at golden hour in the style of Studio Ghibli. Misty mountains in the background, soft clouds, a tall waterfall pouring into a crystal-clear lake, fields of multicolored wildflowers, rolling hills with ancient twisted trees, a small stone bridge over a gentle stream, white birds soaring in a glowing sky, golden sunbeams illuminating the scene, hand-painted textures, delicate linework, tranquil and magical atmosphere, reminiscent of Ghibli films».

Нейросеть создала аниме в стиле Гибли Студио

Кстати, этот промпт мы сгенерировали с помощью GPT-4.1. При этом стиль Хаяо Миядзаки был передан в полной мере. Если изображение понравилось, можно увеличить его разрешение с помощью функции «Upscale». Далее доступны следущие варианты:

  • Генерация видео. Используя полученное Ghibli style изображение, можно создать короткий ролик. Мультфильм сделать не получится, но вдохнуть в картинку жизнь — вполне.
  • Редактирование. Пользователи могут выделять нужные области изображения с помощью лассо и изменить их с помощью инструкции;
  • Извлечь промпт. Инструкция, по которой было создано изображение, и промпт, извлеченный из него, будут отличаться. Его можно использовать для лучшего контроля над генерацией;
  • Удалить фон. При генерации портерта или персонажа в стиле Гибли бывает полезно избавиться от фона. На это потребуется всего несколько секунд.

Теперь попробуем перерисовать фотографию в стиле Ghibli с помощью нейросети. Выбор модели и настройки не меняем, кроме пары моментов. Во-первых, загрузим исходную фотографию с помощью пункта «Image to Image». Во-вторых, нужно настроить параметр «Strenth». Нажмите на загруженное фото и перемещайте ползунок в диапазоне от 0.1 до 0.9. Чем ниже значение параметра, тем более креативный результат получится. Чем выше значение, тем меньше будет изменено изображение. В нашем случае компромиссом стало значение 0.6.

Не стоит недооценивать важность параметра «Strenth». При неподходящем значении вы получите нелепый результат. Далее укажите простой промпт: «Ghibli Style Image». Для получения более детализированной инструкции используйте функцию улучшения промпта. Только обязательно прочитайте результат работы оптимизатора перед генерацией. Иногда он выдает неподходящие промпты.

Джеки Чан и Крис Такер в стиле Миядзаки

Условия использования. Каждый день платформа пополняет баланс кредитов пользователя до 150. В среднем, на одну генерацию расходуется 10 кредитов. Создание видео стоит 200 кредитов и доступно только по подписке. Минимальная стоимость тарифа составляет $12.

Сайт: https://leonardo.ai

Достоинства:

  • функция улучшения промпта;
  • возможность использования картинки в качестве реферанса;
  • улучшение качества изображения;
  • генерация видео в стиле Ghibli;
  • редактирование и полный контроль над генерацией.

 Недостатки:

  • сложно получить хороший результат при обработке фотографии. 

Ghibli Org

Главная страница сервиса Ghibli Org

Ghibli Org — бесплатный ИИ-сервис для преобразования фото в стиль Ghibli Studio. Инструмент крайне просто использовать: загрузите изображение и запустите процесс конвертации. Фильтр справляется с задачей за 10-15 секунд. Загрузить картинку в стиле Ghibli можно в формате PNG.

Это один из немногих сервисов, сохраняющих исходное соотношение сторон. Кроме того, нейросеть работает с фотографиями в высоком разрешении. Мы тестировали приложение на изображении с разрешением 3000 на 1746 px.

ИИ обработал фото в стиле Гибли

Серьезным недостатком приложения явлется сильное изменение исходного изображения. В некоторых случаях нейросеть добавляет странные элементы, меняет цвет кожи и удивляет другими фокусами. Старина Миядзаки такое явно не одобрит.

Кроме того, мы не видим промпт, использующийся для генерации в стиле Ghibli. Соответственно, мы не можем его настроить, чтобы получить более релевантные результат.

Условия использования. Нейросеть конвертирует фотографии в стиль Миядзаки бесплатно. Доступно 5 попыток в день.

Страница сервиса: https://neural-networked.ru/ghibli-ai/

Преимущества:

  • сохранение исходных пропорций изображений;
  • ИИ обрабатывает фото в стиль Гибли бесплатно;
  • сервис принимает изображения в высоком разрешении.

Недостатки:

  • нельзя настроить промпт для генерации;
  • иногда нейросеть сильно изменяет исходное изображение.

GetImg Ghibli Generator

Страница сервиса GetImg Ghibli Generator

GetImg Ghibli AI Generator — нейросеть для генерации аниме-артов и обработки фото в стиле Миядзаки. В приложении присутствует функция увеличения разрешения изображений. Нам удалось улучшить картинку с 1024 на 1024 пикселей до 4096 на 4096 пикселей без потери качества.

В основе приложения лежит модель GhibliDiffusion. Это модель Stable Diffusion, обученная на изображениях из анимационных полнометражных фильмов студии Гибли.

Обработка фотографии не требует никаких действий, кроме загрузки исходного файла. Через несколько секунд ИИ выдаст картинку в стиле Ghibli. Честно говоря, она нас ужаснула.

ИИ-фильтр Ghibli в сервисе GetImg

Крис Такер побелел, а Джеки Чан обзавелся шевелюрой. На полученном изображении нет ничего общего с оригиналом, кроме Эйфелевой башни. Сходства с творчеством Хаяо Миядзаки не наблюдается. Очень надеемся, что он не воспользуется данным инструментом.

Теперь попробуем сгенерировать арт в стиле Ghibli. Используем промпт: «A breathtaking, vast valley at golden hour in the style of Studio Ghibli. Towering, misty mountains in the background with their peaks veiled by soft clouds, and a cascading waterfall pouring into a crystal-clear lake. Fields of vibrant wildflowers in every color stretch across rolling hills, dotted with ancient, twisted trees with lush canopies. A small stone bridge arcs over a gentle stream, and a flock of white birds soars gracefully in the glowing sky. Sunbeams pierce through the clouds, illuminating the landscape in warm, magical light. The atmosphere is tranquil, dreamy, and filled with wonder, with detailed hand-painted textures, delicate linework, and the heartwarming sense of adventure unique to Ghibli films like "Howl’s Moving Castle" or "Princess Mononoke».

Аниме-арт в стиле Миядзаки, созданный ИИ

Вот с генерацией картинки с нуля сервис справился великолепно. Для создания изображения можно использовать различные модели семейства FLUX, GPT-4o и Stable Diffusion. В нашем примере использовалась нейросеть FLUX 1 [dev]. Доступен функционал для расширения изображения в любом направлении.

Присутствует возможность тренировки собственных моделей под выбранный стиль. Допустим, вам требуется для регулярного использования генератор картинок в стиле мультика «Унесенные призраками». Загрузив корпус изображений из мультфильма, вы получите модель, адаптированную для создания артов в данном стиле.

Условия использования. Каждый месяц выдается 100 кредитов. На обработку фото в стиле Ghibli расходуется 50 кредитов. Генерация аниме-артов с помощью ИИ требует 1-10 кредитов в зависимости от выбранной модели. Стоимость подписки составляет $7.

Сайт: https://getimg.ai/models/ghibli-diffusion

Преимущества:

  • выбор нейросети для создания аниме-арта;
  • улучшение промптов с помощью нейросети;
  • функция дорисовки изображения по горизонтали или вертикали;
  • функция улучшения качества изображений.

Недостатки:

  • обработанные изображения сильно отличаются от оригинала.

Выбираем лучший ИИ-сервис для обработки фото в стиле Миядзаки

Для объективной оценки составим таблицу:

  • Промпт. Возможность редактировать промпт для создания изображения в стиле Ghibli;
  • Аниме-арты. Генерация аниме-картинок, а не только обработка фото;
  • Стиль. Соответствие стилю Миядзаки;
  • API. Возможность подключения к API;
  • Стоимость. Минимальная стоимость подписки.
Нейросеть Оценка Промпт Аниме-арты Стиль API Стоимость
GPT-4o 9 Иконка "Да" Иконка "Да" Иконка "Да" Иконка "Да"* 20$
Ghibli AI 8 Иконка "Да" Иконка "Нет" Иконка "Да" Иконка "Да" 4.99$
Leonardo AI 9 Иконка "Да" Иконка "Да" Иконка "Да" Иконка "Да" 12$
Ghibli Org 6 Иконка "Нет" Иконка "Нет" Иконка "Да" Иконка "Нет" 0
GetImg 6 Иконка "Нет" Иконка "Да" Иконка "Нет" Иконка "Да" 7$

Лучше всех с задачей преобразования фото в стиль Ghibli справились GPT-4o и Leonardo. Оба сервиса напрямую не предназначены для данной задачи, но показали отличные результаты. GPT-4o обрезает фотографии до соотношения сторон 1:1, а Leonardo вынуждает подбирать оптимальные настройки для получения релевантного изображения.

Ghibli AI является оберткой над GPT-4o с другим графическим интерфейсом. Но в отличие от вышеназванных ИИ-сервисов, не умеет создавать аниме-арты в стили Миядзаки.

Ghibli Org и GetImg становятся аутсайдерами нашего рейтинга. Ghibli Org бесплатно обрабатывает фото в стиле Гибли, но сильно искажает изображение. GetImg в этом плане ещё хуже, но умеет создавать арты.

Как устроены ИИ-приложения для генерации картинок в стиле Ghibli

В данном разделе мы поверхностно коснемся устройства моделей для переноса стиля и разберемся, как написать свой ИИ-сервис для обработки фото в стиле Гибли и создания аниме-артов.

Введение в перенос стиля (Style transfer)

Перенос стиля (Style Transfer) — это область компьютерного зрения, позволяющая автоматически перерисовывать одно изображение в стиле другого изображения. Основная идея заключается в том, чтобы сохранить базовую структуру исходного изображения, наложив при этом художественный стиль другой работы, например, картины известного художника, в нашем случае стиль Миядзаки.

Технология берет свое начало в 2015 году, когда исследователи Леон Гатис, Александр Экер и Матиас Бетге опубликовали статью, в которой продемонстрировали возможность использования сверточных нейронных сетей для разделения содержания и стиля изображений. Суть метода заключается в извлечении структуры из одного изображения и стилистических характеристик из другого, а затем их комбинировании для создания новой картинки.

Стиль студии Ghibli, созданной легендарным аниматором Хаяо Миядзаки, представляет собой особенно интересный пример для применения технологий переноса стиля. Многие художники и аниматоры десятилетиями пытались воспроизвести эту узнаваемую эстетику вручную, но современные технологии искусственного интеллекта открывают новые возможности для автоматизированной стилизации.

Типы моделей для переноса стиля изображения

Современный ландшафт технологий переноса стиля представлен множеством архитектур нейронных сетей, каждая из которых имеет свои уникальные особенности, преимущества и недостатки:

  1. Neural Style Transfer (NST). Использует предобученную сверточную нейронную сеть VGG16 или VGG19 для извлечения признаков как содержания, так и стиля изображений, после чего минимизирует комбинированную функцию потерь для получения стилизованного результата. Обеспечивает высокое качество результатов, однако требует значительных вычислительных ресурсов и занимает много времени на обработку каждого изображения, что делает его непрактичным для использования в режиме реального времени.
  2. Multi-style Generative Network (MSG-Net). Позволяет осуществлять перенос стиля в режиме реального времени благодаря использованию сиамской сети и предобученной VGG в качестве дискриминатора для минимизации функции потерь.
  3. AdaIN-Style-Transfer. Выполняет перенос стиля в пространстве признаков, выравнивая среднее значение и дисперсию каналов, что обеспечивает более естественные результаты.
  4. Generative Adversarial Networks (GAN). Преимущество GAN заключается в способности генерировать реалистичные изображения с высокой степенью детализации, однако эти модели могут быть нестабильными в обучении и требуют тщательной настройки гиперпараметров

При сравнении различных архитектур по скорости работы, модели реального времени, такие как MSG-Net и AdaIN, значительно превосходят классический NST, однако могут уступать ему в точности передачи некоторых стилистических особенностей.

В контексте переноса стиля Ghibli, важно учитывать такие характерные черты, как мягкие, плавные линии, особую цветовую гамму, упрощенные, но выразительные черты лиц персонажей и характерные для анимации Миядзаки пейзажные и природные элементы. Экспериментальные результаты показывают, что для достижения наилучших результатов при стилизации в стиле Ghibli часто требуется комбинирование нескольких подходов или тонкая настройка существующих моделей под специфические особенности этого визуального стиля.

Метод LoRA для генерации изображений в стиле Миядзаки

В сфере генеративных моделей LoRA стала настоящим прорывом, позволяющим создавать узкоспециализированные модели без огромных вычислительных затрат. В данном разделе мы рассмотрим, что такое LoRA, как использовать готовые модели для создания изображений в стиле Ghibli и как обучить собственную LoRA-модель.

Что такое LoRA и как это работает

LoRA (Low-Rank Adaptation) — математический метод уменьшения количества обучаемых параметров, что позволяет создавать компактные модели для специфических стилей, например, Pixar или Ghibli Studio. В случае с генеративными моделями изображений, такими как Stable Diffusion и FLUX, LoRA представляет собой компактную надстройку над основной моделью, которая модифицирует её поведение, не требуя полного переобучения.

Преимущества LoRA перед другими методами:

  • Компактный размер файлов. Обычно от 2 до 200 МБ, что в десятки или сотни раз меньше полных моделей;
  • Баланс между размером и эффективностью обучения. LoRA занимает «золотую середину» между мощным, но ресурсоемким Dreambooth и компактными, но менее эффективными методами;
  • Экономия. Значительное снижение вычислительных требований и времени обучения. Благодаря данному преимуществу, некоторые сервисы предлагают функцию обучения модели под задачи пользователя;

Модели LoRA не могут использоваться самостоятельно – они всегда применяются вместе с базовой моделью, внося в её работу определенные стилистические изменения. В этом смысле LoRA можно сравнить с отверткой. Вместо разных отверток, можно использовать одну с заменой насадок.

Примеры моделей в комбинации с LoRA для стиля Ghibli

Одним из примеров качественной LoRA-модели для создания изображений в стиле Ghibli является Ghibli Style Flux. Особенности данной LoRA модели:

  • Воссоздает мягкие черты, характерные для работ студии Ghibli;
  • Обеспечивает выразительную мимику персонажей;
  • Передает атмосферное освещение, присущее анимации Ghibli;
  • Сохраняет четкость композиции и задумки исходного запроса.

Подобная модель идеально подходит для создания арт-портретов, иллюстраций для повествовательных историй и изображений с теплой, душевной атмосферой, характерной для произведений студии Ghibli.

Модель + LoRA генерирует арт в стиле Ghibli

Также стоит обратить внимание на модель Studio Ghibli Style LoRA. В качестве базовой нейросети используется Stable Diffusion. Можно использовать в браузере или с помощью API.

Использование метода LoRA в сервисе Leonardo AI для создания картинки в стиле Ghibli

ИИ-платформа Leonardo AI предоставляет удобный функционал для дообучения моделей. Обратите внимание, что потребуется хотя бы минимальная подписка.

Подготовка набора данных

  • Подберите 15-20 качественных изображений в стиле Ghibli. Мы будем использовать кадры из мультфильма «Ходячий замок». Рекомендуется использовать картинки одного соотношения сторон. Допускается загрузка до 50 изображений, но не менее 5. Стоимость тренировки модели растёт при увеличении количества картинок в датасете;
  • Используйте разнообразные изображения в стиле Ghibli, чтобы избежать чрезмерной подгонки нейросети под один сценарий;
  • Удалите изображения с нежелательными артефактами, водяными знаками или некорректной стилизацией;
  • В меню выберите пункт «Models $ Training», перейдите во вкладку «Datasets» и создайте набор данных с выбранными ранее изображениями.

Подготовка набора данных для обучения модели LoRA для стиля Ghibli

Запуск тренировки модели

Нажмите на кнопку «Train New Model». Нам предоставлен выбор из трех категорий: стиль, объект и персонаж. Для обучения модели созданию артов в стиле Миядзаки требуется выбрать категорию «Style».

Далее мы попадаем на окно выбора модели и вида обучения. Мы выбрали нейросеть Flux Dev, как хороший и проверенный вариант. Платформа разрешает выбрать тип обучения: LoRA и Fine-tuning. Подробное объяснение разницы между способами обучения выходит за рамки статьи, но мы кратко объясним основные моменты.

Выбор модели для LoRA

Fine-Tuning:

  • Fine-Tuning — процесс дообучения ВСЕЙ модели на наборе данных. Это означает, что все веса модели обновляются на основе новых данных;
  • Требует значительных вычислительных ресурсов и большого объема видеопамяти (VRAM);
  • Обычно используется для глубокого изменения поведения модели или адаптации к специфическим задачам.

LoRA (Low-Rank Adaptation):

  • LoRA — это метод адаптации, при котором к существующим слоям модели добавляются специальные "адаптационные" матрицы низкого ранга;
  • Существенно снижает требования к ресурсам и ускоряет обучение;
  • Позволяет быстро и эффективно адаптировать большие модели под новые задачи или стили.

В случае обучения модели стилю Миядзаки оптимальным вариантом будет использование метода LoRA. Запустите процесс тренировки нейросети, который длится от 30 минут до нескольких часов. На привязанный к аккаунту адрес электронной почты придет уведомление об окончании обучения.

Тестируем новоиспеченную модель

В итоге, модель обучалась на наших изображениях в течение 10 часов. Если мы бы решили «файнтюнить», то время тренировки могло занять в разы больше времени. Теперь во вкладке «Your Elements» появилась новоиспеченная модель для создания изображений в стиле Ghibli.

Проверим качество генерации с помощью промпта: «A magical forest at dawn, bathed in soft golden light, lush moss and tall trees, in the center — a small girl with short dark hair in a blue dress, next to her a fluffy forest spirit, cozy and fairy-tale atmosphere, Studio Ghibli animation style, soft colors, detailed background, a sense of wonder and tranquility».

Нейросеть создает аниме в стиле мультика Миядзаки

Мы получили впечатляющий результат. Нейросеть сгенерировала аниме-арт в стиле Ходячего замка. Учтите, что использование кастомной модели расходует 40 монет, а не 10.

Далее вы можете сгенерировать короткий мультик в стиле Ghibli, поочередно оживляя созданные кадры. Перед этим рекомендуем улучшить качество изображений с помощью встроенной функции «Upscale Image».

К сожалению, обработать фотографию в стиле Гибли не выйдет. Использование модели Flux + LoRA для перерисовки фото не подходит.

Иконка обновления