MIDI 3D — бесплатная нейросеть для создания трехмерных моделей. Инструмент разработан компанией VAST-AI Research для решения задачи преобразования одиночного изображения в трехмерную сцену. MIDI умеет одновременно превращать множество объектов на картинке в 3D-модели с сохранением взаимного расположения.
Особенности MIDI 3D:
- Принцип работы. MIDI (Multi-Instance Diffusion) представляет собой новую парадигму для генерации композиционных 3D-сцен из одиночного изображения. В отличие от существующих методов, которые полагаются на технологии реконструкции или поиска, или недавние подходы, использующие многоэтапную генерацию объектов, MIDI расширяет предварительно обученные модели преобразования изображений в 3D-объекты до многоэкземплярных диффузионных моделей. Это позволяет нейросети генерировать несколько 3D-моделей с точными пространственными отношениями.
- Архитектурные особенности. В процессе обучения MIDI эффективно контролирует взаимодействия между 3D-экземплярами, используя ограниченное количество данных на уровне сцены, одновременно включая данные об отдельных объектах для регуляризации, тем самым сохраняя предварительно обученную способность к обобщению. Это позволяет модели создавать сложные сцены с множеством объектов, сохраняя при этом высокое качество и реалистичность каждого отдельного элемента.
- Преимущества MIDI 3D. Нейросеть одновременно генерирует множество 3D-моделей с сохранением пространственных взаимоотношений между ними. MIDI обладает высокой обобщающей способностью, позволяющей работать с разнообразными типами сцен и объектов.
MIDI 3D можно загрузить на странице проекта в GitHub. Демоверсия нейросети доступна на HuggingFace.