Molmo

Андрей Ракитин

ML-инженер и автор блога

Сфера:

Анализ изображений

Задача:

Анализировать изображение

Тип преобразования:

Изображение в Текст

Условия использования:

Бесплатные

Попробовать

Как оплатить зарубежный сервис?

Нет зарубежной банковской карты? Вы можете выгодно оплатить подписку на иностранный сервис с помощью GetPayAll с минимальной комиссией на рынке. Назовите менеджеру промокод neural для получения скидки 30% на комиссию при первой оплате.
Компания работает как с физическими, так и с юридическими лицами. Помимо оплаты зарубежных сервисов, предлагается выпуск индивидуальной карты с возможностью пополнения.

Molmo — нейросеть для анализа изображений. Модели семейства Molmo можно использовать прямо в браузере или загрузить с платформы Hugging Face. Инструмент переигрывает в анализе изображений таких флагманов, как Claude 3.5 и Gemini 1.5. Модели обучены на датасете PixMo, в котором отсутствуют синтетические данные, что повышает качество ответов.

Особенности Molmo:

Анализ изображений. Molmo — семейство мультимодальных моделей для анализа изображений. Самой мощной моделью семейства является Molmo 72B, превосходящая в данной категории Claude 3.5 Sonnet и Gemini 1.5, но немного уступающая GPT-4o по оценкам пользователей. От пользователя требуется загрузить файл, ввести запрос, а нейросеть проанализирует изображение и ответит на вопрос. Molmo плохо работает с прозрачными изображениями!
PixMo. Модели Molmo обучены на Pixmo, наборе данных из 1 миллиона пар изображений и текстов. Важной особенностью датасета является отсутствие синтетических данных, т.к. в сборе принимали участие реальные люди.
Open source. Разработчики выложили все модели семейства Molmo на платформе Hugging Face. Для каждой модели доступны примеры использования, а также результаты на академических бенчмарках и оценки пользователей.

Модели Molmo доступны бесплатно.

Похожие нейросети

Morphic

Morphic - поисковая система на основе нейросети. В основе сервиса лежат модели от OpenAI. Нейросеть осуществит поиск информации в интернете, составит развёрнутый ответ и предоставит ссылки на источники и полезные статьи. Также вы можете задавать дополнительные вопросы. Поддерживаются запросы на большом количестве языков.

Mistral AI

Mistral - семейство больших языковых моделей, разработанных компанией Mistral AI. Среди доступных нейросетей вы найдёте модели на базе архитектуры Mixture of Experts, а также флагманскую Mistral Large, которую вы можете использовать бесплатно прямо в браузере. Для некоторых моделей присутствует возможность развёртывания в облачных сервисах и локально.

Claude

Claude - семейство больших языковых моделей, состоящее из трёх моделей: Haiku, Sonnet и Opus. Каждая нейросеть способна не только работать с текстом, но и анализировать загруженные изображения. Haiku является самой простой и быстрой моделью, Opus отличается способностью работать со сложными вопросами, а Sonnet представляет собой компромисс между скоростью и мощностью.

Florence 2

Florence 2 - нейросеть для распознавания объектов и текста на изображениях. Кроме того, модель поддерживает несколько режимов работы, таких как генерация краткого и подробного описания картинки, получение координат объектов и другие. Предобученные версии Florence 2 доступны на HuggingFace, что позволяет разработчиком использовать их в своих проектах.