Molmo

Андрей Ракитин

ML-инженер и автор блога

Сфера:

Анализ изображений

Задача:

Анализировать изображение

Тип преобразования:

Изображение в Текст

Условия использования:

Бесплатные

Попробовать

Molmo — нейросеть для анализа изображений. Модели семейства Molmo можно использовать прямо в браузере или загрузить с платформы Hugging Face. Инструмент переигрывает в анализе изображений таких флагманов, как Claude 3.5 и Gemini 1.5. Модели обучены на датасете PixMo, в котором отсутствуют синтетические данные, что повышает качество ответов.

Особенности Molmo:

Анализ изображений. Molmo — семейство мультимодальных моделей для анализа изображений. Самой мощной моделью семейства является Molmo 72B, превосходящая в данной категории Claude 3.5 Sonnet и Gemini 1.5, но немного уступающая GPT-4o по оценкам пользователей. От пользователя требуется загрузить файл, ввести запрос, а нейросеть проанализирует изображение и ответит на вопрос. Molmo плохо работает с прозрачными изображениями!
PixMo. Модели Molmo обучены на Pixmo, наборе данных из 1 миллиона пар изображений и текстов. Важной особенностью датасета является отсутствие синтетических данных, т.к. в сборе принимали участие реальные люди.
Open source. Разработчики выложили все модели семейства Molmo на платформе Hugging Face. Для каждой модели доступны примеры использования, а также результаты на академических бенчмарках и оценки пользователей.

Модели Molmo доступны бесплатно.

Похожие нейросети

Florence 2

Florence 2 - нейросеть для распознавания объектов и текста на изображениях. Кроме того, модель поддерживает несколько режимов работы, таких как генерация краткого и подробного описания картинки, получение координат объектов и другие. Предобученные версии Florence 2 доступны на HuggingFace, что позволяет разработчиком использовать их в своих проектах.

Qwen Chat

Qwen Chat - интерфейс в виде чат-бота для взаимодействия с моделями семейства Qwen. Нейросети способы ответить на вопросы по документам, анализировать изображения и решить сложные задачи по программированию и математике. Можно использовать несколько моделей одновременно для сравнения ответов.

LlamaOCR

LlamaOCR - нейросеть для распознавания текста на фотографиях. Под капотом приложения используется модель Llama 3.2 Vision. ИИ распознает текст даже на изображениях под углом, например, чеках. Результат предоставляется в формате Markdown. Доступно использование демоверсии в виде веб-приложения или локальное развертывание.

Deepfake Detector

Deepfake Detector - нейросеть для обнаружения дипфейков. Сервис распознает подделки, созданные с помощью Ideogram, Imagen, DALL-E и других популярных генераторов изображений. Также ИИ определяет вероятность использования определенной модели. Производится глубокий анализ изображений, что гарантирует высокую точность результатов.