Florence 2

Андрей Ракитин

ML-инженер и автор блога

Сфера: Анализ изображений

Условия использования: Бесплатные

Задача:

Анализировать изображение

Доступ к API: Да

Попробовать

Florence 2 — нейросеть для распознавания объектов и текста на изображениях. Кроме того, модель поддерживает несколько режимов работы, таких как генерация краткого и подробного описания картинки, получение координат объектов и другие. Предобученные версии Florence 2 доступны на HuggingFace, что позволяет разработчиком использовать их в своих проектах.

Особенности Florence 2:

Распознавание объектов. Florence 2 использует набор данных FLD-5B, содержащий 5,4 миллиарда аннотаций к 126 миллионам изображений, что позволяет распознавать текст и объекты на картинке с высокой точностью. Архитектура модели позволяет ей демонстрировать превосходство как при нулевых, так и при точных настройках, что делает ее конкурентоспособной моделью.
Множество режимов. Florence 2 может решать задачи различной сложности - от высокоуровневых (описание изображений) до низкоуровневых (сегментация объектов). Нейросеть адаптируется к задаче с помощью текстовых подсказок, что делает её гибкой и универсальной.

Florence 2 размещена на платформе Hugging Face, что позволяет использовать модель для распознавания объектов бесплатно.

Похожие нейросети

Molmo

Molmo - нейросеть для анализа изображений. Модели семейства Molmo можно использовать прямо в браузере или загрузить с платформы Hugging Face. Инструмент переигрывает в анализе изображений таких флагманов, как Claude 3.5 и Gemini 1.5. Модели обучены на датасете PixMo, в котором отсутствуют синтетические данные, что повышает качество ответов.

FaceCheck

FaceCheck - нейросеть для поиска по лицу в интернете. Сервис поможет избежать контактов с лицами с плохой репутацией. Разработчики обучили глубокие нейронные сети распознавать и сопоставлять лица с различными выражениями, под разными углами, при разном освещении, а также скрытые бородами, солнцезащитными очками, шляпами и даже масками.

FaceOnLive

FaceOnLive - инструмент для поиска фотографий лица в интернете. Используется технология обратного поиска, обеспечивающая высокую точность результатов. FaceOnLive выполняет поиск не только по обычным сайтам, но и по социальным сетям. Присутствует возможность отправки запроса для удаления изображения.

LlamaOCR

LlamaOCR - нейросеть для распознавания текста на фотографиях. Под капотом приложения используется модель Llama 3.2 Vision. ИИ распознает текст даже на изображениях под углом, например, чеках. Результат предоставляется в формате Markdown. Доступно использование демоверсии в виде веб-приложения или локальное развертывание.