LlamaOCR

Андрей Ракитин

ML-инженер и автор блога

Сфера: Анализ изображений

Условия использования: Бесплатные

Задача:

Анализировать изображение

Доступ к API: Нет

Попробовать

LlamaOCR — нейросеть для распознавания текста на фотографиях. Под капотом приложения используется модель Llama 3.2 Vision. ИИ распознает текст даже на изображениях под углом, например, чеках. Результат предоставляется в формате Markdown. Доступно использование демоверсии в виде веб-приложения или локальное развертывание.

Особенности LlamaOCR:

Распознавание текста. Инструмент работает на основе модели Llama 3.2 Vision с 11 или 90 млрд параметров на выбор. На данный момент ИИ распознает текст на изображениях. Но разработчики обещают добавить поддержку документов PDF.
Markdown. Распознанный текст возвращается в формате Markdown, что упрощает его дальнейшее использование в различных приложениях и системах. Планируется добавить вывод в JSON.
Установка. Исходный код проекта доступен на странице Github. Библиотеку нужно установить через пакетный менеджер npm. Более подробная информация находится на странице проекта.

LlamaOCR можно использовать бесплатно при развертывании на локальном устройстве, но потребуется доступ к модели Llama.

Похожие нейросети

Pixno

Pixno - нейросеть для создания конспектов по фото. Сервис анализирует графики, диаграммы, инфографику и текст с изображения. Далее выполняется поиск информации по данной теме, затем ИИ пишет конспект. Присутствует интеграция с популярными сервисами для ведения заметок и синхронизация между устройствами.

Deepfake Detector

Deepfake Detector - нейросеть для обнаружения дипфейков. Сервис распознает подделки, созданные с помощью Ideogram, Imagen, DALL-E и других популярных генераторов изображений. Также ИИ определяет вероятность использования определенной модели. Производится глубокий анализ изображений, что гарантирует высокую точность результатов.

Florence 2

Florence 2 - нейросеть для распознавания объектов и текста на изображениях. Кроме того, модель поддерживает несколько режимов работы, таких как генерация краткого и подробного описания картинки, получение координат объектов и другие. Предобученные версии Florence 2 доступны на HuggingFace, что позволяет разработчиком использовать их в своих проектах.

Molmo

Molmo - нейросеть для анализа изображений. Модели семейства Molmo можно использовать прямо в браузере или загрузить с платформы Hugging Face. Инструмент переигрывает в анализе изображений таких флагманов, как Claude 3.5 и Gemini 1.5. Модели обучены на датасете PixMo, в котором отсутствуют синтетические данные, что повышает качество ответов.