LlamaOCR — нейросеть для распознавания текста на фотографиях. Под капотом приложения используется модель Llama 3.2 Vision. ИИ распознает текст даже на изображениях под углом, например, чеках. Результат предоставляется в формате Markdown. Доступно использование демоверсии в виде веб-приложения или локальное развертывание.
Особенности LlamaOCR:
- Распознавание текста. Инструмент работает на основе модели Llama 3.2 Vision с 11 или 90 млрд параметров на выбор. На данный момент ИИ распознает текст на изображениях. Но разработчики обещают добавить поддержку документов PDF.
- Markdown. Распознанный текст возвращается в формате Markdown, что упрощает его дальнейшее использование в различных приложениях и системах. Планируется добавить вывод в JSON.
- Установка. Исходный код проекта доступен на странице Github. Библиотеку нужно установить через пакетный менеджер npm. Более подробная информация находится на странице проекта.
LlamaOCR можно использовать бесплатно при развертывании на локальном устройстве, но потребуется доступ к модели Llama.