Lmst

Ehmm...... "Error initializing OCR engine 'paddleocr': PaddlePaddle is not available. PaddlePaddle does not support Python 3.10 yet. Please use Python 3.8-3.12 for PaddleOCR support, or use Tesseract instead." #paddleocr #python

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

https://habr.com/ru/articles/966846/

#ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

Mô hình PaddleOCR-VL đã được tinh chỉnh để nhận diện văn bản trong manga Nhật Bản! Độ chính xác đạt 70% (từ 27%), xử lý tốt các bong bóng thoại và font chữ cách điệu. Bước tiến lớn cho OCR chuyên biệt.
#OCR #Manga #JapaneseManga #AI #MachineLearning #PaddleOCR #ComputerVision
#NhậnDạngVănBản #MangaNhật #TríTuệNhânTạo #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1opx6p1/we_just_finetuned_a_japanese_manga_ocr_model_with/

When processed with #PaddleOCR VL, we get :

Azniq n Umeyras Wanuyi Muhend L£id

instead of :

Azniq n Umeɣras Wanuɣi Muḥend Lɛid

PaddleOCR-VL 0.9B salida estructura para PDFs múltiples columnas, tablas, fórmulas. Ready production, maneja escritura, multilingüe. Para empresas/periferia. Modelos cloud (GPT-4o, Gemini) para tareas generales pero más caro. #OCR #PaddleOCR-VL #Phân_tích_bản_gVote #Dữ_liệu_cu_ẩn

https://www.reddit.com/r/LocalLLaMA/comments/1obfwt9/practical_takeaways_from_recent_handson_use_of/

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

https://habr.com/ru/articles/951016/

#машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: Python Оптическое Распознавание Символов(OCR): Paddle OCR Площадка для языковой модели: Ollama Большая языковая модель(LLM): qwen2:7b Сетевой фреймворк для API: FastAPI

https://habr.com/ru/articles/933634/

#ocr #optical_recognition #llm #большие_языковые_модели #ollama #paddlepaddle #paddleocr #ollama_python_librar #qwen

Создание искусственного датасета для обучения модели с использованием Paddle OCR

Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте) Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге. Вернемся к теме статьи. Сегодня остановимся подробнее на создании искусственного датасета для обучения модели с использованием Paddle OCR. Этим занимался мой коллега Александр – экспертв компьютерном зрении. Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно. Это подтолкнуло нас к созданию собственного датасета, который оказался не только полезным, но и дал возможность потренироваться в генерации синтетических данных. В этом посте мы подробно расскажем, как именно подошли к этому процессу.

https://habr.com/ru/articles/839326/

#искусственный_интеллект #компьютерное_зрение #распознавание_текста #paddleocr #tesseract #датасет #аугментация_данных

Создание плагина для распознавания текста на иврите: мой опыт и решения

Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.

https://habr.com/ru/articles/836714/

#искусственный_интеллект #ocrтехнологии #распознавание_текста #paddleocr #tesseract_ocr #python #датасет #аугментация #easyocr

Up until this week, I'd never hit an issue writing and testing Python code on my laptop, and then running it on my #raspberrypi, but I've hit some challenges with the latest revision of my bicycle dashcam ( https://github.com/raudette/SmartDashcamForBikesMk3 ). It seems like the python OCR library I've picked, #paddleocr, does not just work out of the box on ARM64. Might have to choose another OCR engine.

#paddleocr

Client Info