OCR

Инсталирайте Tesseract OCR на Linux

Инсталирайте Tesseract OCR на Linux

Tesseract: Безплатно решение за OCR

Въведение

Tessereact се счита за едно от най-добрите налични OCR решения. От 2006 г. е спонсориран от Google, преди това е разработен от Hewlett Packard в C и C ++ между 1985 и 1998 г.   Системата е способна да идентифицира дори почерка, може да се научи, увеличавайки своята точност и е сред най-развитите и пълни на пазара.

Той лесно побеждава търговски конкуренти като ABBY, ако търсите сериозно решение за OCR, Tesseract е най-точното, но не очаквайте масивни решения: той използва ядро ​​за процес, което означава 8-ядрен процесор (хипертрейдинг) приети) ще могат да обработват 8 или 16 изображения едновременно.

Когато използвах Tesseract, успяхме да качим хиляди потенциални клиенти, качвайки ръкописно съдържание, изображения с текст и т.н. Използвахме 48 основни сървъра, с DatabaseByDesign и след това с AWS, никога не сме имали проблем с ресурсите.

Имахме програма за качване, която различава текстови файлове като файлове на Microsoft Office или Open Office и изображения или сканирани документи. Качващият определи каквото и OCR или PHP скриптовете да обработят поръчка в областта на разпознаването на текст.

Tesseact е чудесно решение, но преди да помислите за него, трябва да знаете, последните версии на Tesseract донесоха големи подобрения, някои от тях означават упорита работа. Докато обучението може да продължи с часове или дни, последните версии на Tesserct могат да бъдат дни, седмици или дори месеци, ако търсите многоезично OCR решение.


Инсталиране на Tesseract 4 на Debian / Ubuntu:

apt-get инсталирайте tesseract-ocr

Ако използвате различна дистрибуция на Linux, ще трябва да копирате последната версия на хранилището на github и да копирате .обучен файл с данни в „tessdata“ (/ usr / share / tesseract-ocr / tessdata или / usr / share / tessdata).

По подразбиране Tesseract ще инсталира английския езиков пакет, за да инсталира допълнителни езици

apt-get инсталирайте tesseract-ocr-LANG

например, за да добавите иврит:

apt-get инсталирайте tesseract-ocr-heb

Можете да включите всички езици, като стартирате:

apt-get инсталирайте tesseract-ocr-all

За да работи Tesseract правилно, ще трябва да използваме командата „конвертиране“ (конвертиране между формати на изображения, както и преоразмеряване на изображение, размазване, изрязване, депел, дитер, рисуване, обръщане, присъединяване, повторна проба и много повече), предоставено от Imagemagick:

Нека инсталираме imagemagick с apt-get:

apt-get инсталиране imagemagick

Сега нека тестваме Tesseract, намерим изображение, съдържащо текст, и изпълним:

tesseract [име на изображение] [име на изходен файл]

Ако е инсталиран правилно, Tesseract ще извлече текста от изображението.

Когато работех с Tesseract, всичко, от което се нуждаехме, беше да преброим документи. Подобно на всяка друга програма, която можете и трябва да я обучавате, в Word можем да дефинираме някои символи, които могат да се броят или не, ако броите или не числа и т.н. същото е и с Tesseract.

Също така можем да обучим неговата чувствителност към конкретни изображения.


Оптимизация на Tesseract:

Оптимизация на размера: Според официални източници оптималният размер на пикселите за изображение, което да бъде обработено успешно от Tesseract, е 300 DPI. Ще трябва да обработим всяко изображение, използвайки параметъра -r, за да приложим този DPI. Увеличаването на DPI също ще увеличи времето за обработка.

Въртене на страницата: Ако при сканиране страницата не е завъртяна правилно и остане на 180 ° или 45 °, точността на Tesseract ще намалее, можете да използвате този Python скрипт за автоматично откриване и отстраняване на проблеми с ротацията.

Премахване на граници: Според официалния човек на Tesseract, границите могат да бъдат грешно избрани като символи, особено тъмните граници и там, където има градация на разнообразие. Премахването на граници може да е добра стъпка за постигане на максимална точност с Tesseract.

Премахване на шума: Според Tesseracts, шумът „е произволно изменение на яркостта или цвета в изображението“. Можем да го премахнем в бинаризация стъпка, което означава поляризиране на цветовете.


Обучителен Тесеракт:

Докато повечето уроци обхващат само инсталацията на Tesseract, аз ще обобщя как да обучавате вашата OCR система, тук можем да намерим урок за всички версии. В тази статия ще обобщя как да тренирам Tesseract 4, който включва нов „Базиран на невронна мрежа механизъм за разпознаване, който осигурява значително по-висока точност (на изображения на документи) от предишните версии, в замяна на значително увеличение на необходимата изчислителна мощност. На сложни езици обаче всъщност може да е по-бързо от базовия Tesseract.”

Преди да продължим ще трябва да инсталираме допълнителни библиотеки:

sudo apt-get инсталиране libicu-dev
sudo apt-get инсталиране libpango1.0-разработчик
sudo apt-get инсталиране libcairo2-dev

И ние ще инсталираме инструментите за обучение, като стартираме в директорията Tesseract:

направи
направете обучение
sudo направи обучение-инсталиране

Според официалния wiki на Tesseract, имаме 3 актуални опции за обучение на нашата OCR система:

Въпреки че горните опции може да звучат различно, стъпките на обучение всъщност са почти идентични, освен командния ред, така че е сравнително лесно да се изпробват всички начини, като се има предвид времето или хардуерът, за да се изпълняват паралелно.”

В този урок ще стартираме само tesstrain.sh скрипт, който ще извика необходимите програми за обучение на определен език.

Първо, нека клонираме всички файлове в нашия / usr / share / tesseract-ocr:

git clone https: // github.com / tesseract-ocr / tesseract

Отидете на / usr / share / tesseract-ocr / tesseract / training (директорията за инсталиране по подразбиране на Tesseract) и стартирайте:

$ ./ tesstrain.sh --lang heb --langdata_dir / usr / share / tesseract-ocr / langdata --tessdata_dir / usr / share / tesseract-ocr / tessdata 

Променете „heb“ за езика, който искате да обучавате, и също така редактирайте пътя към вашите данни.

В директорията / usr / share / tesseract-ocr / tesseract / обучение ще намерите специфичен за езика на файла.sh полезно да се добавят правила за конкретни езици.


Отстраняване на неизправности

Tesseract е за мен най-доброто решение за OCR, но наскоро направи огромни промени от предишните версии и много потребители се оплакват от промени или неща, които вече не работят, не бих се притеснявал, тъй като промените изглежда дават страхотни резултати. Общността на Tesseract е много активна, в случай че откриете проблеми с работата на tesseract, станете част от общността на Tesseract тук.

Как да заснемете и поточно предадете игралната си сесия на Linux
В миналото играта на игри се смяташе само за хоби, но с течение на времето игралната индустрия отбеляза огромен ръст по отношение на технологиите и бр...
Най-добрите игри за игра с ръчно проследяване
Oculus Quest наскоро представи страхотната идея за ръчно проследяване без контролери. С непрекъснато нарастващия брой игри и дейности, които изпълнява...
Как да покажете OSD наслагване в приложения на цял екран за Linux и игри
Играта на цял екран или използване на приложения в режим на цял екран без разсейване може да ви откъсне от съответната системна информация, видима в п...