OCR

Как да стартирам tesseract на GIF файл в linux

Как да стартирам tesseract на GIF файл в linux
Tesseract е система за оптично разпознаване на символи (OCR), сред най-добрите. OCR софтуерът е способен да разбира текст от изображения и сканирани документи (включително почерк, ако го обучавате). OCR система може да бъде полезна за много задачи като преброяване на думи сканирани документи, автоматична транскрипция, преобразуване на символи от изображение в текст и други.

LinuxHint вече публикува урок, обясняващ как да инсталирате и разберете обучението на Tesseract.

Този урок показва процеса на инсталиране на Tesseract в системи Debian / Ubuntu, но няма да разшири функционалностите за обучение, ако не сте запознати с този софтуер, четенето на споменатата статия може да е добро въведение.  След това ще ви покажем как да обработите GIF изображение с Tesseract, за да извлечете текста от него.

Инсталация на Tesseract:

Изпълнение:

apt инсталирайте tesseract-ocr

Сега трябва да инсталирате imagemagick, който е конвертор на изображения.

Веднъж инсталиран, вече можем да тестваме Tesseract, за да го тествам намерих gif, лицензиран за повторна употреба.

Сега нека видим какво се случва, когато пуснем tesseract на gif изображението:

тесеракт 2002NY40.gif 1резултат

Сега направете „по-малко“ на 1 резултат.текст

по-малко 1 резултат.текст

Ето изображението с неговия текст:

В настройките на Tesseract по подразбиране са доста точни, обикновено за да се получи такава точност е необходимо обучение. Нека опитаме друго безплатно изображение, което намерих в Wiki Commons, след изтеглянето му стартирайте:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2резултат

Сега проверете съдържанието на файла.

по-малко 2 резултат.текст


Това беше резултатът, докато съдържанието на оригиналното изображение беше:

За да подобрим разпознаването на символите, имаме много опции и стъпки, които трябва да следваме, които бяха подробно описани в предишния ни урок: премахване на граници, премахване на шума, оптимизиране на размера и завъртане на страните сред други функции като изрязване.

За този урок ще използваме textcleaner, скрипт, разработен от Fred's ImageMagick Scripts.

Изтеглете скрипта и стартирайте:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif тест.gif

Забележка: преди да стартирате скрипта, дайте му разрешения за изпълнение, като стартирате “chmod + x textcleaner”Като корен или с Судо префикс.

Където:

textcleaner: извиква програмата

: Преобразувайте изображението в сива скала

: енах

: размер на филтъра

: резкост, количество пикселно заточване, което се прилага към резултата.

За информация и примери за използване с textcleaner посетете http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Както виждате, textcleaner промени цвета на фона, увеличавайки контраста между шрифта и фона.

Ако стартираме tesseract, вероятно резултатът ще бъде различен:

тест на тесеракт.gif тест изход

по-малко изходна мощност

Както виждате, резултатът наистина се подобри, дори когато не е напълно точен.

Командата конвертирате предоставено от imagemagick ни позволява да извличаме кадри от gif изображения, които да бъдат обработвани по-късно от Tesseract, това е полезно, ако има различно съдържание в различни кадри на gif изображението.

Синтаксисът е прост:

конвертирате

Резултатът ще бъде генериран като брой файлове като рамки в gif, в предоставения пример резултатите ще бъдат: изход-0.jpg, изход-1.jpg, изход-2.jpg, и т.н.

След това можете да ги обработите с tesseract, като му инструктирате да обработва всички файлове с заместващ символ, като запазва резултата в един файл, като стартира:

за i в изход- *; направете tesseract $ i outputresult; Свършен;

Imagemagick има огромно разнообразие от опции за оптимизиране на изображенията и няма общ режим, за всеки вид сценарий трябва да прочетете командната страница на командата convert.

Надявам се, че този урок за Tesseract е полезен.

Как да инсталирате League Of Legends на Ubuntu 14.04
Ако сте фен на League of Legends, това е възможност за вас да тествате League of Legends. Имайте предвид, че LOL се поддържа на PlayOnLinux, ако сте п...
Инсталирайте най-новата стратегия за игра OpenRA на Ubuntu Linux
OpenRA е Libre / Free Real Time стратегия за игра, която пресъздава ранните игри на Westwood като класическата Command & Conquer: Red Alert. Разпредел...
Инсталирайте най-новия Dolphin Emulator за Gamecube & Wii на Linux
Dolphin Emulator ви позволява да играете избраните от вас игри Gamecube & Wii на Linux Personal Computers (PC). Като безплатно достъпен и емулатор на...