LinuxHint вече публикува урок, обясняващ как да инсталирате и разберете обучението на Tesseract.
Този урок показва процеса на инсталиране на Tesseract в системи Debian / Ubuntu, но няма да разшири функционалностите за обучение, ако не сте запознати с този софтуер, четенето на споменатата статия може да е добро въведение. След това ще ви покажем как да обработите GIF изображение с Tesseract, за да извлечете текста от него.
Инсталация на Tesseract:
Изпълнение:
apt инсталирайте tesseract-ocr
Сега трябва да инсталирате imagemagick, който е конвертор на изображения.
Веднъж инсталиран, вече можем да тестваме Tesseract, за да го тествам намерих gif, лицензиран за повторна употреба.
Сега нека видим какво се случва, когато пуснем tesseract на gif изображението:
тесеракт 2002NY40.gif 1резултат
Сега направете „по-малко“ на 1 резултат.текст
по-малко 1 резултат.текст
Ето изображението с неговия текст:
В настройките на Tesseract по подразбиране са доста точни, обикновено за да се получи такава точност е необходимо обучение. Нека опитаме друго безплатно изображение, което намерих в Wiki Commons, след изтеглянето му стартирайте:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2резултат
Сега проверете съдържанието на файла.
по-малко 2 резултат.текст
Това беше резултатът, докато съдържанието на оригиналното изображение беше:
За да подобрим разпознаването на символите, имаме много опции и стъпки, които трябва да следваме, които бяха подробно описани в предишния ни урок: премахване на граници, премахване на шума, оптимизиране на размера и завъртане на страните сред други функции като изрязване.
За този урок ще използваме textcleaner, скрипт, разработен от Fred's ImageMagick Scripts.
Изтеглете скрипта и стартирайте:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif тест.gif
Забележка: преди да стартирате скрипта, дайте му разрешения за изпълнение, като стартирате “chmod + x textcleaner”Като корен или с Судо префикс.
Където:
textcleaner: извиква програмата
-ж: Преобразувайте изображението в сива скала
-д: енах
-е: размер на филтъра
-с: резкост, количество пикселно заточване, което се прилага към резултата.
За информация и примери за използване с textcleaner посетете http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Както виждате, textcleaner промени цвета на фона, увеличавайки контраста между шрифта и фона.
Ако стартираме tesseract, вероятно резултатът ще бъде различен:
тест на тесеракт.gif тест изходпо-малко изходна мощност
Както виждате, резултатът наистина се подобри, дори когато не е напълно точен.
Командата конвертирате предоставено от imagemagick ни позволява да извличаме кадри от gif изображения, които да бъдат обработвани по-късно от Tesseract, това е полезно, ако има различно съдържание в различни кадри на gif изображението.
Синтаксисът е прост:
конвертиратеРезултатът ще бъде генериран като брой файлове като рамки в gif, в предоставения пример резултатите ще бъдат: изход-0.jpg, изход-1.jpg, изход-2.jpg, и т.н.
След това можете да ги обработите с tesseract, като му инструктирате да обработва всички файлове с заместващ символ, като запазва резултата в един файл, като стартира:
за i в изход- *; направете tesseract $ i outputresult; Свършен;Imagemagick има огромно разнообразие от опции за оптимизиране на изображенията и няма общ режим, за всеки вид сценарий трябва да прочетете командната страница на командата convert.
Надявам се, че този урок за Tesseract е полезен.