Инсталиране на Tesseract OCR в Linux

Tesseract OCR (оптично разпознаване на символи) е безплатна програма с отворен код и програма за команден ред за извличане на текст от изображения, използвайки технология за оптично разпознаване на символи и алгоритми. Проектът е подкрепен от Google и от днес се счита за най-добрият наличен OCR двигател с отворен код. Той може да открива и извлича текст на множество езици с висока точност.

Инсталиране на Tesseract OCR в Linux

Tesseract OCR е наличен по подразбиране за повечето дистрибуции на Linux. Можете да го инсталирате в Ubuntu, като използвате командата по-долу:

$ sudo apt инсталирайте tesseract-ocr

Налични са подробни инструкции за други дистрибуции тук. Въпреки че Tesseract OCR по подразбиране се предлага в хранилищата на много дистрибуции на Linux, препоръчително е да инсталирате най-новата версия от горепосочената връзка за по-добра точност и синтактичен анализ.

Инсталиране на поддръжка за допълнителни езици в OCR на Tesseract

Tesseract OCR включва поддръжка за откриване на текст на над 100 езика. Въпреки това получавате поддръжка за откриване на текст на английски език само с инсталацията по подразбиране в Ubuntu. За да добавите поддръжка за разбор на допълнителни езици в Ubuntu, изпълнете команда в следния формат:

$ sudo apt инсталирайте tesseract-ocr-hin

Командата по-горе ще добави поддръжка за хинди език към Tesseract OCR. Понякога можете да получите по-добра точност и резултати, като инсталирате поддръжка за езикови скриптове. Например инсталирането и използването на пакета tesseract за скрипта на Devanagari “tesseract-ocr-script-deva” ми даде много по-точни резултати от използването на пакета “tesseract-ocr-hin”.

В Ubuntu можете да намерите правилни имена на пакети за всички езици и скриптове, като изпълните командата по-долу:

$ apt-cache търсене tesseract-

След като идентифицирате правилното име на пакета за инсталиране, заменете низа „tesseract-ocr-hin“ с него в първата команда, посочена по-горе.

Използване на Tesseract OCR за извличане на текст от изображения

Нека вземем пример за изображение, показано по-долу (взето от страницата на Wikipedia за Linux):

За да извлечете текст от изображението по-горе, трябва да изпълните команда в следния формат:

$ tesseract улавяне.png изход -l инж

Изпълнението на командата по-горе дава следния изход:

В командата по-горе „улавяне.png ”се отнася до изображението, от което искате да извлечете текста. След това уловеният изход се съхранява в „изхода.txt ”файл. Можете да промените езика, като замените аргумента “eng” с вашия собствен избор. За да видите всички валидни езици, изпълнете командата по-долу:

$ tesseract --list-langs

Той ще показва кодове на съкращения за всички езици, поддържани от Tesseract OCR във вашата система. По подразбиране ще показва само „eng“ като изход. Ако обаче инсталирате пакети за допълнителни езици, както е обяснено по-горе, тази команда ще изброи още езици, които можете да използвате за откриване на текст (като 3-писмени кодове на ISO 639).

Ако изображението съдържа текст на няколко езика, първо дефинирайте основния език, последван от допълнителни езици, разделени със знаци плюс.

$ tesseract улавяне.png изход -l eng + fra

Ако искате да съхраните изхода като PDF файл с възможност за търсене, изпълнете команда в следния формат:

$ tesseract улавяне.png изход -l eng pdf

Имайте предвид, че PDF файлът, който може да се търси, няма да съдържа текст, който може да се редактира. Той включва оригиналното изображение, с допълнителен слой, съдържащ разпознатия текст, насложен върху изображението. Така че, докато ще можете да търсите точно текст в PDF файла, използвайки който и да е PDF четец, няма да можете да редактирате текста.

Друг момент, който трябва да отбележите, че точността на откриване на текст се увеличава значително, ако файлът с изображение е с високо качество. Като имате избор, винаги използвайте файлови формати без загуби или PNG файлове. Използването на JPG файлове може да не даде най-добри резултати.

Извличане на текст от PDF файл с много страници

Tesseract OCR първоначално не поддържа извличане на текст от PDF файлове. Възможно е обаче да извлечете текст от PDF файл с много страници, като конвертирате всяка страница в файл с изображение. Изпълнете командата по-долу, за да конвертирате PDF файл в набор от изображения:

$ pdftoppm -png файл.pdf изход

За всяка страница от PDF файла ще получите съответния „output-1.png ”,„ изход-2.png ”файл и т.н.

Сега, за да извлечете текст от тези изображения с помощта на една команда, ще трябва да използвате „for loop“ в команда bash:

$ за i в *.png; направете tesseract "$ i" "output- $ i" -l eng; Свършен;

Изпълнението на горната команда ще извлече текст от всички „.png “файлове, намерени в работната директория и съхраняват разпознатия текст в„ output-original_filename.txt ”файлове. Можете да промените средната част на командата според вашите нужди.

Ако искате да комбинирате всички текстови файлове, съдържащи разпознатия текст, изпълнете командата по-долу:

$ котка *.txt> се присъедини.текст

Процесът за извличане на текст от PDF файл с много страници в PDF файлове с възможност за търсене е почти същият. Трябва да предоставите допълнителен аргумент „pdf“ на командата:

$ за i в *.png; направете tesseract "$ i" "output- $ i" -l eng pdf; Свършен;

Ако искате да комбинирате всички PDF файлове с възможност за търсене, съдържащи разпознатия текст, изпълнете командата по-долу:

$ pdfunite *.pdf се присъедини.pdf

Както „pdftoppm“, така и „pdfunite“ са инсталирани по подразбиране в най-новата стабилна версия на Ubuntu.

Предимства и недостатъци на извличането на текст в TXT и PDF файлове с възможност за търсене

Ако извлечете разпознат текст в TXT файлове, ще получите редактируем текст. Всяко форматиране на документи обаче ще бъде загубено (получер, курсив и т.н.). PDF файловете с възможност за търсене ще запазят оригиналното форматиране, но ще загубите възможностите за редактиране на текст (пак можете да копирате суров текст). Ако отворите PDF файла с възможност за търсене във всеки PDF редактор, ще получите вградени изображения във файла, а не изходен суров текст. Преобразуването на PDF файлове с възможност за търсене в HTML или EPUB също ще ви даде вградени изображения.

Заключение

Tesseract OCR е един от най-често използваните OCR двигатели днес. Той е безплатен с отворен код и поддържа над сто езика. Когато използвате Tesseract OCR, не забравяйте да използвате изображения с висока разделителна способност и коригирайте езикови кодове в аргументите на командния ред, за да подобрите точността на откриване на текст.