PDF

Как да извлечете таблици от PDF документи

Как да извлечете таблици от PDF документи

Тази статия ще ви покаже как да извличане на таблици от PDF документи. Може да имате много PDF файлове, които съдържат множество таблици, които искате да използвате отделно. Копирането и поставянето на тези таблици не е добра опция, тъй като може да не даде очаквания изход, затова се нуждаете от някои други прости опции, които могат да извлекат таблици от PDF файл и да запазят тези таблици като отделни файлове.

Повечето от тях PDF инструменти за извличане на таблици не може да помогне, ако PDF таблицата е сканирана. В такъв случай първо трябва да направите търсенето в PDF и след това да опитате тези опции.

Извличане на таблици от PDF документи

В този пост добавихме 2 безплатни онлайн услуги и 3 безплатни софтуера за извличане на таблици от PDF файл:

  1. PDF към XLS
  2. PDFtoExcel.com
  3. Табула
  4. ByteScout PDF Multitool
  5. Sejda PDF Desktop.

1] PDF към XLS

PDF към XLS е една от най-добрите опции за извличане на таблици от PDF. Той има две функции, които го правят удобен. Можете да изтеглите таблици от 20 PDF документи заедно. Също така извличането на PDF таблица е автоматично. Той генерира изхода като XLSX файл. Ако PDF има няколко таблици, тогава всяка таблица се съхранява отделно в различни листове изходен XLSX файл.

Отворете началната страница на тази услуга. След това плъзнете n пуснете PDF файлове или използвайте КАЧЕТЕ ФАЙЛОВЕ бутон. Всеки качен PDF файл автоматично се преобразува във файл с формат XLSX. Когато изходните файлове са готови, можете да ги изтеглите един по един или да изтеглите ZIP файл, който ще съдържа всички изходни файлове.

2] PDFtoExcel.com

PDFtoExcel.com услугата може да извлича таблици от един PDF наведнъж, но поддържа множество платформи за качване на PDF. Той поддържа OneDrive, работен плот, Google Диск, и Dropbox платформи за качване на PDF. Освен това процесът на преобразуване е автоматичен.

Тази начална страница на услугата е тук. Там изберете опция за качване, за да добавите PDF. След това той автоматично качва и преобразува PDF в Excel (XLSX) файл. Когато изходът е готов, ще получите връзката за изтегляне, за да запазите изходния файл, съдържащ PDF таблица (и).

Забележка: Въпреки че тази услуга споменава, че може да извлича таблици и от сканирани PDF файлове, това не работи при мен. Все още можете да го изпробвате за сканиран PDF.

3] Табула

Tabula е мощен софтуер, който може автоматично да открива таблици в PDF и след това ви позволява да запазвате тези таблици като TSV, JSON, или CSV файл. Можете да изберете опцията за запазване на отделни CSV файлове за всяка PDF таблица или да запишете всички таблици в един CSV файл.

За да изтеглите това отворен код PDF екстрактор на таблици, щракнете тук. То също изисква Java за да стартирате и използвате успешно.

Извлечете ZIP файла, който сте изтеглили, и стартирайте табула.exe файл. Той ще отвори страница в браузъра ви по подразбиране. Ако страницата не е отворена, добавете http: // localhost: 8080 във вашия браузър и натиснете Въведете.

Сега ще видите неговия интерфейс, където можете да използвате Преглед опция за добавяне на PDF. След това натиснете Внос бутон. Когато PDF файлът е добавен, можете да видите PDF страници на неговия интерфейс.

Използвайте Автоматично откриване на таблици и автоматично ще маркира всички таблици, присъстващи в този PDF. Можете също така ръчно да маркирате таблица, като изберете конкретна таблица. Ако искате, можете и вие премахване на избраните таблици по твой избор.

Това ще ви помогне да запазите само тези таблици, които искате. Когато PDF таблиците са маркирани, щракнете върху Преглед и експортиране на извлечени данни бутон.

Накрая, използвайте падащото меню, налично в горната част, за да изберете изходен формат и натиснете Износ бутон. Това ще запази PDF таблици в избрания от вас файл на изходния формат.

4] ByteScout PDF Multitool

Както подсказва името, този софтуер се предлага с множество инструменти. Разполага с инструменти като конвертирате PDF в многостраничен TIFF, завъртане на PDF документ, направете PDF неподлежащ на търсене, оптимизиране на PDF, добавете изображение към PDF, и още. Има и функция за детектор на PDF таблица, която е доста страхотна. Предимството на този инструмент е, че можете извличане на таблици от сканиран PDF също. Можете да откриете таблици в множество страници и след това да ги извлечете като CSV, XLS, XML, текст, или JSON формат файл. Преди извличане, той също ви позволява да зададете a диапазон от страници за извличане на таблици само от определени страници.

Можете да вземете този софтуер тук. то е безплатно за нетърговска употреба само. След инсталацията стартирайте този софтуер и използвайте Отворете документа опция за добавяне на PDF. След това кликнете върху Откриване на таблици инструмент, както е подчертано на изображението по-горе. Този инструмент присъства под Извличане на данни категория.

Ще се отвори поле, където можете да зададете условия за откриване на таблици. Например можете да зададете минимален брой колони, редове, минимални прекъсвания на редове между таблици, да зададете режим на откриване на таблица на таблица с рамки или без полета и т.н. Използвайте опции или запазете настройките по подразбиране.

След това натиснете Открийте следващата таблица бутон в това поле. Той ще идентифицира и ще избере таблица на текущата страница. По този начин можете да преминете към друга страница и да откриете още таблици.

Когато сте готови, използвайте Продължете към екстракцията и изберете изходния формат. И накрая, можете да използвате опции, за да запазите таблиците от текущата страница или да дефинирате диапазон от страници и да запазите изхода.

Инструментът дава задоволителен изход. Но понякога може да открие друго съдържание в PDF и може да не успее да извлече таблици от множество страници. В този случай трябва да го използвате, за да извличате и запазвате таблици една по една.

5] Sejda PDF Desktop

Sejda PDF Desktop също е многофункционален софтуер. Може да оптимизира или компресиране на PDF, добавяне на воден знак към PDF, премахване на ограничения от PDF, редактиране на PDF документ и др. Безплатният му план обаче има ограничения. В безплатния план могат да се изпълняват само 3 задачи на ден. Също така, ограничението за размера на PDF е 50 MB или 10 страници.

Можете да използвате неговия PDF към Excel инструмент за преобразуване за извличане на PDF таблици. Той автоматично открива таблиците в PDF страници и ви позволява да запазвате тези таблици като XLSX или CSV.

Връзката за изтегляне е тук. След инсталацията използвайте инструмента PDF в Excel от основния му интерфейс. След като изберете този инструмент, използвайте Изберете PDF файлове бутон. Само един PDF файл може да бъде добавен към безплатния план.

Когато PDF файлът бъде добавен, той ще предостави Конвертиране на PDF в CSV и Конвертиране на PDF в Excel бутони. Използвайте бутон и след това можете да запазите изхода на желаното място на вашия компютър.

Инструментът за откриване на таблици в PDF е добър. Не е нужно ръчно да откривате таблици. И все пак понякога може да включва друго текстово съдържание като PDF таблица и да го съхранява в изхода. Но като цяло резултатите са добри.

Това е всичко.

Това са някои добри инструменти за извличане на таблици от PDF. Софтуерът Tabula е по-ефективен от другите инструменти. И все пак можете да изпробвате всички инструменти и да проверите кое помага.

Подобно чете:

OpenTTD срещу Simutrans
Създаването на собствена транспортна симулация може да бъде забавно, релаксиращо и изключително примамливо. Ето защо трябва да сте сигурни, че изпробв...
Урок за OpenTTD
OpenTTD е една от най-популярните бизнес симулационни игри там. В тази игра трябва да създадете прекрасен транспортен бизнес. Въпреки това, ще започне...
SuperTuxKart за Linux
SuperTuxKart е страхотно заглавие, създадено да ви предостави безплатно изживяването на Mario Kart във вашата Linux система. Играта е доста предизвика...