«Tabula» – инструмент извлечение данных из таблиц PDF

Фрагмент интерфейса сайта FlowingData
Фрагмент интерфейса сайта FlowingData
«Tabula» – про­грам­ма, поз­во­ля­ю­щая извле­кать таб­лич­ные дан­ные из PDF фай­лов для после­ду­ю­ще­го исполь­зо­ва­ния и редак­ти­ро­ва­ния.

Про­грам­ма «Tabula» была созда­на раз­ра­бот­чи­ком Ману­элем Ари­ста­ра­ном при под­держ­ке ProPublica, LaNacionData и Knight-MozillaOpenNews. Несмот­ря на стро­го огра­ни­чен­ный функ­ци­о­нал инстру­мен­та, он может стать одним из глав­ных помощ­ни­ков при рабо­те с боль­ши­ми объ­е­ма­ми тек­сто­вых доку­мен­тов.

«Tabula» реша­ет про­бле­му недо­ступ­но­сти таб­лич­ных дан­ных, хра­ня­щих­ся в PDF фай­лах. Поль­зо­ва­те­лю боль­ше не при­дет­ся вруч­ную пере­но­сить дан­ные из таб­лиц в новый доку­мент – про­грам­ма предо­ста­вит их в спе­ци­аль­ном CSV фор­ма­те.

Для полу­че­ния таб­лич­ных дан­ных доста­точ­но уста­но­вить «Tabula» на ком­пью­тер, открыть PDF файл с нуж­ны­ми таб­лич­ны­ми дан­ны­ми и обве­сти их мыш­кой – про­грам­ма пред­ло­жит ско­пи­ро­вать таб­ли­цу в CSV фор­ма­те или ска­чать CSV или TSV.

«Tabula» доступ­на для всех вер­сий ОС, для ее рабо­ты потре­бу­ет­ся уста­но­вить JAVA. Созда­тель про­грам­мы пред­ла­га­ет про­грам­ми­стам вме­сте пора­бо­тать над ее усо­вер­шен­ство­ва­ни­ем на GitHub.

Узнать подроб­нее о про­цес­се уста­нов­ки и ска­чать «Tabula».