Tabula: Para convertir tablas de PDFs a CSV

Entre las costumbres de las entidades públicas está la de publicar los datos en PDF, que si bien para imprimir es muy bonito, para intentar extraer información es la cosa más horrible del mundo.

Pues bien, si queréis convertir una tabla de un fichero PDF a CSV, podéis usar Tabula, una aplicación libre escrita en Java. Al ejecutarla nos abrirá nuestro navegador hacia un mini servidor web y una interfaz gráfica bastante apañada.

Permite seleccionar la tabla y la aplicación extraerá la información. Podremos repetir la selección en todas las páginas y las guardará en un solo fichero.

De vez en cuando falla y algunas columnas las mezcla, pero por lo general te puede sacar de un apuro.

También podemos encontrar Tabula como aplicación de línea de comandos o como biblioteca Java para incorporar a nuestra aplicación

3 Me gusta

uffff me viene que ni pintado… Me llegan albaranes en PDF algunas veces con más de 250 números de serie y es muy divertido sacarlos :slight_smile:

Interesante. Hace poco me vi en la necesidad de hacer eso, y tuve que convertir el PDF a XLSX (mediante smallpdf.com, en línea) y luego a CSV mediante LibreOffice… un jaleo.

Tendré que echarle un ojo. A lo mejor son prejuicios míos, pero el tema de basarse en Java me preocupa algo…

1 me gusta