Entre las costumbres de las entidades públicas está la de publicar los datos en PDF, que si bien para imprimir es muy bonito, para intentar extraer información es la cosa más horrible del mundo.
Pues bien, si queréis convertir una tabla de un fichero PDF a CSV, podéis usar Tabula, una aplicación libre escrita en Java. Al ejecutarla nos abrirá nuestro navegador hacia un mini servidor web y una interfaz gráfica bastante apañada.
Permite seleccionar la tabla y la aplicación extraerá la información. Podremos repetir la selección en todas las páginas y las guardará en un solo fichero.
De vez en cuando falla y algunas columnas las mezcla, pero por lo general te puede sacar de un apuro.
También podemos encontrar Tabula como aplicación de línea de comandos o como biblioteca Java para incorporar a nuestra aplicación