De un tiempo a esta parte vengo haciendo «experimentos» con la digitalización de documentos y el procesamiento de sus contenidos.
En una de mis pruebas se me hacía necesaria la posibilidad de sacar todas las imágenes de un pdf resultante de escanear unos documentos.
Para este tipo de tareas, suelo utilizar el comando convert pero, a pesar de probar con varios valores del parámetro density no conseguía evitar (especialmente) los textos de las imágenes se viesen borrosos (cuando no ocurría así en el pdf original)
Por fortuna, he encontrado la herramienta que evita perder calidad al extraer imágenes de un documento pdf… pasa, pasa: te cuento cómo hacerlo.
El truco reside en utilizar el comando pdfimages (en Archlinux se encuentra en el paquete Poppler) bastando invocarlo con un simple
pdfimages -j miPdf.pdf prefijo
Donde:
- prefijo es el texto por el que queremos que empiecen todos los ficheros que contendrán las imágenes que se extraigan del documento
- miPdf.pdf es el documento del que deseamos extraer las imágenes
- -j es para extraer en formato JPG las imágenes extraídas (existen parámetros para hacerlo en png, tiff e incluso jpg2000 del que ya hablaremos uno de estos días si os apetece 😉 )
Sencillo ¿verdad?
Conclusión
Conocido comando que te permitirá extraer todas las imágenes incrustradas en un documento pdf. En mi caso, estoy tratando pdfs resultantes de escanear un conjunto de páginas con un fotocopiadora por lo que, cada página del documento escaneado, se corresponde con una imagen. Si en tu caso usas un pdf no escaneado y las imágenes pertenecen a ilustraciones del texto, el número de imágenes extraídas no tiene por qué coincidir con el número de páginas del documento.
Y tú…
- ¿Sueles procesar el contenido de pdfs?
- ¿Conoces otras formas de extraer imágenes de un pdf sin perder calidad?
- ¿Usas alguna alternativa en Windows?
- ¿Has usado alguna vez pdfimages?
- ¿Habías notado la pérdida de calidad que produce convert al extraer imágenes?
- …
Hola Hola…
Al igual que tú muchas operaciones las realizaba con convert, pero si el trabajo es grande puede requerir una cantidad enorme de recursos. Por eso, en su lugar uso GraphicsMagick en su lugar ( http://linuxmanr4.com/2017/06/02/reducir-tamano-archivo-pdf/ ). No conocía pdfimages así que haré algunas pruebas cuando tenga oportunidad.
Saludos 🙂
Me gustaMe gusta
Interesante propuesta GraphicsMagick, lo anoto para estudiarla (¿respetará la calidad de las imágenes? 🤔)
Gracias compañero por enriquecernos con tu aportación 👍
Me gustaMe gusta
muchas gracias
Me gustaMe gusta
A ti compañero, todo un placer.
Tiempo sin «verte» 😉
Me gustaMe gusta