Extraer imágenes de un pdf sin perder calidad

De un tiempo a esta parte vengo haciendo “experimentos” con la digitalización de documentos y el procesamiento de sus contenidos.

En una de mis pruebas se me hacía necesaria la posibilidad de sacar todas las imágenes de un pdf resultante de escanear unos documentos.

Para este tipo de tareas, suelo utilizar el comando convert pero, a pesar de probar con varios valores del parámetro density no conseguía evitar (especialmente) los textos de las imágenes se viesen borrosos (cuando no ocurría así en el pdf original)

Por fortuna, he encontrado la herramienta que evita perder calidad al extraer imágenes de un documento pdf… pasa, pasa: te cuento cómo hacerlo.

El truco reside en utilizar el comando pdfimages (en Archlinux se encuentra en el paquete Poppler) bastando invocarlo con un simple

pdfimages -j miPdf.pdf prefijo

Donde:

  1. prefijo es el texto por el que queremos que empiecen todos los ficheros que contendrán las imágenes que se extraigan del documento
  2. miPdf.pdf es el documento del que deseamos extraer las imágenes
  3. -j es para extraer en formato JPG las imágenes extraídas (existen parámetros para hacerlo en png, tiff e incluso jpg2000 del que ya hablaremos uno de estos días si os apetece 😉 )

Sencillo ¿verdad?

Conclusión

Conocido comando que te permitirá extraer todas las imágenes incrustradas en un documento pdf. En mi caso, estoy tratando pdfs resultantes de escanear un conjunto de páginas con un fotocopiadora por lo que, cada página del documento escaneado, se corresponde con una imagen. Si en tu caso usas un pdf no escaneado y las imágenes pertenecen a ilustraciones del texto, el número de imágenes extraídas no tiene por qué coincidir con el número de páginas del documento.

Y tú…

  • ¿Sueles procesar el contenido de pdfs?
  • ¿Conoces otras formas de extraer imágenes de un pdf sin perder calidad?
  • ¿Usas alguna alternativa en Windows?
  • ¿Has usado alguna vez pdfimages?
  • ¿Habías notado la pérdida de calidad que produce convert al extraer imágenes?

4 comentarios en “Extraer imágenes de un pdf sin perder calidad

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s