Herramienta OCR online [Google]


free ocr tool online¿Eres de los que siguen utilizando a día de hoy aplicaciones de escritorio para el reconocimiento de caracteres o eres de los que ha descubierto que el móvil, con Android, incluye una aplicación para procesar las fotos que realizas?

Cada cierto tiempo, los alumnos proponen algún tema (fuera del «temario» oficial) que les interesa y dedicamos una sesión a su estudio. En esta ocasión (gracias Jose Antonio), uno de los alumnos de Bachillerato, preguntaba cómo procesar unos documentos que tenía escaneados para poder editarlos.

Aunque en un primer momento sugerí el uso de tesseract, cuando me he parado a preparar la sesión he caído que es más fácil (y útil para ellos pues son pocos los que tienen Linux) recurrir a las herramientas en línea y ¡he aquí la opción que considero más sencilla!

Por fortuna me acordé haber leído que había sido implementado en Google Drive y es tan sencillo (una vez que lo tienes habilitado en la configuración) como subir el pdf y/o imagen que queremos procesar a nuestro «disco» virtual.

Configurar OCR

Accede a la configuración de tu Google Drive

Habilitar ocr google drive

Indica que te pregunte qué hacer cada vez que se suba un archivo (no creo que quieras procesar todas las imágenes que subas, ¿verdad?)

¡Y listo para procesar los documentos que tengas escaneados!

Reconocimiento de caracteres

Da igual que subas un pdf o una imagen con texto.

subir ficheros automáticamente a google drive

En mi caso he optado por una captura de pantalla de un artículo previo del blog

Te preguntará qué hacer con el contenido del fichero: indica que estás interesado en convertir el texto del archivo subido y el idioma del contenido (en mi caso español)

reconocimiento caracteres google

¡Listo! Ya tenemos un documento «perfectamente» convertido y sin tener que teclearlo 😉

mejorar resultados ocr

Conclusión

Solución muy sencilla que os va a permitir obtener el texto de cualquier pdf (sí, esos que teóricamente no son editables) y/o documento escaneado sin tener que instalar software adicional en vuestro equipo.

Siendo bastante bueno el OCR que utiliza Google, los resultados no son del todo perfectos por lo que es mas que posible que encontréis algún error (en el ejemplo que he usado yo, se ha «comido con patatas» las comillas dobles y algún acento) por lo que nos váis a librar de tener que darle un «pequeño» repaso al documento resultante.

Y tú…

  • ¿Qué software utilizas para el reconocimiento de caracteres?
  • ¿Sabías que Google lo tenía implementado?
  • ¿Utilizas algún truco para mejorar los resultados?
  • ¿Eres de escanear o prefieres teclear?

16 comentarios en “Herramienta OCR online [Google]

  1. Pingback: Bitacoras.com
  2. Los OCR siempre me han fascinado. Tengo pendiente un proyecto, escanear la enoooorme biblioteca que tengo en papel y convertirlos en EPUB o PDF decentes para la lectura en e-reader. Pero siempre me he dado de bruces contra unos OCR terribles y ahora que me pintan algo bueno, resulta que no tengo escaner.

    Mi duda, a ver si me la podrías resolver, es si podrías comprobar que tal lee imágenes escaneadas de un libro. Como profesor, sabrás que los márgenes interiores siempre quedan menos definidos en un escaner debido a la encuadernación y ahí ha sido donde siempre me han fallado los demás programas OCR.

    Si lo haces, te debo una y me compro un escaner a la de YA!! 🙂

    Me gusta

    1. Sin problemas: mándame una «muestra» a través del soporte técnico y vemos qué tal queda 😉

      Además: siempre podemos hacer «magia» con ImageMagick y quitar los «churretes» de todas las imágenes de un directorio antes de escanear.

      En tu caso no recomendaría usar el OCR de Google (demasiado trabajo tener que ir subiendo los documentos a procesar) sino Tesseract por aquello de crear un script que quite el ruido de los márgenes y procese mediante OCR el resultado (sólo es una idea «peleona» a depurar)

      Me gusta

  3. Pingback: OCR | Pearltrees

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.