Obtener cualquier contenido de una web


lanzar xpath en google chrome

Y es que hay ocasiones en las que recopilar datos de cualquier fuente de información se hace vital para poder tomar decisiones y/o alimentar nuestro sistema de información.

Por desgracia no siempre contamos con una API para poder hacerlo y, en casos como estos, hay que tirar de ingenio para poder obtener datos que nos son preciados.

Aunque hace un tiempo os expliqué cómo extraer información de cualquier web con jQuery personalmente considero mucho más sencillo hacerlo utilizando expresiones XPath.

Hace algún tiempo incluso llegué a desarrollar un web crawler en PHP utilizando este tipo de expresiones, “mano de santo” 😉

Fue en aquel proyecto donde descubrí el addon del que quiero hablaros hoy: XPath Helper 

aplicar xpath sobre cualquier página web

un cómodo complemento del navegador que os permitirá experimentar en tiempo real sobre cualquier web lanzando consultas XPath.

En el siguiente ejemplo os muestro una XPath para recuperar todos los títulos de las entradas publicadas en portada

extraer contenido de una web

Conclusión

Interesante completo para extraer cualquier dato de internet que espero os resulte tan útil como a mí.

En una próxima entrega os enseñaré un ejemplo práctico de uso en el que recuperaremos de un documento de Google Docs  el número de aportaciones realizadas por cada uno de los integrantes de un grupo (muy útil a la hora de valorar la “implicación” en el trabajo en equipo 😏)

Y tú…

  • ¿Eres más de jQuery o de XPath a la hora de obtener información de una web?
  • ¿Conoces algún plugin similar?
  • ¿Crees que XPath y/o XSLT han perdido progagonismo y/o interés?
  • ¿Has desarrollado algo utilizando estas tecnologías?

6 comentarios en “Obtener cualquier contenido de una web

  1. Hola pues yo considero que hacer consultas con xpath como lenguaje resulta muy complicado. Quizás su sintaxis no se pueda hacer más sencilla y quizás mi mente sea “muy cuadriculada” al estilo de las base de datos relacionales o sql y no demasiado “arbórea” al estilo de las bases de datos nosql.

    Lo que si es verdad es que la mayoría de los datos son jerárquicos y casi nunca están estructurados, con lo cual xpath toma su valor.

    Muy útil como siempre.

    Saludos, Julio.

    1. Usarlo es quererlo: ni te imaginas las “barbaridades” que he llegado a implementar con XPath y las XSLT.

      Una vez te acostumbras a los rudimentos de seleccionar nodos con él (y en especial al operador // para que busque coincidencias a cualquier “profundidad”) te planteas cómo es posible no haberlo descubierto antes.

      XPath son las expresiones regulares del xml 👍🏻

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.