Y es que hay ocasiones en las que recopilar datos de cualquier fuente de información se hace vital para poder tomar decisiones y/o alimentar nuestro sistema de información.
Por desgracia no siempre contamos con una API para poder hacerlo y, en casos como estos, hay que tirar de ingenio para poder obtener datos que nos son preciados.
Aunque hace un tiempo os expliqué cómo extraer información de cualquier web con jQuery personalmente considero mucho más sencillo hacerlo utilizando expresiones XPath.
Hace algún tiempo incluso llegué a desarrollar un web crawler en PHP utilizando este tipo de expresiones, «mano de santo» 😉
Fue en aquel proyecto donde descubrí el addon del que quiero hablaros hoy: XPath Helper
un cómodo complemento del navegador que os permitirá experimentar en tiempo real sobre cualquier web lanzando consultas XPath.
En el siguiente ejemplo os muestro una XPath para recuperar todos los títulos de las entradas publicadas en portada
Conclusión
Interesante completo para extraer cualquier dato de internet que espero os resulte tan útil como a mí.
En una próxima entrega os enseñaré un ejemplo práctico de uso en el que recuperaremos de un documento de Google Docs el número de aportaciones realizadas por cada uno de los integrantes de un grupo (muy útil a la hora de valorar la «implicación» en el trabajo en equipo 😏)
Y tú…
- ¿Eres más de jQuery o de XPath a la hora de obtener información de una web?
- ¿Conoces algún plugin similar?
- ¿Crees que XPath y/o XSLT han perdido progagonismo y/o interés?
- ¿Has desarrollado algo utilizando estas tecnologías?
- …
Lo probaré, gracias por el artículo. Aunque curl y expresiones regulares tiene su punto…..
Me gustaMe gusta
O un script en python «verbenero» y hacerle algunas perrerías al html pero no creas, XPath y este addon, tienen su gracia y prometo «demostrarlo» en futuras entradas (este es la «llave» para las próximas publicaciones que tengo programadas 😇) una de las cuales, especialmente, «sospecho» que te va a gustar 😏
Me gustaMe gusta
Hola pues yo considero que hacer consultas con xpath como lenguaje resulta muy complicado. Quizás su sintaxis no se pueda hacer más sencilla y quizás mi mente sea «muy cuadriculada» al estilo de las base de datos relacionales o sql y no demasiado «arbórea» al estilo de las bases de datos nosql.
Lo que si es verdad es que la mayoría de los datos son jerárquicos y casi nunca están estructurados, con lo cual xpath toma su valor.
Muy útil como siempre.
Saludos, Julio.
Me gustaMe gusta
Usarlo es quererlo: ni te imaginas las «barbaridades» que he llegado a implementar con XPath y las XSLT.
Una vez te acostumbras a los rudimentos de seleccionar nodos con él (y en especial al operador // para que busque coincidencias a cualquier «profundidad») te planteas cómo es posible no haberlo descubierto antes.
XPath son las expresiones regulares del xml 👍🏻
Me gustaMe gusta
Buenas de nuevo. Las iḿagenes no me cargan 🙂
Me gustaMe gusta
Gracias por tenerme al tanto Alberto, te envío un correo privado y, si no te importa, me das más detalles
Me gustaMe gusta