22 May 201826 May 2018 Informático de Guardia

Obtener cualquier contenido de una web

lanzar xpath en google chrome

Y es que hay ocasiones en las que recopilar datos de cualquier fuente de información se hace vital para poder tomar decisiones y/o alimentar nuestro sistema de información.

Por desgracia no siempre contamos con una API para poder hacerlo y, en casos como estos, hay que tirar de ingenio para poder obtener datos que nos son preciados.

Aunque hace un tiempo os expliqué cómo extraer información de cualquier web con jQuery personalmente considero mucho más sencillo hacerlo utilizando expresiones XPath.

Hace algún tiempo incluso llegué a desarrollar un web crawler en PHP utilizando este tipo de expresiones, «mano de santo» 😉

Fue en aquel proyecto donde descubrí el addon del que quiero hablaros hoy: XPath Helper

aplicar xpath sobre cualquier página web

un cómodo complemento del navegador que os permitirá experimentar en tiempo real sobre cualquier web lanzando consultas XPath.

En el siguiente ejemplo os muestro una XPath para recuperar todos los títulos de las entradas publicadas en portada

extraer contenido de una web

Conclusión

Interesante completo para extraer cualquier dato de internet que espero os resulte tan útil como a mí.

En una próxima entrega os enseñaré un ejemplo práctico de uso en el que recuperaremos de un documento de Google Docs el número de aportaciones realizadas por cada uno de los integrantes de un grupo (muy útil a la hora de valorar la «implicación» en el trabajo en equipo 😏)

Y tú…

¿Eres más de jQuery o de XPath a la hora de obtener información de una web?
¿Conoces algún plugin similar?
¿Crees que XPath y/o XSLT han perdido progagonismo y/o interés?
¿Has desarrollado algo utilizando estas tecnologías?
…

Publicado en Andalinux, ProgramaciónEtiquetado como addon, xpath, xslt6 comentarios

6 comentarios en “Obtener cualquier contenido de una web”

Rafael Vidal dice:

22 May 2018 a las 7:29 pm

Lo probaré, gracias por el artículo. Aunque curl y expresiones regulares tiene su punto…..

Me gustaMe gusta

Responder
1. Informático de Guardia dice:
  
  22 May 2018 a las 7:33 pm
  
  O un script en python «verbenero» y hacerle algunas perrerías al html pero no creas, XPath y este addon, tienen su gracia y prometo «demostrarlo» en futuras entradas (este es la «llave» para las próximas publicaciones que tengo programadas 😇) una de las cuales, especialmente, «sospecho» que te va a gustar 😏
  
  Me gustaMe gusta
  
  Responder
Julio dice:

22 May 2018 a las 10:46 pm

Hola pues yo considero que hacer consultas con xpath como lenguaje resulta muy complicado. Quizás su sintaxis no se pueda hacer más sencilla y quizás mi mente sea «muy cuadriculada» al estilo de las base de datos relacionales o sql y no demasiado «arbórea» al estilo de las bases de datos nosql.

Lo que si es verdad es que la mayoría de los datos son jerárquicos y casi nunca están estructurados, con lo cual xpath toma su valor.

Muy útil como siempre.

Saludos, Julio.

Me gustaMe gusta

Responder
1. Informático de Guardia dice:
  
  23 May 2018 a las 8:08 am
  
  Usarlo es quererlo: ni te imaginas las «barbaridades» que he llegado a implementar con XPath y las XSLT.
  
  Una vez te acostumbras a los rudimentos de seleccionar nodos con él (y en especial al operador // para que busque coincidencias a cualquier «profundidad») te planteas cómo es posible no haberlo descubierto antes.
  
  XPath son las expresiones regulares del xml 👍🏻
  
  Me gustaMe gusta
  
  Responder
Alberto dice:

24 May 2018 a las 9:06 pm

Buenas de nuevo. Las iḿagenes no me cargan 🙂

Me gustaMe gusta

Responder
1. Informático de Guardia dice:
  
  25 May 2018 a las 3:40 pm
  
  Gracias por tenerme al tanto Alberto, te envío un correo privado y, si no te importa, me das más detalles
  
  Me gustaMe gusta
  
  Responder

Deja un comentario Cancelar la respuesta

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.

	Xavi en Nueva versión actualizador est…
	Rafa Mar en Evitar publicidad en #You…
	Rafa Mar en Instalar open-terminal-here en…
	Rafa Mar en Evitar publicidad en #You…
	Rafa Mar en Evitar publicidad en #You…
	linuxmanr4 en Evitar publicidad en #You…
	internetLan (@intern… en Evitar publicidad en #You…
	Julio en Evitar publicidad en #You…

Conclusión

Y tú…

Compartir:

Relacionado

6 comentarios en “Obtener cualquier contenido de una web”

Deja un comentario Cancelar la respuesta