Web scraping de una página web y conversión a pdf con .NET Core 3.1
Introducción
En esta entrada, voy a mostrar en un ejemplo práctico cómo hacer web scraping con .NET Core 3.1 utilizando una librería llamada HtmlAgilityPack, y cómo convertir su salida a pdf con ayuda de otro paquete o librería llamada PdfSharpCore.
El propósito de esta entrada no es otra que demostrar estas técnicas.
Para ello, utilizaré una página web de un sitio web concreto, pero quiero anticipar que no me hago responsable del mal uso que se pueda hacer de este código.
Recuerda que las leyes protegen el copyright y derechos de autor. Cualquier mal uso de estas técnicas pueden desencadenar en multas que pueden llegar a ser de cárcel.
Aunque en el pasado he utilizado técnicas de este tipo con Python, voy a hacer uso de C# como lenguaje de desarrollo, y .NET Core 3.1 como Framework de desarrollo, junto a Visual Studio 2019 como entorno de desarrollo.
¿Qué es web scraping?
Antes de continuar, y para los menos entendidos en la materia, debo hacer una pequeña pausa en la entrada para explicar qué es web scraping.
Web scraping es una técnica que permite extraer contenido e información de un recurso o página web.
Lo habitual es automatizar el proceso, pero podríamos utilizar esta técnica para extraer un contenido concreto de uno o varios recursos normalmente estáticos con los que queremos hacer algo.
Esto es precisamente lo que voy a hacer en esta entrada.
Voy a ir a una página web de comics antiguos, voy a descargar las imágenes de un comic, y voy a convertir ese contenido en un archivo pdf.
Para más señas, voy a ir a la página web https://leer-comics.blogspot.com/ y voy a coger un comic de ejemplo para descargar las imágenes del cómic y convertirlas a pdf.
Web Scraping
Para extraer el contenido de la página web, voy a utilizar WebRequest que encontraremos dentro de System.Net.
Podemos utilizar otras librerías, etc., pero en mi caso y para este ejemplo, esta clase cumple a la perfección con mi necesidad puntual.
En el caso de que queramos procesar múltiples páginas web a la vez, etc., deberemos tener un sistema consistente y concurrente para evitar problemas a la hora de «scrapear» contenido web.
HtmlAgilityPack
Este paquete nos facilitará la vida a la hora de navegar por el contenido de la página web descargada.
El flujo que voy a seguir es el de descargar el contenido html de la página web.
Cargar ese contenido en HtmlAgilityPack, y extraer cierto contenido que nos interesa.
La librería que voy a utilizar se puede encontrar en NuGet.
PdfSharpCore
Esta librería nos permitirá crear documentos pdf.
Puedo poner marcas de agua, etc., pero aquí y en este ejemplo, voy a utilizarlo para añadir una a una todas las imágenes del documento pdf y guardarlo en disco.
La librería que voy a utilizar se puede encontrar en NuGet.
El código
El código lo podrás descargar de mi cuenta de GitHub. Encontrarás en el enlace al final de esta entrada.
El flujo del proceso es el que detallo a continuación:
- Obtenemos el contenido Html
- Cargamos el contenido en HtmlAgilityPack
- Obtenemos todos los elementos que nos interesan de la página. En este caso, todas las imágenes.
- Como sé que de todas las imágenes de la página web, sólo nos interesa un subconjunto de ellas muy concreto, me quedo con ese subconjunto y elimino los posibles duplicados, todo con LINQ.
- Descargo todas esas imágenes a disco en el ordenador local.
- Finalmente, genero el documento pdf de todas las imágenes que he guardado en disco, borrando todas las imágenes una vez generado el documento pdf.
La aplicación, requerirá varios parámetros de entrada:
- La Uri del comic
- La carpeta temporal en la que guardaremos las imágenes del comic que descargaremos temporalmente de la página web del comic, y el documento pdf.
- El nombre del fichero pdf.
Esta es la base principal del proyecto.
A partir de aquí, cada uno puede explorar posibilidades de cómo «jugar» con HtmlAgilityPack y PdfSharpCore en sus proyectos, ya que ambas librerías ofrecen muchas posibilidades.
Espero que el proyecto te resulte curioso e interesante.
RECUERDA QUE ES UN PROYECTO EXPERIMENTAL DE DEMOSTRACIÓN DE ESTAS LIBRERÍAS.
NO ME HAGO RESPONSABLE DEL MAL USO QUE PUEDAS DAR DE ESTE CÓDIGO.
ESO SERÁ RESPONSABILIDAD DE QUIEN HAGA MAL USO DE ÉL.
SI EJECUTAS EL CÓDIGO Y GENERAS UN PDF, RECUERDA ELIMINARLO.
RECUERDA QUE EL CONTENIDO DE PROPIEDAD INTELECTUAL ESTÁ PROTEGIDO POR LAS LEYES Y PUEDEN ACARREAR SANCIONES ECONÓMICAS O CÁRCEL.
El código lo encontrarás en mi cuenta de GitHub.
Happy Coding!
3 Responsesso far
Hola: la web de ejemplo ya no está accesible. ¿Alguna alternativa?. Gracias por todo.
Hola Paco.
La web no era muy legal, la verdad.
Pero básicamente tendrás que crearte tu «scrapeo» con alguna web existente.
Para «jugar», puedes utilizar la web de un diario, organización, empresa, tienda, etc.
Cualquiera con tal de probar y «jugar» un poco.
Un saludo.
hola
felicidades por tu trabajo. suelo mirarlo y veo cosas interesantes.
tengo un poco de confusion con los conceptos de netcore3.1.
he migrado una appdesk realizada en wpf a netcore3.1.
¿es posible visualizarla mediante blazor a traves de web?
o solo es posible con asp netcore3.1?
gracias!