Jorge Serrano
  • Home

Web scraping de una página web y conversión a pdf con .NET Core 3.1

  • By jorge
  • May-1-2020
  • .NET Core 3.1, HtmlAgilityPack, PdfSharpCore, Scraper
  • 3 Comments.

Introducción

En esta entrada, voy a mostrar en un ejemplo práctico cómo hacer web scraping con .NET Core 3.1 utilizando una librería llamada HtmlAgilityPack, y cómo convertir su salida a pdf con ayuda de otro paquete o librería llamada PdfSharpCore.

El propósito de esta entrada no es otra que demostrar estas técnicas.

Para ello, utilizaré una página web de un sitio web concreto, pero quiero anticipar que no me hago responsable del mal uso que se pueda hacer de este código.

Recuerda que las leyes protegen el copyright y derechos de autor. Cualquier mal uso de estas técnicas pueden desencadenar en multas que pueden llegar a ser de cárcel.

Aunque en el pasado he utilizado técnicas de este tipo con Python, voy a hacer uso de C# como lenguaje de desarrollo, y .NET Core 3.1 como Framework de desarrollo, junto a Visual Studio 2019 como entorno de desarrollo.

¿Qué es web scraping?

Antes de continuar, y para los menos entendidos en la materia, debo hacer una pequeña pausa en la entrada para explicar qué es web scraping.

Web scraping es una técnica que permite extraer contenido e información de un recurso o página web.

Lo habitual es automatizar el proceso, pero podríamos utilizar esta técnica para extraer un contenido concreto de uno o varios recursos normalmente estáticos con los que queremos hacer algo.

Esto es precisamente lo que voy a hacer en esta entrada.

Voy a ir a una página web de comics antiguos, voy a descargar las imágenes de un comic, y voy a convertir ese contenido en un archivo pdf.

Para más señas, voy a ir a la página web https://leer-comics.blogspot.com/ y voy a coger un comic de ejemplo para descargar las imágenes del cómic y convertirlas a pdf.

Web Scraping

Para extraer el contenido de la página web, voy a utilizar WebRequest que encontraremos dentro de System.Net.

Podemos utilizar otras librerías, etc., pero en mi caso y para este ejemplo, esta clase cumple a la perfección con mi necesidad puntual.

En el caso de que queramos procesar múltiples páginas web a la vez, etc., deberemos tener un sistema consistente y concurrente para evitar problemas a la hora de «scrapear» contenido web.

HtmlAgilityPack

Este paquete nos facilitará la vida a la hora de navegar por el contenido de la página web descargada.

El flujo que voy a seguir es el de descargar el contenido html de la página web.

Cargar ese contenido en HtmlAgilityPack, y extraer cierto contenido que nos interesa.

La librería que voy a utilizar se puede encontrar en NuGet.

PdfSharpCore

Esta librería nos permitirá crear documentos pdf.

Puedo poner marcas de agua, etc., pero aquí y en este ejemplo, voy a utilizarlo para añadir una a una todas las imágenes del documento pdf y guardarlo en disco.

La librería que voy a utilizar se puede encontrar en NuGet.

El código

El código lo podrás descargar de mi cuenta de GitHub. Encontrarás en el enlace al final de esta entrada.

El flujo del proceso es el que detallo a continuación:

  • Obtenemos el contenido Html
  • Cargamos el contenido en HtmlAgilityPack
  • Obtenemos todos los elementos que nos interesan de la página. En este caso, todas las imágenes.
  • Como sé que de todas las imágenes de la página web, sólo nos interesa un subconjunto de ellas muy concreto, me quedo con ese subconjunto y elimino los posibles duplicados, todo con LINQ.
  • Descargo todas esas imágenes a disco en el ordenador local.
  • Finalmente, genero el documento pdf de todas las imágenes que he guardado en disco, borrando todas las imágenes una vez generado el documento pdf.

La aplicación, requerirá varios parámetros de entrada:

  • La Uri del comic
  • La carpeta temporal en la que guardaremos las imágenes del comic que descargaremos temporalmente de la página web del comic, y el documento pdf.
  • El nombre del fichero pdf.

Esta es la base principal del proyecto.

A partir de aquí, cada uno puede explorar posibilidades de cómo «jugar» con HtmlAgilityPack y PdfSharpCore en sus proyectos, ya que ambas librerías ofrecen muchas posibilidades.

Espero que el proyecto te resulte curioso e interesante.

RECUERDA QUE ES UN PROYECTO EXPERIMENTAL DE DEMOSTRACIÓN DE ESTAS LIBRERÍAS.

NO ME HAGO RESPONSABLE DEL MAL USO QUE PUEDAS DAR DE ESTE CÓDIGO.

ESO SERÁ RESPONSABILIDAD DE QUIEN HAGA MAL USO DE ÉL.

SI EJECUTAS EL CÓDIGO Y GENERAS UN PDF, RECUERDA ELIMINARLO.

RECUERDA QUE EL CONTENIDO DE PROPIEDAD INTELECTUAL ESTÁ PROTEGIDO POR LAS LEYES Y PUEDEN ACARREAR SANCIONES ECONÓMICAS O CÁRCEL.

El código lo encontrarás en mi cuenta de GitHub.

Happy Coding!

Comments

3 Responsesso far

  1. Paco dice:
    10 junio, 2020 a las 10:58 am

    Hola: la web de ejemplo ya no está accesible. ¿Alguna alternativa?. Gracias por todo.

    Responder
    • jorge dice:
      26 julio, 2020 a las 7:00 pm

      Hola Paco.

      La web no era muy legal, la verdad.

      Pero básicamente tendrás que crearte tu «scrapeo» con alguna web existente.
      Para «jugar», puedes utilizar la web de un diario, organización, empresa, tienda, etc.
      Cualquiera con tal de probar y «jugar» un poco.

      Un saludo.

      Responder
  2. Jv dice:
    16 junio, 2020 a las 4:25 pm

    hola
    felicidades por tu trabajo. suelo mirarlo y veo cosas interesantes.
    tengo un poco de confusion con los conceptos de netcore3.1.
    he migrado una appdesk realizada en wpf a netcore3.1.
    ¿es posible visualizarla mediante blazor a traves de web?
    o solo es posible con asp netcore3.1?
    gracias!

    Responder

Deja un comentario Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

← Previous Post Next Post →

Jorge Serrano

MVP Reconnect


¡Subscríbete a mi canal!
YouTube

Donaciones
Donation

Entradas recientes

  • Go – Arrays
  • Go – Operators
  • Go – Constants
  • Go – Tipos de Datos
  • Go – Variables
  • Hello Go-rld!
  • Introducción a Go o Golang
  • JSON Patch en ASP.NET Core 5 Web API
  • Null Checking en C#
  • ¿Porqué mi página web por defecto de ASP.NET Core no se vé en mi Azure Web App y me da un 404?

Categorías

  • .NET 5
  • .NET Core
  • .NET Core 3.0
  • .NET Core 3.1
  • .NET Framework 2.0
  • .NET Framework 3.0
  • .NET Framework 3.5
  • .NET Framework 4.0
  • .NET Framework 4.5
  • .NET Framework 4.6
  • .NET Framework 4.7
  • .NET Framework 4.8
  • .NET Standard 2.0
  • .NET Standard 2.1
  • AMQP
  • Android
  • Angular
  • API REST
  • Apple
  • Apple iOS
  • Apple macOs
  • Arquitectura
  • ASP.NET
  • ASP.NET Core
  • ASP.NET Core 3
  • ASP.NET Core 5
  • AWS
  • Azure App Service
  • Azure Application Insights
  • Azure Cosmos DB
  • Azure Database Migration Service
  • Azure Databricks
  • Azure DevOps
  • Azure Event Grid
  • Azure Functions
  • Azure IoT
  • Azure Portal
  • Azure PowerShell
  • Azure Queue Storage
  • Azure SQL
  • Azure Storage
  • Azure Virtual Datacenter
  • Azure WebApps
  • Big Data
  • Bing
  • Blazor
  • Blog
  • Bots
  • C#
  • C# 7.0
  • C# 7.1
  • C# 7.2
  • C# 7.3
  • C# 8.0
  • C# 9.0
  • Channel 9
  • Codeplex
  • Codespaces
  • Containers
  • Debugging
  • DevOps
  • Docker
  • Electron
  • Entity Framework
  • Entity Framework Core
  • Entity Framework Core 3.0
  • Entity Framework Core 5
  • Eventos
  • F#
  • FaaS
  • FeatureFlags
  • FeatureToggles
  • Feeds
  • Fluent Assertions
  • General
  • GIMP
  • Git
  • GitHub
  • Go
  • Google
  • Google Analytics
  • Gradle
  • gRPC
  • GSA
  • Historia de la Informática
  • HoloLens
  • HtmlAgilityPack
  • IdentityServer4
  • Inkscape
  • Ionic
  • iOS
  • IoT
  • Java
  • JavaScript
  • JDBC
  • JSON
  • Kubernetes
  • Lenguajes de Programación
  • Libros y Cursos
  • LINQ
  • Linux
  • LiteDB
  • Machine Learning
  • macOS
  • Microservices
  • Microsoft
  • Microsoft .NET Framework 4.5
  • Microsoft 365
  • Microsoft Azure
  • Microsoft Build
  • Microsoft Ignite
  • Microsoft Learn
  • Microsoft Orleans
  • Microsoft Surface Go
  • Microsoft Teams
  • ML.NET
  • MQTT
  • MRO
  • MS-DOS
  • MsCoders Madrid
  • MVP
  • NancyFx
  • Node.js
  • NoSQL
  • NuGet
  • NUnit
  • OData
  • ODP.NET Core
  • Office 2007
  • Office 2010
  • Office 2013
  • Office 2016
  • Office 2019
  • Office 365
  • Open Source
  • Open XML SDK
  • Opinión
  • Orchard CMS
  • OT
  • PaaS
  • Patterns
  • PdfSharpCore
  • Performance
  • PHP
  • Postman
  • Power BI
  • PowerShell
  • PowerShell Core
  • Productividad
  • Project Server 2019
  • R
  • Rendimiento
  • Scala
  • Scraper
  • Security
  • Serverless
  • Service Fabric
  • SharePoint Server 2019
  • SignalR
  • Sin categoría
  • Sistemas Distribuidos
  • Skype
  • Skype for Business Server 2019
  • Small Basic Online
  • SQL Server 2005
  • SQL Server 2008
  • SQL Server 2012
  • SQL Server 2014
  • SQL Server 2016
  • SQL Server 2017
  • SQL Server 2019
  • STOMP
  • Swagger
  • Testing
  • TFS 2017
  • TFS 2018
  • Tools
  • TypeScript
  • Unity
  • UWP
  • UX
  • Visio
  • Visual Basic
  • Visual Studio 2010
  • Visual Studio 2012
  • Visual Studio 2013
  • Visual Studio 2015
  • Visual Studio 2017
  • Visual Studio 2017 for Mac
  • Visual Studio 2019
  • Visual Studio 2019 for Mac
  • Visual Studio App Center
  • Visual Studio Code
  • Visual Studio IntelliCode
  • Visual Studio Live Share
  • Visual Studio Live Share Audio
  • Visual Studio Online
  • VS Anywhere
  • Vue.js
  • Web API
  • WebAssembly
  • WinDbg
  • Windows
  • Windows 10
  • Windows Compatibility Pack
  • Windows Phone 10
  • Windows Phone 7
  • Windows Phone 8
  • Windows Server 2008
  • Windows Server 2012
  • Windows Server 2016
  • Windows Server 2019
  • Windows Service
  • WinForms
  • WinUI
  • WPF
  • Xamarin
  • Xbox
  • Xcode
  • Xiaomi Mi Band 2
  • xUnit
  • YAML

Archivos

  • enero 2021
  • diciembre 2020
  • noviembre 2020
  • octubre 2020
  • septiembre 2020
  • agosto 2020
  • julio 2020
  • junio 2020
  • mayo 2020
  • abril 2020
  • marzo 2020
  • febrero 2020
  • enero 2020
  • diciembre 2019
  • noviembre 2019
  • octubre 2019
  • septiembre 2019
  • agosto 2019
  • julio 2019
  • junio 2019
  • mayo 2019
  • abril 2019
  • marzo 2019
  • febrero 2019
  • enero 2019
  • diciembre 2018
  • noviembre 2018
  • octubre 2018
  • septiembre 2018
  • agosto 2018
  • julio 2018
  • junio 2018
  • mayo 2018
  • abril 2018
  • marzo 2018
  • febrero 2018
  • enero 2018
  • diciembre 2017
  • noviembre 2017
  • octubre 2017
  • septiembre 2017
  • agosto 2017
  • julio 2017
  • junio 2017
  • febrero 2015
  • octubre 2014
  • junio 2014
  • marzo 2014
  • febrero 2014
  • enero 2014
  • diciembre 2013
  • septiembre 2013
  • agosto 2013
  • julio 2013
  • junio 2013
  • abril 2013
  • febrero 2013
  • enero 2013
  • diciembre 2012
  • noviembre 2012
  • septiembre 2012
  • agosto 2012
  • junio 2012
  • mayo 2012
  • abril 2012
  • marzo 2012
  • febrero 2012
  • enero 2012
  • diciembre 2011
  • noviembre 2011
  • octubre 2011
  • septiembre 2011
  • agosto 2011
  • julio 2011
  • junio 2011
  • mayo 2011
  • abril 2011
  • marzo 2011
  • enero 2011
  • diciembre 2010
  • noviembre 2010
  • octubre 2010
  • septiembre 2010
  • agosto 2010
  • julio 2010
  • junio 2010
  • mayo 2010
  • abril 2010
  • marzo 2010
  • febrero 2010
  • enero 2010
  • diciembre 2009
  • noviembre 2009
  • octubre 2009
  • septiembre 2009
  • agosto 2009
  • julio 2009
  • junio 2009
  • mayo 2009
  • abril 2009
  • marzo 2009
  • febrero 2009
  • enero 2009
  • diciembre 2008
  • noviembre 2008
  • octubre 2008
  • septiembre 2008
  • agosto 2008
  • julio 2008
  • junio 2008
  • mayo 2008
  • abril 2008
  • marzo 2008
  • febrero 2008
  • enero 2008
  • diciembre 2007
  • noviembre 2007
  • octubre 2007
  • septiembre 2007
  • agosto 2007
  • julio 2007
  • junio 2007
  • mayo 2007
  • abril 2007
  • marzo 2007
  • febrero 2007
  • enero 2007
  • diciembre 2006
  • noviembre 2006
  • octubre 2006
  • septiembre 2006
  • agosto 2006
  • julio 2006
  • junio 2006
  • mayo 2006
About This Site

A cras tincidunt, ut tellus et. Gravida scel ipsum sed iaculis, nunc non nam. Placerat sed phase llus, purus purus elit.

Archives Widget
  • January 2010
  • December 2009
  • November 2009
  • October 2009
Categories
  • Entertainment
  • Technology
  • Sports & Recreation
  • Jobs & Lifestyle
Search
  • twitter

Powered by WordPress  |  Business Directory by InkThemes.

This site uses cookies: Find out more.