Web Scraping con Beautifulsoup y Parse

Comprensión de estructura de datos en páginas web (fines educativos para I+D+i)

Tecnologías que pueden ayudar a mejorar la calidad de vida

Ariel Lujan Giamportone

UpgradeHub - 2023

Resumen

La tecnología del Web Scraping, también conocida como extracción de datos web, ofrece una serie de ventajas significativas para el análisis de datos y la ciencia de datos al permitir la recolección de información dispersa en la web y su conversión en datos estructurados para su análisis. A pesar de que esta metodología a menudo es mal vista debido a preocupaciones sobre la privacidad de los datos, la seguridad cibernética y posibles implicaciones legales, su uso en ámbitos educativos y en la expansión del conocimiento, especialmente en áreas como la medicina, prevalece como un valor superior cuando se aplica de manera ética y adecuada. A continuación se resumen algunas bondades del uso y aprendizaje de esta tecnología:

Acceso a datos estructurados desde fuentes no estructuradas: El web scraping permite convertir datos no estructurados disponibles en la web en información estructurada y fácilmente analizable. Esto es útil ya que la información en la web se encuentra en diferentes formatos y a través de distintas interfaces de acceso.
Facilita la extracción y análisis de datos: Ayuda a recopilar grandes cantidades de datos desde diferentes sitios web y los transforma en formatos que pueden ser almacenados y analizados en una base de datos local o una hoja de cálculo.
Variedad de técnicas de web scraping: Existen diversas técnicas de web scraping, desde métodos tradicionales como copiar y pegar hasta técnicas más avanzadas como el análisis semántico, el análisis de HTML y DOM, el uso de software especializado, plataformas de agregación vertical, reconocimiento de anotaciones semánticas y análisis de páginas web mediante visión por computadora.
Herramientas disponibles: Hay una amplia gama de software de web scraping disponibles, tanto de código abierto como comerciales, diseñados en lenguajes como Java, Python y Ruby. Estas herramientas simplifican el proceso de extracción de datos y son útiles para principiantes y expertos por igual.
Aplicaciones específicas en ciencia de datos: En el campo de la ciencia de datos, el web scraping se utiliza en aplicaciones específicas, como la integración de datos biomédicos, donde los servicios web no cubren todas las demandas de los usuarios. El scraping de datos sigue siendo relevante y valioso para extraer información de diversas fuentes, incluso cuando no ofrecen interfaces programáticas.
Facilidad para configurar pipelines de extracción de datos: Destaca la facilidad actual para establecer un proceso de scraping de datos con un esfuerzo mínimo de programación, lo que permite atender diferentes necesidades prácticas, incluso en campos como la microbiología clínica, donde no existen interfaces programáticas.

Abstract

The technology of Web Scraping, also known as web data extraction, offers several significant advantages for data analysis and data science by enabling the collection of dispersed information from the web and converting it into structured data for analysis. Despite this methodology often being frowned upon due to concerns regarding data privacy, cybersecurity, and potential legal implications, its usage in educational domains and expanding knowledge, particularly in fields like medicine, prevails as a superior value when applied ethically and appropriately. Here is a summary of some advantages of using and learning this technology:

Access to structured data from unstructured sources: Web scraping allows the conversion of unstructured data available on the web into structured and easily analyzable information. This is useful as web information exists in different formats and through various access interfaces.
Facilitates data extraction and analysis: It helps gather large amounts of data from different websites and transforms them into formats that can be stored and analyzed in a local database or spreadsheet.
Variety of web scraping techniques: There are diverse web scraping techniques, ranging from traditional methods like copy-and-paste to more advanced techniques such as semantic analysis, HTML and DOM analysis, the use of specialized software, vertical aggregation platforms, recognition of semantic annotations, and computer vision-based analysis of web pages.
Available tools: There is a wide range of web scraping software available, both open-source and commercial, designed in languages like Java, Python, and Ruby. These tools simplify the data extraction process and are useful for both beginners and experts alike.
Specific applications in data science: In the field of data science, web scraping is used in specific applications, such as integrating biomedical data, where web services do not cover all user demands. Data scraping remains relevant and valuable for extracting information from diverse sources, even when they do not offer programmatic interfaces.
Ease of setting up data extraction pipelines: It highlights the current ease of establishing a data scraping process with minimal programming effort, allowing for the addressing of various practical needs, even in fields like clinical microbiology, where programmatic interfaces do not exist.

Conclusiones

El Web Scraping emerge como una herramienta valiosa y versátil para recolectar y estructurar datos, siendo particularmente útil en áreas donde la información disponible es heterogénea y no se encuentra en formatos fácilmente accesibles. Su aplicación ética y apropiada puede ofrecer un valor sustancial en la expansión del conocimiento y el análisis de datos en diversos campos, incluida la ciencia de datos y la investigación médica. Es de destacar que transformar datos no estructurados de la web en información organizada y analizable es imprescindible en la actualidad para hacer Investigación en culquier área del conocimiento.

-Agradecimientos

A Andrés Mateo Piñol y Demetrio Esteban Alférez por su motivación, aporte de datos y técnicas de análisis y el acompañamiento continuo en la formación.