web scraping educativo para la Recolección de Datos

Applicacion con Dash para obtener datos de productos de Amazon

Giamportone, Ariel Luján

UpgradeHub - 2023

Resumen

El web scraping es el proceso de extraer datos de un sitio web para luego ser utilizados de manera más valiosa por el usuario, como en archivos CSV. Aunque es legal cuando se extrae información que está públicamente disponible en internet, puede ser considerado ilegal si se recopilan datos no públicos, como información personal, propiedad intelectual o datos confidenciales. Amazon y otras páginas se protegen del web scraping debido a preocupaciones sobre la privacidad de datos, la violación de derechos de autor y la protección de información sensible. Utilizan medidas como CAPTCHAs o cambios frecuentes en el diseño de sus sitios web para dificultar la extracción automatizada de datos, evitando así el acceso no autorizado o el uso indebido de su información. Esta protección también ayuda a mantener la integridad y la confiabilidad de sus plataformas en línea. Sin embargo, se pueden desarrollar aplicaciones que simulen comportamientos en el proceso del web scraping. A modo educativo y para fines de formación en el análisis de datos se propone el presente trabajo.

Abstract

Web scraping refers to the process of extracting data from a website for enhanced utility, often in formats like CSV files. While it remains legal when gathering publicly available information from the internet, it could become illegal if extracting non-public data like personal information, intellectual property, or confidential data. Amazon and other websites protect against web scraping due to concerns about data privacy, copyright infringement, and safeguarding sensitive information. Employing measures like CAPTCHAs or frequently changing website layouts, they hinder automated data extraction, aiming to prevent unauthorized access or misuse of their data. This protection serves to uphold the integrity and reliability of their online platforms. However, applications simulating scraping behavior can be developed for educational purposes, fostering training in data analysis, as presented in this work.

Conclusiones

Muchas veces el análisis de datos del mercado se basa en opiniones, precios y todo lo que nos puede aportar el contexto de la web. Los consumidores se han vuelto cada vez más inteligentes (de la mano de la tecnología) y poderosos para relevar un producto y aplicar la famosa teoría de la Economía que responde a "la elasticidad del mercado". De esta forma, muchas veces es necesario relevar datos de los productos desde la web en distintas plataformas, una de las más conocidas y usadas es Amazon. Usar la técnica de web scraping de forma ética para obtener datos y procesarlos puede ayudarnos a tomar mejores decisiones para introducir nuestro producto frente a la competencia o para innovar en las caracteristicas según las tendencias del mercado, haciendo que la demanda se incline por nuestro producto diferenciado y competitivo de antemano.

- Agradecimientos

A Andrés Mateo Piñol y Demetrio Esteban Alférez por su motivación, aporte de datos y técnicas de análisis y el acompañamiento continuo en la formación.