Web Scraping é uma forma de mineração de dados que permite a extração de informações em sites da internet para serem estruturadas em posterior análise. Essa ferramenta é uma forma automatizada de se obter dados públicos em sites através da utilização de algumas bibliotecas como Scrapy
, Beautiful Soup
e Selenium
, por exemplo.
O Web Scraping atualmente é classificada como uma grey-area
legal nos Estados Unidos, isso é, poucos sabem lidar com a legalidade de sua prática (como elucidada no video). Por essa razão, alguns sites evitam o congestionamento do trafego causado por um script de Web Scraping utilizando o banimento de IP.
Documentação das Biblitoecas em Python:
Books to Scrape é um site criado com a unica finalidade de praticar o Web Scraping e, a partir desse site, o Meigarom a elaboração de um Projeto de Data Engineering em seu post na qual foi inspiração para realizar este projeto. A Situação Ficticia foi sintetizada com minhas palavras de acordo com a ideia geral passada no post.
Situação Ficticia: Uma Startup de troca de livros possui um modelo de negócio à base na troca de livros cadastrados pelo usuário. O objetivo como Data Scientist é de construir um Sistema de Recomendação de Compra de livros melhores avaliados por gênero. Logo, antes de construir um sistema de recomendação, você precisa coletar e armazenar os dados do site. Portanto seu primeiro trabalho como um Data Scientist será coletar e armazenar os seguintes dados:
- O nome do livro;
- A categoria do livro;
- O número de estrelas que o livro recebeu;
- O preço do livro;
- Se o livro está em Estoque ou não.
Os outros processos metodologicos estão disponíveis no README.md do projeto. A análise exploratória e as informações para as possíveis tomadas de decisão estão disponíveis no notebook.
Os códigos desse projeto está disponível no link
.
O LinkedIn é uma rede social que é principalmente utilizada por profissionais com o intuito de mostrar as aptidões. O objetivo desse programa é buscar os perfis mais bem selecionados e adicionar em sua rede social. Para utilizar essa automação é necessário inserir usuário, senha, profissões, localidades e quantas páginas do google essa automação deve buscar.
Com o programa rodando, ele começará logando no seu perfil no Linkedin. Em seguida, irá pesquisar e coletar as paginas dos perfis de acordo com as possíveis cidades e profissões pelo Google. Em seguida, irá adicionar os perfis do LinkedIn de acordo com o grau de relacionamento.
O repositório aumentará o seu tamanho de acordo com as realizações dos cursos. E claro, aceito recomendações de cursos, livros ou vídeos! Qualquer duvida me chame no LinkedIn.