- Raspador de dados para o site G1.
- Permite filtrar os artigos dentro de um intervalo de datas especÃfico.
- Extrai vários campos de dados dos artigos, incluindo tÃtulo, subtÃtulo, autor, data de publicação, conteúdo, região e link.
- Salva os dados coletados em um arquivo CSV.
- Clone o repositório:
git clone https://github.com/hermengardo/G1_news_scraper.git
- Instale as dependências:
pip install -r requirements.txt
- Edite e execute o arquivo
main.py
.
from scraper import encontre_noticias
def main():
encontre_noticias(busca="<campo de busca>",
inicio="01-01-2020",
fim="02-01-2020")
if __name__ == "__main__":
main()
Parâmetro |
Obrigatório |
Descrição |
busca |
Sim |
A consulta de pesquisa para encontrar notÃcias. Por exemplo, "tecnologia", "polÃtica", "esportes", etc. |
inicio |
Sim |
A data de inÃcio do intervalo de pesquisa. Deve estar no formato "dd-mm-aaaa". |
fim |
Sim |
A data de término do intervalo de pesquisa. Deve estar no formato "dd-mm-aaaa". |
delay |
Não |
O atraso em segundos entre cada solicitação de página. O valor padrão é 0.1 segundos. |
filepath |
Não |
O caminho do arquivo CSV onde os dados coletados serão salvos. O valor padrão é "data.csv". |
retry |
Não |
O número máximo de tentativas de solicitação em caso de perda de conexão. O valor padrão é 3. |
timeout |
Não |
O tempo máximo em segundos para aguardar uma resposta do servidor. O valor padrão é 30 segundos. |
max_results |
Não |
Define o limite máximo de publicações a serem extraÃdas durante o processo de raspagem. |
Campo |
Descrição |
data |
A data de publicação do artigo. |
titulo |
O tÃtulo do artigo. |
subtitulo |
O subtÃtulo do artigo. |
autor |
O autor do artigo. |
conteudo |
O conteúdo do artigo. |
regiao |
A região associada ao artigo. |
link |
O link para o artigo. |
busca |
A consulta associada ao artigo. |
tópicos |
Tags da publicação. |