fboldt/scraper

Extração do conteúdo principal das páginas.

Closed this issue · 0 comments

De modo a conseguir aplicar algumas técnicas de PLN, precisamos encontrar alguma maneira de extrair o conteúdo principal das páginas alvo do Crawling.

Acredito que, por enquanto, podemos fazer isso de 2 maneiras:

  1. Através do Scraping, buscando as tags mais relevantes da estrutura HTML da página., tais como: h1, h2 e p.
  2. Buscar alguma biblioteca que já consiga fazer essa extração, pois, esse é um tema que já foi bastante discutido.