Extração do conteúdo principal das páginas.
Closed this issue · 0 comments
mvmfaria commented
De modo a conseguir aplicar algumas técnicas de PLN, precisamos encontrar alguma maneira de extrair o conteúdo principal das páginas alvo do Crawling.
Acredito que, por enquanto, podemos fazer isso de 2 maneiras:
- Através do Scraping, buscando as tags mais relevantes da estrutura HTML da página., tais como: h1, h2 e p.
- Buscar alguma biblioteca que já consiga fazer essa extração, pois, esse é um tema que já foi bastante discutido.