Extração do conteúdo principal das páginas.

Question

Extração do conteúdo principal das páginas.

Closed this issue a year ago · 0 comments

De modo a conseguir aplicar algumas técnicas de PLN, precisamos encontrar alguma maneira de extrair o conteúdo principal das páginas alvo do Crawling.

Acredito que, por enquanto, podemos fazer isso de 2 maneiras:

Através do Scraping, buscando as tags mais relevantes da estrutura HTML da página., tais como: h1, h2 e p.

Buscar alguma biblioteca que já consiga fazer essa extração, pois, esse é um tema que já foi bastante discutido.