/douban_comments

python3 spider douban comments, handle comments

Primary LanguagePython

douban_comments spider & handle

基于 Python 3.5.4 爬取豆瓣最近上映的电影,及相关电影的影评,然后对影评做分析。

主要功能:

  • 抓取网页数据,使用BeautifulSoupxpath进行解析网页数据。
  • 清洗数据,主要使用re正则,jieba, pandas进行清洗处理数据。
  • 用词云进行展示

相关库的安装: jieba、 pandas、wordcloud