/DoubanSpider

豆瓣话题爬取

Primary LanguageC#

  1. 一开始是因为看到豆瓣话题:征友贴,里边很多人爆照,写的信息也看似比较真实.毕竟文青聚集地嘛.看了几个热门帖子确实挺棒棒的
  2. 后来就联想到这个话题这么多帖子,又不能分类,一个个看多累.好歹也搞点选择项
  3. 后来就开始自己做产品设计,准备抓取话题下的帖子,然后对文字进行分类搞一下筛选条件.然后再搞个条件分析云云
  4. 动力十足的爬取到数据存入mysql,由于接口获取的可筛选数据只有玩家自己选择地区.别的数据都要进行语义分析.

后来的后来就感觉无从下手就逐渐没动力了.

  • Program_blinddate 从话题api抓取页面展示数据
  • Pro_getfull 话题有自己主页面,抓取全文
  • Pro_fullpageclean #todo 处理fullpage

db orm选择dapper