/HW-MobileInternetTechnology

中国科学院大学(国科大)移动互联网技术第三章爬虫和nlp部分四次作业

Primary LanguagePythonMIT LicenseMIT

MobileInternetTechnology

国科大移动互联网技术第三章爬虫和nlp部分四次作业

作业一

  1. URILIB+正则表达式 Ucas网站 邮箱、电话号码的爬取
  2. 人民网上抓取最新栏目中的文章: 要求完成的:文章的标题、链接和来源
  3. Jd网站手机图片的爬取

作业二

  1. 学校信息门户网站网站上抓取:学校概况、组织机构等名称,包括该名称下的目录名称。
  2. 人民邮电出版社推荐书下载
    要求抓取:每个学科下的推荐书,书名以及价格
    使用: requests
    结果保存到数据库中

作业三

  1. 淘宝网站登录
    使用:requests和cookies
  2. 使用scrapy自动登录学校信息门户网站
    (1)判断是否有验证码,如果有验证码可需要获取验证码,然后登录
    (2) 登入成功后,获取该网页下的各个条目的名称(如课程网站等等),已经连接。
  3. 使用Scrapy爬取Ucas网站教学科研的新闻
    要求爬取:新闻的标题、链接和日期,实现多页爬取
    分别使用:基本爬虫和自动爬虫

作业四

  1. 改进例子程序:4-5-使用集合的交并计算相似性-2.py
    要求:通过标点符号将文章分成多个句子,然后再使用该例子程序的方法。

  2. 根据Ucas网站的内容,查找和关键字(比如“国科大、课题组,研究、计算机学院”)最接近的网页,输出网页的题目和链接。