web框架使用tornado, 后端数据库采用MongoDB, 诗词数据集使用爬虫。
爬取的网址为:https://www.gushiwen.org , 只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选,一共大约1144首诗歌。爬虫的代码文件为poem_scrape.py 。
采用MongoDB作为后端数据库,利用write2mongodb.py将爬取的诗歌CSV文件写入到数据库。
前端框架使用tornado, 代码为server.py 。
运行server.py, 在浏览器中输入网址:http://localhost:8000/query ,界面如下:
在其中输入搜索关键词,比如“白云”,则会显示一条随机的结果,如下:
点击“查询词高亮”,则查询词部分会高亮显示。
仍有很多功能还待完善,待补充~