zhihu

模仿知乎做的SpringBoot问答社交网站项目，项目技术点SpringBoot+Mybatis+Mysql+redis+solr+velocity,利用爬虫对项目进行数据填充。

知乎项目总体预览

1登陆注册

2知乎首页

登陆注册

[]

知乎首页

用户提问

关注、评论、点赞问题

用户发私信

我关注的用户的新鲜事

我的主页

主页个人动态

主页个人提问

主页个人回答

主页个人关注问题

主页个人关注好友

主页我的粉丝

主页我的私信

搜索问题或内容

主要内容

开发工具和Java语言介绍

主要讲述这个项目所用到的开发工具和语言-java的回顾。
Spring入门，模板语法和渲染

进行Spring语言的介绍和讲解，模板语法和渲染（注意springboot1.5开始不支持velocity模板引擎，可以用Thymeleaf或者Freemarker代替）
数据库交互iBatis集成

主要是进行数据库的创建以及交互，讲解注释和XML定义并进行首页的开发，两种方式书写sql代码，第一种方式是在dao层的接口上利用@Mapper、@Insert方法注解在.java文件上书写sql，优点是方便，快捷适合简单查询语句。第二种方式是在dao对应的xml文件中书写sql代码，适合复杂的sql代码，与java文件解耦，个人推荐在xml中书写sql代码。
用户注册登录管理

主要实现用户的注册，登录，浏览等功能，并考虑数据的安全性（密码采用md5(salt+password)进行加密）
问题发布，敏感词和js标签过滤，问题广场

主要实现问题发布，同时异步发起两个事件，一个是提醒问题作者的粉丝，你关注的某某木提出了问题，等你来回答，第二个是把该问题加入到作者的动态时间轴中。利用前缀树进行敏感词的过滤，问题广场的实现等主功能
评论中心，站内信

主要搭建评论中心用户评论问题，把评论信息插入到数据库comment表，并且修改question表问题的的commentcount评论个数，产生异步评论事件，给这个评论的作者的粉丝产生一个新鲜事，比如某某您关注的用户，评论了问题**** 评论内容为****。并且实现站内信等功能
Redis入门以及Redis实现赞踩功能

主要进行Redis的介绍并且实现赞踩功能（为每个评论维护两个redis的Set集合一个点赞一个点踩，集合中存放的是点赞点踩的用户id）,熟悉jedis的五种数据结构api操作，以及jedis的事务操作(比如用户点赞的同时，如果用户存在于点踩的集合中的话，必须set点赞集合增加一个，点踩集合减少一个，两件事情必须要么都执行要么都不执行)。
异步设计和站内邮件通知系统

主要进行异步设计，使用redis的list数据结构进行异步处理，和搭建站内邮件通知系统，实现邮件发送的功能。
sns关注功能，关注和粉丝列表页实现

主要实现关注和被关注功能，包括关注问题，关注人，粉丝列表的实现，并且进行了排序算法的介绍。一个实体有至少两个关注相关的redis的key，一个是实体的粉丝，这里包括人的粉丝，人关注了问题，人就是这个问题的粉丝，另一个是关注key,a关注b那么b就是a关注的对象，b可以是人或者是问题，因此一个实体的粉丝key有一个，但是关注对象的key可能有两个
timeline实现

推拉模式的对比，推模式：大明星谢娜发布一条微博，把这条微博推送给他的一亿粉丝，加入到他一亿粉丝每个人的新鲜事队列中，缺点是推送延迟，压力大，海量数据存储。拉模式：用户张三登陆微博之后，从数据库中拉去他关注的用户。推模式主要适合粉丝较少的小用户，因为他们的粉丝量少，使用推模式产生的冗余副本也比较少，并且可以减少用户访问的压力。拉模式主要适合大v，因为很多僵尸粉根本不需要推送信息，用推模式发给这些僵尸粉就是浪费资源，所以让用户通过拉模式请求，只需要一个数据副本即可。同时推拉结合，比如用户 yanzhongxin发送一条微博，推模式推送给当天在线的用户，或者微博活跃用户，这样就可以减少数据冗余（推送给僵尸粉数据、或者不活跃用户）不常玩微薄的粉丝登陆微博的时候，从关注列表Feed流中拉去新鲜事。

/pullfeeds 首先获得用户关注人的id，根据这些人的id查询Feed表中数据，按照id desc进行排序，把这些用户关注的新鲜事Feed返回给前端网页展示。

/pushfeeds 首先查询用户的粉丝id,然后根据redis获得粉丝的时间轴key,把新鲜事Feed的id加入到粉丝的新鲜事时间轴上

/mytimeline1 显示当前用户的新鲜事列表。比如用户知乎用户yanzhongxin关注了zhangsan，yanzhongxin 关注了问题“你家乡在哪”，yanzhongxin评论了某个问题，这些新鲜事除了异步推送给粉丝的新鲜事时间轴上之外，还要加入到自己的个人时间轴上,效果基本上和知乎的个人动态一样。
python语法简介，pip工具介绍

python以及工具，Python27/PIP，PyCharm。
python爬虫实现数据抓取和导入

主要介绍爬虫，以此来实现数据抓取和导入pyspider爬去知乎top50热门的问题问题、导入到mysql数据库
站内全文搜索

主要实现站内全文搜索功能，进行solr的安装，solr中文分词，solr数据库导入，solr数据查询，solr接口调用,主要是为每一个问题的标题title和问题的内容content建立索引，在slorhome的schemal.xml中定于域，用户添加问题的时候，把问题产生异步事件add_question，handler 利用slorj把问题的标题，内容建立索引，添加到索引库中。用户执行搜索时候，根据keyword 搜索索引域 title和content内容，返回List对象，然后返回给前端ViewObject对象，vo中封装了每个问题，每个问题的作者，问题的关注人数。
项目测试和部署，课程总结回顾

主要进行单元测试，打包，部署并对项目进行总结和扩展

quick-start

5新增发表问题功能，并防止xss注入以及敏感词过滤

10Timeline与新鲜事，推拉模式下的Feed流

11使用python爬虫爬取知乎和v2ex数据，充实网站信息

12使用solr搭建全文搜索引擎，开发知乎的全文搜索功能

13单元测试与压力测试，项目打包及部署等收尾工作

14产品功能扩展以及技术深度扩展

项目基础配置

创建git仓库，本地配置idea并测试pull和push，项目推送到github上git@github.com:yanzhongxin/zhihu.git。

创建SpringBoot工程，导入Web，Velocity和Aop的包。

生成Maven项目，pom.xml包含上述依赖，应用名称是zhihu,项目所属id是com.yanzhongxin。

基本框架开发

创建基本的controller，service和model层。

controller中使用注解配置，requestmapping，responsebody基本可以解决请求转发以及响应内容的渲染。responsebody自动选择viewresolver进行解析。

使用pathvariable和requestparam传递参数。

使用velocity编写页面模板，注意其中的语法使用。常用$!{}和${}

使用http规范下的httpservletrequest和httpservletresponse来封装请求和相响应，使用封装好的session和cookie对象。

使用重定向的redirectview和统一异常处理器exceptionhandler

AOP和IOC

IOC解决对象实例化以及依赖传递问题，解耦。

AOP解决纵向切面问题，主要实现日志和权限控制功能。

aspect实现切面，并且使用logger来记录日志，用该切面的切面方法来监听controller。

数据库配置和首页的创建

使用mysql创建数据库和表，建议自己写一下sql到mysql命令行跑一下。

加入mybatis和mysql的maven仓库，注意，由于现在版本的springboot不再支持velocity进而导致我使用较早版本的springboot，所以这里提供一可以正常运行的版本设置。

springboot使用1.4.0

mybatis-spring-boot-starter使用1.2.1

mysql-connector-java使用5.1.6

亲测可用。

接下来写controller，dao和service。注意mybatis的注解语法以及xml的配置要求，xml要求放在resource中并且与dao接口在相同的包路径下。

application.properties增加spring配置数据库链接地址

两个小工具：
ViewObject:方便传递任何数据到
VelocityDateTool:velocity自带工具类

写好静态文件html css和js。并且注意需要配置
spring.velocity.suffix=.html 保证跳转请求转发到html上
spring.velocity.toolbox-config-location=toolbox.xml

至此主页基本完成，具体业务逻辑请参考代码。

用户注册登录以及使用token

完成用户注册和登录的controller,service和dao层代码

新建数据表login_ticket用来存储ticket字段。该字段在用户登录成功时被生成并存入数据库，并被设置为cookie，
下次用户登录时会带上这个ticket，ticket是随机的uuid，有过期时间以及有效状态。

使用拦截器interceptor来拦截所有用户请求，判断请求中是否有有有效的ticket，如果有的话则将用户信息写入Threadlocal。
所有线程的threadlocal都被存在一个叫做hostholder的实例中，根据该实例就可以在全局任意位置获取用户的信息。

该ticket的功能类似session，也是通过cookie写回浏览器，浏览器请求时再通过cookie传递，区别是该字段是存在数据库中的，并且可以用于移动端。

通过用户访问权限拦截器来拦截用户的越界访问，比如用户没有管理员权限就不能访问管理员页面。

配置了用户的webconfiguration来设置启动时的配置，这里可以将上述的两个拦截器加到启动项里。

配置了json工具类以及md5工具类，并且使用Java自带的盐生成api将用户密码加密为密文。保证密码安全。

数据安全性的保障手段：https使用公钥加密私钥解密，比如支付宝的密码加密，单点登录验证，验证码机制等。

ajax异步加载数据 json数据传输等。

新增发表问题功能，并防止xss注入以及敏感词过滤

新增Question相关的model，dao，service和controller。

发布问题时检查标题和内容，防止xss注入，并且过滤敏感词。

防止xss注入直接使用HTMLutils的方法即可实现。

过滤敏感词首先需要建立一个字典树，并且读取一份保存敏感词的文本文件，然后初始化字典树。
最后将过滤器作为一个服务，让需要过滤敏感词的服务进行调用即可。

新增评论和站内信功能

首先建立表comment和message分别代表评论和站内信。

依次开发model，dao，service和controller。

评论的逻辑是每一个问题下面都有评论，显示评论数量，具体内容，评论人等信息。

消息的逻辑是，两个用户之间发送一条消息，有一个唯一的会话id，这个会话里可以有多条这两个用户的交互信息。
通过一个用户id获取该用户的会话列表，再根据会话id再获取具体的会话内的多条消息。

逻辑清楚之后，再加上一些附加功能，比如显示未读消息数量，根据时间顺序排列会话和消息。

本节内容基本就是业务逻辑的开发，没有新增什么技术点，主要是前后端交互的逻辑比较复杂，前端的开发量也比较大。

新增点赞和点踩功能，使用Redis实现

首先了解一下redis的基础知识，数据结构，jedis使用等。

编写list，string，hashmap，set，sortset的测试用例，熟悉jedis api。

开发点踩和点赞功能，在此之前根据业务封装好jedis的增删改查操作，放在util包中

根据需求确定key字段，格式是 like：实体类型：实体id 和 dislike：实体类型：实体id 这样可以将喜欢一条新闻的人存在一个集合，不喜欢的存在另一个集合，通过统计数量可以获得点赞和点踩数。比如有一条评论，每一条评论维护两个set集合，一个是key=(like+type+commentid)喜欢的set集合，value是点赞人的id,另一个是key=(dislike+type+commentid)点踩的set集合，集合中的value是用户id,因为不需要统计set中id的顺序，需要统计个数，因此用set集合。

一般点赞点踩操作是先修改redis的值并获取返回值，然后再异步修改mysql数据库的likecount数值。这样既可以保证点赞操作快速完成，也可保证数据一致性。

本次开发过程中遇到了请求超时的问题，经过排查之后是漏写了某个接口的服务，导致前端获取不到后端需要传的数据，而前端代码会不断检测这个数据的值以完成后续操作，导致页面无法完成解析。后来回滚到上一个版本后才发现bug所在并解决了该问题。

新增异步消息功能新增邮件发送组件

在之前的功能中有一些不需要实时执行的操作或者任务，我们可以把它们改造成异步消息来进行发送。

具体操作就是使用redis来实现异步消息队列。代码中我们使用事件event来包装一个事件，事件需要记录事件实体的各种信息。

我们在async包里开发异步工具类，事件生产者，事件消费者，并且开发一个eventhandler接口，让各种事件的实现类来实现这个接口。

事件生产者一般作为一个服务，由业务代码进行调用产生一个事件。而事件消费者我们在代码里使用了单线程循环获取队列里的事件，并且寻找对应的handler进行处理。

如此一来，整个异步事件的框架就开发完成了。后面新加入的登录，点赞等事件都可以这么实现。

新增邮件功能，主要是引入mail依赖，并且配置好自己的邮箱信息，以及邮件模板，同时在业务代码中加入发邮件的逻辑即可。

新增关注功能，开发关注页面和粉丝页面

新增关注功能，使用redis实现每一个关注对象的粉丝列表以及每一个用户的关注对象列表。
通过该列表的crud操作可以对应获取粉丝列表和关注列表，并且实现关注和取关功能。

由于关注成功和添加粉丝成功时同一个事务里的两个操作，可以使用redis的事务multi来包装事务并进行提交。

除此之外，关注成功或者被关注还可以通过事件机制来生成发送邮件的事件，由异步的队列处理器来完成事件响应，同样是根据redis来实现。

对于粉丝列表，除了显示粉丝的基本信息之外，还要显示当前用户是否关注了这个粉丝，以便前端显示。

对于关注列表来说，如果被关注对象是用户的话，除了显示用户的基本信息之外，还要显示当前用户是被这个用户关注，以便前端显示。

Timeline与新鲜事，推拉模式下的Feed流

微博的新鲜事功能介绍：关注好友的动态，比如关注好友的点赞，发表的问题，关注了某个问题等信息，都是feed流的一部分。

在知乎中的feed流主要体现于：关注用户的评论行为，关注用户的关注问题行为。

feed流主要分为两种，推模式和拉模式，推模式主要是把新鲜事推送给关注该用户的粉丝，本例使用redis来存储某个用户接受的新鲜事id列表。这个信息流又称为timeline，根据用户的唯一key来存储。

拉模式主要是用户直接找寻自己所有关注的人，并且到数据库去查找这些关注对象的新鲜事，直接返回。

推模式主要适合粉丝较少的小用户，因为他们的粉丝量少，使用推模式产生的冗余副本也比较少，并且可以减少用户访问的压力。
拉模式主要适合大v，因为很多僵尸粉根本不需要推送信息，用推模式发给这些僵尸粉就是浪费资源，所以让用户通过拉模式请求，只需要一个数据副本即可。

同时如果是热点信息，这些信息也可以放在缓存，让用户首先拉取这些信息，提高查询效率。

使用feedhandler异步处理上述的两个事件，当事件发生时，根据事件实体进行重新包装，构造一个新鲜事，因为所有新鲜事的格式是一样的。需要包括：日期，新鲜事类型，发起者，新鲜事内容，然后把该数据存入数据库，以便用户使用pull模式拉出。

为了适配推送模式，此时也要把新鲜事放到该用户所有粉丝的timeline里，这样的话我们就同时实现了推和拉的操作了。

使用python爬虫爬取知乎和v2ex数据，充实网站信息

安装python2.7并且配置环境变量。同时安装pycharm，配置interpretor，安装pip。

这里会各种报错，主要是中文目录以及pip版本导致的错误，需要修改各种配置文件以支持gbk编码。详情略。

安装好以后，我们先熟悉一下python的语法，写一些例子，比如数据类型，操作符，方法调用，以及面向对象的技术。

因为数据是要导入数据库的，所以这里安装MySQLdb的一个库，并且写一下连接数据库的代码，写一下简单的crud进行测试。

使用requests库作为解析http请求的工具，使用beautifulsoup作为解析html代码的工具，请求之后直接使用css选择器匹配。即可获得内容。

当然现在我们有更方便的工具pyspider，可以方便解析请求并且可以设置代理，伪装身份等，直接传入url并且写好多级的解析函数，程序便会迭代执行，直到把所有页面的内容解析出来。这里我们直接启动pyspider的web应用并且写好python代码，就可以执行爬虫了。简单讲一下知乎和v2ex的爬虫流程。

v2ex：
首先请求首页，因为v2ex现在也是https页面了，所以需要默认把使用证书设为false。

执行完index_page函数，说明首页已经请求完毕，我们了解其css布局和url特征以后，根据tab=?可以进入下一级分类。于是for循环爬出所有以tab=?结尾的url，并且分别请求，进入下一级函数。

根据页面的层级和css格式我们设置好多级函数依次循环执行，这样我们就可以解析到最后一级真正的帖子内容了。

同理，知乎也是这样，先找到问题，再把问题下所有的回答进行爬取，最后把问题和评论一起处理。

当然最后一级内容需要调用数据库的存储接口，为了避免存储错误，需要把内容中的 " 改成 //，否则会出问题。

使用solr搭建全文搜索引擎，开发知乎的全文搜索功能

solr是一个成熟的全文搜索引擎工具，底层是Lucene实现，主要是java语言写的

下载solr6.2。完成solr环境搭建，简单测试多副本部署和单机部署。

solr默认英文分词，需要加入中文分词工具IK-Analyzer

solr中一个core代表一个全文搜索集，我们可以在server文件夹中找到我们创建的
core。然后根据需要修改conf里的配置文件，首先修改managed-schema来设置分词规则，我们在此加入中文分词类型，并且配置其索引分词和查询分词，此处需要引入IK-Analyzer的jar包，jar包可以通过maven项目打包而获得。

索引分词指的是建立索引使用的分词，比如你好北京，可以分为你 你好 北京 北 等情况。
而查询分词是根据需求进行查询时的分词，可以分为你好 北京。

为了通过数据库向solr导入数据，我们需要配置数据导入处理器，这是需要修改solrconfig文件来配置数据导入处理器，并且在solr-data-config中配置本地数据库地址，这样就可以在solr的web页面中进行数据库导入了。导入之后自动建立索引，我们就可以使用solr来对数据库进行全文搜索了。比如mysql数据库进行普通搜索，把数据导入solr进行全文搜索。

开发搜索相关功能，开发service并且接入solr的api，从而连接本机的solr服务并且执行查询和索引操作。
只需要指定关键字，以及我们要搜索的栏目（本例中主要title和content，所以传入这两个字段，并且在搜索结果中加亮关键字。
开发相关controller以及页面。并且在新增问题以后执行异步事件，将新增的问题数据加入solr的数据库中，以便后面进行搜索。

单元测试与压力测试，项目打包及部署等收尾工作

单元测试保证模块的可用性，每个模块测试完以后再进行集成测试，maven打包时会自动执行单元测试。
SpringBoot中只需在test类中做好配置便可以进行spring相关的单元测试。

使用压测工具apache2-utils， LoadRunner等进行压力测试，更好地了解系统性能

centos上支持Apachebench压测工具，可以并发发送大量http请求来完成压力测试，可以看出机器的负载状况。

在虚拟机上安装jdk8,tomcat8,redis,maven,nginx,mysql等基本环境。
tomcat默认监听127.0.0.1的8080端口，只允许本地访问，这样保障安全。
所以可以在外网访问时加入一层Nginx进行反向代理和负载均衡，让域名或ip访问首先找到Nginx，再由nginx找到tomcat。

solr服务仅内网访问：./solr start -Djetty.host=127.0.0.1

Nginx 配置 /etc/nginx/sites-enabled/c3
server {
	listen 80;
	server_name c3.nowcoder.com;
	location / {
		proxy_pass http://127.0.0.1:8080;
	}
}

产品功能扩展以及技术深度扩展

产品功能扩展

1. 用户注册时用户表中增加字段email，注册成功发送邮件激活账号，邮箱激活流程 user表增加status字段，邮箱激活修改status字段状态。登陆时候除了要判断用户名和密码还要判断用户账号状态status，登陆功能增加登陆异常ip检测，如果登陆异常邮件提醒用户修改密码。
2. 首页滚动到底部自动加载更多，发布问题的内容加上富文本编辑器，及上传问题图片使得内容有更丰富的样式，评论问题的时候，根据问题id和评论的状态status获得该问题的所有评论，因为有的问题可能被删除，status状态修改。增加用户删除评论（修改状态位status）的功能，增加评论收藏、感谢、分享、举报功能。
3. 管理员后台管理，发送私信增加发送者输入框实时搜索显示功能。
4. 运营推荐问题置顶
5. timeline推拉结合
6. 个性化首页，timeline更多事件，搜索添加用户搜索，评论内容搜索。

技术深度扩展

1. 搜索结果排序打分
2. 爬虫覆盖用户，评论，内容去html标签
3. 个性化推荐
    4. 处理高并发进行数据库进行主从复制、分库分表。搜索搭建solr集群、数据存储搭建redis集群、及tomcat集群、nginx进行负载均衡等等。

AlanQuain/zhihu

zhihu

知乎项目总体预览

登陆注册

知乎首页

用户提问

关注、评论、点赞问题

用户发私信

我关注的用户的新鲜事

我的主页

主页个人动态

主页个人提问

主页个人回答

主页个人关注问题

主页个人关注好友

主页我的粉丝

主页我的私信

搜索问题或内容

主要内容

quick-start

项目基础配置

基本框架开发

数据库配置和首页的创建

用户注册登录以及使用token

新增发表问题功能，并防止xss注入以及敏感词过滤

新增评论和站内信功能

新增点赞和点踩功能，使用Redis实现

新增异步消息功能 新增邮件发送组件

新增关注功能，开发关注页面和粉丝页面

Timeline与新鲜事，推拉模式下的Feed流

使用python爬虫爬取知乎和v2ex数据，充实网站信息

使用solr搭建全文搜索引擎，开发知乎的全文搜索功能

单元测试与压力测试，项目打包及部署等收尾工作

产品功能扩展以及技术深度扩展

新增异步消息功能新增邮件发送组件