/cal_apriori

使用apriori算法对接近700名付费用户进行课程的关联

Primary LanguagePython

cal_apriori

使用apriori算法对接近700名付费用户进行课程的关联

apriori算法原理

关联规则的挖掘是一个两步的过程: 找出所有的频繁项集:根据相对支持度,置信度的定义可知,任意两个实体之间如果存在强关联规则,那么一定存在于频繁项集之中,反之,如果这两个实体不存在于频繁项集,则一定不会产生强关联规则

由频繁项集产生强关联规则:计算支持度和置信度,找到实体间的强规则

显然,当我们确定了要分析的实体之后,第二步的开销就很小了。关键是第一步:挖掘频繁项集。而Apriori算法解决的就是这个问题。

关于该算法的原理,贴上一篇个人觉得还不错的文章:https://blog.csdn.net/guoziqing506/article/details/60882713

apriori.py为算法原理的实现,需要导入。

apriori算法实现来源

来自于《Python数据分析与挖掘实战》一书

数据来源

是我工作的公司的一些用户购买课程情况的数据。

说明

  1. apriori.py需要自行导入,可使用sys导入

代码为:

import sys
sys.path.append('.../代码所在文件夹')
  1. 代码中的支持度为0.01,置信度为0.1,太高的话会没有结果输出。(针对该数据集,毕竟课程并不像生活用品那么大需求)