cal_apriori

使用apriori算法对接近700名付费用户进行课程的关联

apriori算法原理

关联规则的挖掘是一个两步的过程：找出所有的频繁项集：根据相对支持度，置信度的定义可知，任意两个实体之间如果存在强关联规则，那么一定存在于频繁项集之中，反之，如果这两个实体不存在于频繁项集，则一定不会产生强关联规则

由频繁项集产生强关联规则：计算支持度和置信度，找到实体间的强规则

显然，当我们确定了要分析的实体之后，第二步的开销就很小了。关键是第一步：挖掘频繁项集。而Apriori算法解决的就是这个问题。

关于该算法的原理，贴上一篇个人觉得还不错的文章：https://blog.csdn.net/guoziqing506/article/details/60882713

apriori.py为算法原理的实现，需要导入。

来自于《Python数据分析与挖掘实战》一书

是我工作的公司的一些用户购买课程情况的数据。

代码为：

import sys
sys.path.append('.../代码所在文件夹')