frederic89/python-LDA

lda模型的python实现

Python

python-LDA

lda模型的python实现，算法采用sampling抽样

作者邮箱：385334338@qq.com
博客园博客
项目基于python2.7.10如果发现计算概率为0，可能是python的兼容性问题，暂时没时间修复（发现python3.0以上版本会出现此问题）

训练和输出文本格式说明

模型训练文件

`train.dat` 用其他软件or算法分词后，再剔除停用词的最后结果文件，显示格式如下：（一行表示一篇文档）

康小姐寮步镇莞樟路石井附近嘉湖山庄小区连续半夜停电已有居民咨询供电公司小区电路正常咨询小区管理处工作人员线路借口推托

许小姐来电反映寮步镇莞樟路汽车东站附近嘉湖山庄小区最近一周都从凌晨 3点早上 8点停电昨晚凌晨来电都没通电已有居民致电供电公司答复说该小区电路正常小区故意停电

虎门百佳商场楼下乘坐出租车虎门电子城车牌粤SLE857 司机要求不打表需要 20元要求打表司机拒载

东城中心乘坐粤SM643M 东城主山高田坊芳桂园平时行驶路线是东城中路今天司机行驶路线是东城大道东纵大道温南路此车到了温南路口车费是 16元认为司机绕路

模型输出文件

   `model_parameter.dat` 保存模型训练时选择的参数 
   `wordidmap.dat` 保存词与id的对应关系，主要用作topN时查询 
   `model_twords.dat` 输出每个类高频词topN个 
   `model_tassgin.dat` 输出文章中每个词分派的结果，文本格式为词id:类id 
   `model_theta.dat` 输出文章与类的分布概率，文本一行表示一篇文章，概率1   概率2 ...表示文章属于类的概率 
   `model_phi.dat` 输出词与类的分布概率，是一个K*M的矩阵，其中K为设置分类的个数，M为所有文章的词的总数，

使用说明

用分好词的文本替换掉data/train.dat,更详细文档路径查看setting.conf
cd 到lda.py所在目录，执行命令:python lda.py

    此为lda模型的基础版本，所有参数均由人为设定，更复杂的自动生成算法将在下个版本更新。