KOL所发微博内容与微博热搜的关联性分析二分类(相关,不相关)
conf/ 停用词典和和一些分词自定义词典
dict/ 分词自定义词典
data/ 数据集
kol_weibo/ kol微博数据
utils/ 一些数据处理工具和统计工具
test.py 一些功能测试
weibo_topic_analysis.py 主程序
基于字的TF-IDF,归一化余弦距离,热搜_微博权重系数
- 语料准备:语料去重,过滤特殊字符,过滤表情符号[],过滤http符号,英文小写转大小,对数字英文进行分词,汉字进行分字
- 训练TF-IDF模型
- 计算微博内容向量与热搜词向量的归一化余弦距离nom_cosine_distance
- 计算热搜_微博权重系数w
- 计算最终得分值:nom_cosine_distance * w
weibo_topic_analysis.py
终端运行 weibo_topic_analysis.py文件需要输入的相关参数介绍
Parameter | Introduce | Demo |
---|---|---|
--threshold | 分类阈值 | 0.6 |
--data_file_path | 文件路径 |
Name | Version |
---|---|
python | 3.6.7 |
PyMySql | 0.9.3 |
jieba | 0.39 |
gensim | 3.7.0 |