/ShortTextCluster

调用gensim的similarities 包,实现基于tfidf的短文本聚类

Primary LanguagePython

  本程序实现的功能是对t_brand_info.csv文件中的所有品牌数据进行聚类。采用的方法是基于tfidf的gensim 相似度方法。
注意事项:
 1、需要修改脚本中的文件路径为本地相应路径。
 2、数据文件比较大,计算的时间比较长。训练后,可以将模型保存起来,下次直接加载使用。
 3、脚本中包含了部分业务代码。直接去掉不影响整个逻辑。