2018.07 - 2018.09 “达观杯”NLP算法挑战赛 竞赛成绩:排名前1%(29/2885)
赛事描述:由**最大的数据科学竞赛平台DataCastle承办,致力于结合NLP、机器学习和深度学习等技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现长文本的精确分类。
特征工程:采用TF-IDF、Hash、Doc2vec等方式提取文本特征,采用lsa降维、特征拼接以及利用LR和SVM挑选特征等方式构建新的特征。
构建模型:使用机器学习模型与深度学习模型进行训练,并采用启发式算法和网格搜索等方式进行调参,优化模型。
模型融合:在尝试了多种模型融合方法后,最终采用了便捷有效的概率等权重和分类投票的模型融合方式,进一步提升模型预测效果。
来自队友的竞赛小总结: https://www.jianshu.com/p/7d7257249731
TF-IDF:https://blog.csdn.net/the_lastest/article/details/79093407
Doc2vec:https://blog.csdn.net/Walker_Hao/article/details/78995591