/INSPEC-

Primary LanguageJupyter Notebook

INSPEC-

INSPEC 工业大数据质量预测赛-第二名-default

总体思路和最终方案 1)问题求解 a:根据题意,将题目定义为二分类问题,并且是一个不平衡问题,在模型的训练的评价函数选择上,选取的AUC评分指标。 b:先建立valid_4模型,在建立valid_11模型,建模流程相同。 2)训练样本构造 样本应和官方提供validation相似。 a:删除了训练集中已经检测出不合格的样本。 b:训练数据以每一个检测步骤为一个样本。 c:最终valid_4模型的训练集样本输入为(505990,314),valid_11模型的训练集样本为(758562,314)。 3)特征工程 a:类别特征:count、count_rank特征以及两两类别的交互特征,比如nunique、mode,count比等等。 b:数值特征:以类别特征为主键的常用统计特征。 4)最终训练模型 LightGBM模型[2],采用五折交叉训练。 5)评价指标F1 F1受阈值影响较大这里最终选择的是排序方式来确定阈值。 6)模型结果 初赛得分0.76700,复赛得分0.654。