healthInsurance

1、竞赛题目

“精准社保”的赛题为“基本医疗保险医疗服务智能监控”,由参赛队完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,以进一步丰富现行医保智能监控的医保规则和医学规则,提高医保智能监控的针对性和有效性。违规行为举例如下: (1)为了获得不当利益,部分人员从各种途径收集医疗保险参保人员的社保卡,通过社保卡到医院进行虚假诊疗,套取医保基金。 (2)在门诊特殊疾病的诊疗中,部分人员通过编造病历、诊疗过程,套取医保基金。 在本次比赛中,将上述两种违规人员统称为涉嫌造假人员。选手需要基于给定的训练集数据得到模型,然后使用模型判定测试集中的人员是否为涉嫌造假人员。

2、评选规则

本赛题的参赛作品将按统一规则和评分标准进行评选,以算法结果与数据来源地实际稽核执法结果匹配情况作为评价依据。在决赛阶段,大赛评委团将对参赛作品的算法原理、历史成绩和答辩情况进行综合评分,确定最终名次。采用F1值作为评估指标。

3、数据样本

(1)数据范围。本赛题数据样本为部分地区以往年度的医疗保险就医结算脱敏数据,主要包括人员医疗费用记录以及费用明细等信息。 (2)数据规模。初赛阶段主要向参赛队提供数据的类型、代码、库表结构,以及少量的脱敏数据样本,供其离线完成作品设计。复赛阶段的数据样本包含近10万参保人的脱敏数据(含涉嫌造假人员),由天池平台对全部数据样本进行管控,参赛队全程无法复制下载数据,只能在天池平台在线使用数据,完成产品设计后将无法使用数据。

4 、数据描述

df_train.csv     训练集数据,包含69个字段,其中“顺序号”是ID列,“个人编码”,“医院编码”为外键

df_test.csv 测试集数据,字段与训练集数据相同

df_id_train.csv 训练集标签,提供20000名人员是否涉嫌造假的标签,其中1为涉嫌造假人员0为非涉嫌造假人员

fee_detail.csv 训练集与测试集补充数据,涵盖人员在不同医保地址的消费金额明细与消费内容

df_id_test.csv 预测的涉嫌造假人员请用1表示,非涉嫌造假人员请用0表示,错误的表示会影响到评测结果。 需要对所有4000名测试集中的人员提交预测结果,如果提交的预测中人员小于或者大于4000人将不提供评测结果。