本题目布置在http://contest.mooc.buaa.edu.cn/competitions/43 在网站注册帐号密码,参加竞赛,下载数据,提交结果进行评测。
· train.csv: 共两列,content为邮件内容,label为邮件类别(1:垃圾邮件,0:正常邮件)
· test.csv: 一列,content为邮件内容
· 使用机器学习算法或者设置规则判断test.csv中的邮件是否为垃圾邮件
· 程序主体应使用spark,可以结合其他工具
· 算法:
o 基于情感辞典、关键词等方法
o 基于机器学习的方法:词向量+分类模型(如tf-idf+lr)
o 工具:
§ 邮件内容预处理: beautifulsoup4
§ 分词:jieba
o 文本分类任务网上有大量参考内容,请自行查阅
在作业截止日期之前,每位同学可以多次提交作业结果,但每天最多只能提交两次。网站会实时给出同学们得分反馈,最后同学可以在网站上选择众多提交结果中得分最高的一次显示在leaderboard上
在网站上同学们只提交标注结果即可,要求正常邮件标注数字0,垃圾邮件标注数据1。每个标注结果占1行,以回车分割,注意,请不要有任何多余字符,请确保你已经标注了所有的邮件(标注结果行数和邮件总数相同),即最后你提交的txt应该是
1\n0\n0\n0\n1\n……
本题目为开始放型题目,使用spark/hadoop完成数据分析,提交分析报告
数据来源于滴滴盖亚数据开放计划:https://outreach.didichuxing.com/research/opendata/ 从北航网盘下载数据:https://bhpan.buaa.edu.cn:443/link/11DE23805669FDBFC17E4C0D8C5EB721
2017年5月1日至今海口市每天的订单数据,包含订单的起终点经纬度以及订单类型、出行品类、乘车人数的订单属性数据。
开放城市:海口
数据内容:上述时间范围内的海口市每天订单数据,包含订单的起终点经纬度以及订单类型、出行品类、乘车人数的订单属性数据。其中所有涉及个人信息的数据都经过了匿名化处理。
*字段ID* | *字段名称* | *字段样本描述* |
---|---|---|
order_id | 订单ID | string类型且已脱敏 |
product_id | 产品线ID | 1滴滴专车, 2滴滴企业专车, 3滴滴快车, 4滴滴企业快车 |
city_id | 城市ID | 选取海口当地 |
district | 城市区号 | 海口区号 |
county | 二级区县 | 记录区县id |
type | 订单时效 | 0实时,1预约 |
combo_type | 订单类型 | 1包车,4拼车 |
traffic_type | 交通类型 | 1企业时租,2企业接机套餐,3企业送机套餐,4拼车,5接机,6送机,302跨城拼车 |
passenger_count | 乘车人数 | 拼车场景,乘客选择的乘车人数 |
driver_product_id | 司机子产品线 | 司机所属产品线 |
start_dest_distance | 乘客发单时出发地与终点的预估路面距离 | 乘客发单时,出发地与终点的预估路面距离 |
arrive_time | 司机点击‘到达’的时间 | 司机点击‘到达目的地’的时间 |
departure_time | 出发时间 | 如果是实时单,出发时间(departure_time) 与司机点击‘开始计费’的时间(begin_charge_time)含义相同;如果是预约单,是指乘客填写的出发时间 |
pre_total_fee | 预估价格 | 根据用户输入的起始点和目的地预估价格 |
normal_time | 时长 | 分钟 |
product_1level | 一级业务线 | 1专车,3快车,9豪华车 |
dest_lng | 终点经度 | 对应乘客填写的目的地对应的经度 |
dest_lat | 终点纬度 | 对应乘客填写的目的地对应的纬度 |
starting_lng | 起点经度 | 对应乘客填写的起始点对应的经度 |
starting_lat | 起点纬度 | 对应乘客填写的起始点对应的纬度 |