/ML-Class-Assignment

The assignment of machine learning course for post-graduates at BUAA EE, 2019.

Primary LanguagePython

ML-Class-Assignment

The assignment of machine learning course for post-graduates at BUAA EE, 2019.

任务描述

本学期的机器学习大作业包括三个题目:手写数字识别、医学图像检测以及图像显著性检测,任选其一完成即可。由于难度不同,每题设置了不同的最高分:

1、手写数字识别:机器学习经典问题,在灰度图像中识别10类手写数字,属于分类问题。最高分90。

2、医学图像检测:利用彩色眼底图像判断是否患病,属于分类问题。最高分95。

3、图像显著性预测:在彩色图像中,预测人眼容易关注的区域(输出显著性图),属于回归问题。最高分100。

作业内容

1、在训练集上训练机器学习模型。

2、在测试集上测试模型的性能。

3、提交实验报告与模型代码。

题目一:手写数字识别

数据文件

  • 训练数据集(10类,共6万个数字):以bmp格式存储在1-Digit-TrainSet.zip
  • 测试数据集(10类,共1万个数字):以bmp格式存储在1-Digit-TestSet.zip

每个数据集中,每个文件名的第一个数字代表它的真实分类(label),即ground truth。

性能指标

测试集上的分类准确度。

题目二:医学图像检测

数据文件

  • 训练数据集(2类,共1639幅图像):以jpg格式存储在2-MedImage-TrainSet.zip
  • 测试数据集(2类,共250幅图像):以jpg格式存储在2-MedImage-TestSet.zip

每个数据集中,以disease开头的文件为患病图像,以normal开头的文件为无病图像。

性能指标

最基本的指标是测试集上的分类准确度。考虑到患病与无病样本数量不均等,且两种误判(无病判断成患病、患病判断成无病)带来的风险不同,因此为了全面反映分类器性能,还可以给出精确率、AUC、ROC曲线(指标函数已给,在ROC文件夹中,代码使用详细见instruction.txt)或其他指标。

题目三:图像显著性预测

数据文件

  • 训练数据集(共1600幅待检测图像及1600幅对应的显著图):以jpg格式存储在3-Saliency-TrainSet.zip中。
  • 测试数据集(共400幅待检测图像及400幅对应的显著图):以jpg格式存储在3-Saliency-TestSet.zip中。

每个数据集中,待检测图像为人眼直接观察的彩色图像,保存在Stimuli文件夹;对应的显著图(即ground truth)为相同尺寸的灰度图像,颜色越亮的区域代表显著性越强,保存在FIXATIONMAPS文件夹。考虑到图像内容可能对结果产生影响,每个数据集都包括20种不同类型的图像,存放在20个文件夹中(如ActionAffectiveArt……),因此分析结果时,既可以给出总体性能,又可以按类型进行分析。

性能指标

主观指标:预测显著图与ground truth显著图主观上对比。 客观指标:相关系数(CC)、KL散度(指标函数在metric.py文件中,可直接调用,内有使用说明),或其他衡量显著性图像相似程度的指标等。

数据获取

百度云盘下载:https://pan.baidu.com/s/1mOCFxATcCkHGbK8Vdtv5yQ

DropBox下载:https://www.dropbox.com/sh/i79cbllw6763zxg/AAA3-jPaRlYHMvsMyRbtRRmaa?dl=0

两种途径下载后文件相同,任选其一即可。

报告格式

作业报告格式包含:
1、问题描述
2、实验模型原理和概述
3、实验模型结构和参数
4、实验结果分析(包含训练集和测试集里的测试结果),要求列举出一些失败案例并分析,分析指标提供越多,图表分析越详尽得分会考虑越高。
5、总结