Code for Kaggle competition problem

一、Titanic: Machine Learning from Disaster

问题地址：https://www.kaggle.com/c/titanic
全部代码：https://github.com/lawlite19/Kaggle/blob/master/Titanic/solution.py
使用了逻辑回归、和SVM两个模型，但是，观察完数据后会发现有的feature跟最后预测的结果可能关系并不是很大，所以使用线性模型进行预测个人感觉不会有太好的结果。

1、分析数据

使用pandas读取数据
data.info()函数查看基本的信息情况

数据信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB
None

可以看到Age和Cabin项的数据缺失严重，特别是Cabin

data.describe()函数查看数据的描述

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

           Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200

可以看到平均年龄是29.699118，最大值是80，等等一些信息

简单作图显示
图一：可以看到死亡的比较多
图二：乘客等级为3的存活下来的比较多
图三、四：乘客年龄的分布
图五：不同等级年龄的密度曲线，比较集中在20-40之间
根据自己的想法作图显示
下图说明：三个等级中等级一中存活率是比较高的，等级三死亡率比较高
性别为女的存活下来的比较多（也说明让孩子、女人先走的依据）
从S港口登录的死亡的人数较多
从有无Cabin这个项来说（因为Cabin缺失比较严重），但是也没看出什么

2、数据预处理

多个类别的就映射为多列的0/1值，如下图
均值归一化Age和Fare
缺失值采用该项的平均值填补的。
实现代码：

'''数据预处理'''  
def pre_processData(train_data,file_path):
    train_data.loc[(train_data.Age.isnull()), 'Age' ] = np.mean(train_data.Age)  # 为空的年龄补为平均年龄
    train_data.loc[(train_data.Cabin.notnull(),'Cabin')] = 'yes' # Cabin不为空的设为yes
    train_data.loc[(train_data.Cabin.isnull(),'Cabin')] = 'no'    
    
    '''0/1对应处理'''
    dummies_cabin = pd.get_dummies(train_data['Cabin'],prefix='Cabin')  # get_dummies返回对应的0/1格式的数据，有几类返回几列，prefix指定为Cabin
    dummies_Embarked = pd.get_dummies(train_data['Embarked'], prefix='Embarked')
    dummies_Sex = pd.get_dummies(train_data['Sex'], prefix='Sex')
    dummies_Pclass = pd.get_dummies(train_data['Pclass'],prefix='Pclass')
    train_data = pd.concat([train_data,dummies_cabin,dummies_Embarked,dummies_Pclass,dummies_Sex], axis=1)  # 拼接dataframe,axis=1为列
    train_data.drop(['Pclass','Name','Sex','Embarked','Cabin','Ticket'],axis=1,inplace=True)   # 删除之前没有处理的数据列
    header_string = ','.join(train_data.columns.tolist())  # 将列名转为string，并用逗号隔开
    np.savetxt(file_path+r'/pre_processData1.csv', train_data, delimiter=',',header=header_string)  # 预处理数据保存到指定目录下    
    '''均值归一化处理(Age和Fare)'''
    scaler = StandardScaler()
    age_scaler = scaler.fit(train_data['Age'])
    train_data['Age'] = age_scaler.fit_transform(train_data['Age'])
    if np.sum(train_data.Fare.isnull()):  # 如果Fare中有为空的，就设为均值
        train_data.loc[(train_data.Fare.isnull(),'Fare')]=np.mean(train_data.Fare)
    fare_scaler = scaler.fit(train_data['Fare'])
    train_data['Fare'] = fare_scaler.transform(train_data['Fare'])
    
    header_string = ','.join(train_data.columns.tolist())  # 将列名转为string，并用逗号隔开
    np.savetxt(file_path+r'/pre_processData_scaled.csv', train_data, delimiter=',',header=header_string)  # 预处理数据保存到指定目录下    
    return train_data

3、baseline model

逻辑回归模型
实现代码：

   process_data = pre_processData(train_data,'process_train_data')  # 数据预处理，要训练的数据
   train_data = process_data.filter(regex='Survived|Age|SibSp|Parch|Fare|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')  # 使用正则抽取想要的数据
   train_np = train_data.as_matrix()  # 转为矩阵
   '''训练model'''
   X = train_np[:,1:]
   y = train_np[:,0]
   model = linear_model.LogisticRegression(C=1.0,tol=1e-6).fit(X,y)

进行预测（同时在测试集上也要预处理数据，和训练集处理方法一致）

    '''测试集上预测'''
   test_data = pd.read_csv(r"data/test.csv")
   process_test_data = pre_processData(test_data,'process_test_data')  # 预处理数据
   test_data = process_test_data.filter(regex='Age|SibSp|Parch|Fare|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')
   test_np = test_data.as_matrix()
   predict = model.predict(test_np)
   result = pd.DataFrame(data={'PassengerId':process_test_data['PassengerId'].as_matrix(),'Survived':predict.astype(np.int32)})
   result.to_csv(r'logisticRegression_result/prediction.csv',index=False)

SVM模型
model = svm.SVC(tol=1e-6).fit(X,y)
predict = model.predict(test_np)

4、baseline model提交结果

得分，还是可以的：

5、优化-对于逻辑回归模型实验

查看各项对应的系数
print pd.DataFrame({"columns":list(train_data.columns)[1:],"coef_":list(model.coef_.T)})
系数和对应列名

                coef_     columns
0   [-0.490691800245]         Age
1   [-0.308765744354]       SibSp
2   [-0.113151054529]       Parch
3     [0.10709914058]        Fare
4   [-0.346136355465]    Cabin_no
5    [0.613310516657]   Cabin_yes
6     [0.20581256966]  Embarked_C
7    [0.133805644632]  Embarked_Q
8   [-0.272312909497]  Embarked_S
9    [0.605564351665]    Pclass_1
10   [0.401423995373]    Pclass_2
11  [-0.739814185845]    Pclass_3
12     [1.4562700606]  Sex_female
13   [-1.18909589941]    Sex_male

Age对应系数是负数，呈负相关，说明年龄越小存活的机会越大
Sex_female对应系数是正数，呈正相关，而且值相对比较大，女性存活的机会也是比较大
Sex_male对应是负数，呈负相关
Pclass_1对应的系数也是正数，而且值相对也比较大，说明一等级的乘客存活的机会比较大
可以尝试组合多个feature产生新的feature训练和预测。
年龄也可以采用一个模型预测，填补空的值。
最后得分只是提高了一点点。
还有可以继续挖掘feature，比如姓名、船票都没有使用等。
这里数据量还是比较小的，使用交叉验证最后得出的效果可能并不能如愿，需要不断尝试。

二、Digit Recognizer

问题地址：https://www.kaggle.com/c/digit-recognizer
全部代码：https://github.com/lawlite19/Kaggle/blob/master/DigitRecognizer/cnn_solution.py
使用了CNN卷积神经网络模型

1、卷积神经网络

在深度学习里写过：https://github.com/lawlite19/DeepLearning_Python

2、CNN实现

之前在TensorFlow中实现过：https://github.com/lawlite19/MachineLearning_TensorFlow，只是这里数据需要处理一下，因为`TensorFlow`中的`mnist`数据集是处理好的
这里的数据是0-255的，需要预处理

'''加载数据'''
mnist = pd.read_csv(r'data/train.csv')
train_labels = mnist['label']
train_images = mnist.iloc[:,1:]
train_images.astype(np.float)
train_images = np.multiply(train_images, 1.0/255.0)
train_images = train_images.as_matrix()
train_labels = train_labels.as_matrix()

数字的映射的实现

'''数据的映射，例如1-->[0,1,0,0,0,0,0,0,0,0]'''
def dense_to_one_hot(label_dense,num_classes):
    num_labels = label_dense.shape[0]
    index_offset = np.arange(num_labels)*num_classes
    labels_one_hot = np.zeros((num_labels, num_classes))
    labels_one_hot.flat[index_offset + label_dense.ravel()] = 1  # flat展开
    return labels_one_hot

next_batch的实现

'''使用SGD随机梯度下降，所以指定next batch的训练集'''
def next_batch(mnist,batch_size):
    num_examples = mnist.shape[0]
    global train_images
    global train_labels
    global index_in_epoch
    global epochs_compeleted
    start = index_in_epoch
    index_in_epoch += batch_size
    if index_in_epoch > num_examples:
        epochs_compeleted += 1
        perm = np.arange(num_examples)
        np.random.shuffle(perm)
        train_images = train_images[perm]
        train_labels = train_labels[perm]   
        start = 0
        index_in_epoch = batch_size
        assert batch_size <= num_examples        
    end = index_in_epoch
    train_labels_one_hot = dense_to_one_hot(train_labels[start:end], num_classes=10)
    return train_images[start:end], train_labels_one_hot

3、预测结果

使用SGD，batch为100，训练1000次
使用SGD，batch为100，训练2000次

lawlite19/Kaggle

Code for Kaggle competition problem

一、Titanic: Machine Learning from Disaster

1、分析数据

2、数据预处理

3、baseline model

4、baseline model提交结果

5、优化-对于逻辑回归模型实验

二、Digit Recognizer

1、卷积神经网络

2、CNN实现

3、预测结果