MachineLearning: A Python repository from serenitylc

jupyter快捷键

Enter切换为编辑模式
Esc`切换为命令模式

命令模式快捷键

H：显示快捷键帮助
F：查找和替换
P：打开命令面板
Alt-Enter：运行当前cell并在下方新建cell
Y：把当前cell内容转换为代码形式
M：把当前cell内容转换为markdown形式
1~6：把当前cell内容设置为标题1~6格式
Shift+上下键：按住Shift进行上下键操作可复选多个cell
A：在上方新建cell
B：在下方新建cell
X/C/Shift-V/V：剪切/复制/上方粘贴/下方粘贴
双击D：删除当前cell
Z：撤销删除
S：保存notebook
L：为当前cell的代码添加行编号
Shift-L：为所有cell的代码添加行编号
Shift-M：合并所选cell或合并当前cell和下方的cell
双击I：停止kernel
双击0：重启kernel
在一个库，方法或变量前加上 ?，你可以获得它的一个快速语法说明。

编辑模式快捷键

Tab：代码补全
Shift-Tab : 提示
Ctrl-A：全选
Ctrl-Z：撤销
Ctrl-Home：将光标移至cell最前端
Ctrl-End：将光标移至cell末端
Ctrl-/：单行或多行注释与取消
Ctrl-]: 缩进
Ctrl-[ : 解除缩进
jupyter notebook误删cell 之后不要关闭窗口，也不要停止运行，直接在命令行按下z键就可以了。还有一个方式就是万能的 history，命令输入shift + 回车

scikit-learn

fit：从一个训练集中学习模型参数，包括归一化时用到的均值，标准偏差；
transform：将模型用于位置数据；
fit_transform：将模型训练和转化合并到一起；
训练样本先做fit，得到mean，standard deviation，然后将这些参数用于transform（归一化训练数据），使得到的训练数据是归一化的，而测试数据只需要在原先得到的mean，std上做归一化。
StandardScaler对矩阵作归一化处理，变换后的矩阵各特征均值为0，方差为1。
sklearn 提供了两种通用的参数搜索/采样方法：网络搜索和随机采样，
- 网格搜索交叉验证（GridSearchCV）：以穷举的方式遍历所有可能的参数组合
- 随机采样交叉验证（RandomizedSearchCV）：依据某种分布对参数空间采样，随机的得到一些候选参数组合方案
np.random.shuffle(x)：现场修改序列，改变自身内容。（类似洗牌，打乱顺序）对多维数组进行打乱排列时，默认是对第一个维度也就是列维度进行随机打乱
np.random.permutation(x)：返回一个随机排列，如果x是一个多维数组，则只会沿着它的第一个索引进行随机排列。
- axis=0：表示输出矩阵是1行，即求每一列的平均值。
- axis=1：表示输出矩阵是1列, 即求每一行的平均值。
- 实际上axis=0就是选择shape中第一维变为1，axis=1选择shape中第二维变为1。

clean data

%matplotlib inline
- import matplotlib.pyplot as plt
- plt.rcParams['font.sans-serif'] = ['SimHei']
- plt.rcParams['axes.unicode_minus'] = False
import warnings
- warnings.filterwarnings("ignore", message="numpy.dtype size changed")
- warnings.filterwarnings("ignore", message="numpy.ufunc size changed")
import os
- os.environ['path']
- os.getenv('path')
- os.getcwd()
import sys
- current_path=os.getcwd()
- sys.path.append(current_path)`
pd.set_option('display.max_columns', None)显示所有列
pd.set_option('display.max_rows', None)显示所有行
pd.set_option('max_colwidth',100)设置value的显示长度为100，默认为50
df.columns = [str(col) + '_x' for col in df.columns]列名加前后缀
用中括号[a,b]表示样本估计总体平均值误差范围的区间，a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度，[a,b]被称为置信区间。最常用的95%置信水平，就是说做100次抽样，有95次的置信区间包含了总体均值。
分类交叉熵是分类问题合适的损失函数，它最小化模型输出的概率分布和真实label的概率分布之间的距离。
处理多分类中label的两种方法：
- 通过one-hot编码编码label，并使用categorical_crossentropy作为损失函数；
- 通过整数张量编码label，并使用sparse_categorical_crossentropy损失函数，对于数据分类的类别较多的情况，应该避免创建较小的中间layer，导致信息瓶颈。
常见回归指标是平均绝对误差（MAE）,若可用数据较少，使用K折验证进行可靠评估。
roc_auc_score()：首先获得roc曲线,然后调用auc()来获取该区域。调用predict_proba()，对于正常的预测,输出总是相同的。传入预测的分类结果和预测的概率都是可以计算的。正确的做法是传入预测概率，这样才符合AUC的计算原理。并且传入分类结果的话，AUC指标会更低，因为曲线变粗糙了。
Pearson相关系数要求两个连续性变量符合正态分布,不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数，也称为等级相关系数。

serenitylc/MachineLearning

jupyter快捷键

命令模式快捷键

编辑模式快捷键

scikit-learn

clean data