Operation-Analysis

for self-developing

Statistics For Business And Economics-Note

统计、数据和统计思维

定义

描述统计 指利用数字或者图表的方法，寻找数据的规律，总结其中的信息，并以恰当的方式展示。

推断统计 指利用样本数据的信息，对总体的情况做出估计、推断和预测。

总体是我们所关心的全体单元的集合。

试验单元 是我们采集数据的对象。

变量是每个试验单元的特征或属性。

样本是总体的一个子集。

可靠性测量 是对统计推断结果的不确定性程度定量的陈述。

黑箱是指操作或行为未知或不明确的过程。

定量数据 用数值尺度记录。

定性数据 仅仅能被分成不同的类别。

简单随机样本 是指在一个总体中所有样本量为n的样本都有相同的机会被抽中时，所抽取的其中某一个样本。

分层随机抽样 当同层内的试验单元比不同层间的试验单元更具相似性，一般使用分层随机抽样。分层随机抽样指从各层中抽取一定数量的元素组成一个完整的样本。

系统抽样 这种方法是指从所有试验单元中每隔k个抽取1个试验单元。

随机响应问题 当受访者很容易不给出真实答案时。

选择偏差 导致总体的一个样本子集在抽取样本时被排除，该样本中的个体无法被抽中。

无应答偏差 导致被选中的样本中，并非所有试验个体都参与了调查。

测量误差 测量数据的不精确。

概念

统计涉及两个不同的阶段：描述数据集（描述统计）和根据样本信息得出结论（推断统计）。
描述统计的四个要素：样本或总体、变量、图表或其他总结工具、数据规律的确定。
推断统计问题五个要素：总体、变量、样本、推断和可靠性(reliability)。
随机抽样设计方法：简单随机抽样、分层随机抽样、整群抽样、系统抽样、随即响应抽样

结论

为了进行统计推断，我们须获得有代表性的样本。

Q&A

分层抽样和整群抽样有何区别？

数据集的描述方法

定义

帕累托直方图 集中趋势 也就是测度数据聚集的趋势或某些数值的中心 变异性 也就是测度数据的分散状况偏态如果分布的一个尾部比另一尾部具有更多的极端观测值，则数据集被认为是偏态的。

概念

帕累托原理(大概是说)：社会总财富的80%掌握在20%的家庭中。“至关重要的少数和微不足道的大多数”。
数值描述测度：数据的集中趋势测度，数据的变异性测度。

公式

![](http://latex.codecogs.com/gif.latex?\barx=\frac{\sum_{i=1}^n x_i}{n})
是样本均值；是总体均值。

结论

一般来说，极端值（更大或更小）对均值的影响要大于中位数。
右偏数据通常会显示出均值大于中位数。

Q&A

numpy中的方差、协方差、相关系数

方差 np.var

np实际上是均方差，与方差不太一样，均方差就是把方差平均化。 np.std是标准差，np.std²=np.var 无论是方差还是标准差，它们衡量的都是二阶中心距。

协方差 np.cov

方差是特殊的协方差, D(X) = cov(X, X) 协方差表示的是两个向量的关联程度，其实相当于：把两个向量中的变量进行中心化（减去均值），然后计算剩余向量的內积。 np.cov和协方差不太一样，在无偏估计下：np.cov = cov/(n-1);在有偏估计情况下，np.cov = cov/n

LIMU2/Operation-Analysis