Statistics

深入浅出统计学(1) 信息图形化

  1. 基本概念
    1.1. 数据与信息
    o 数据指的是手机的原始事实和数字。
    o 信息指的是加入了某种意义的数据。
    1.2. 频数
    o 表示在一个特定组、或在一个特定区间内的统计对象的数目。类似于数数。
    o 在设计以百分数为表现内容的图形时:设法指出频数——或是将频数标在图形中间,或标在图形旁边。
    o 若没有频数,只有百分比,要小心,有可能隐藏真实数据。
    1.3. 类别数据与数值型数据
    o 类别数据:用以描述某类的性质或特征,也称为定性数据。
    o 数据型数据:涉及数字,数值具有数字的意义,还设计计量和计数,由于数值型描述的是数量,也称为定量数据。
    1.4. 累计频数
    o 向原来的综合中添加新值得到的总和。
  2. 图形化
    2.1. 饼状图
    方便对比不同类别各自所占的比例。
    2.2. 条形图:
    o 能对频数的相对大小进行比较。
    o 相对于饼状图,优点在于更精确。
    o 条形图可以是水平(体现百分数)或垂直(体现频数)条形图。
    o 特殊条形图:
    o 堆积条形图(用不同长方形代表不同指标的频数)。
    o 分段条形图,可同事体现频数和百分比(即同一长方形中显示不同类别数据)。
    2.3. 直方图
    o 直方图用长方形表示得分范围,而不是表示一项(条形图)。
    o 与条形图外观区别:
    o 每个长方形的面积和频数成正比。
    o 图上的长方形之间没有间隔。
    o 求直方图过程:
    o 长方形面积=每组频数
    o 频数 = 长方形宽度 * 长方形高度
    o 长方形高度(即频数密度) = 频数/长方形宽度
    o 为什么用频数代表面积:保证每个组的相对大小和与数据成正比,且不失真实。
    2.4. 折线图
    o 很好的体现数据的趋势。
    o 与条形图比较:
    o 很容易添加新的数据,不会让图形面目不清。
    o 更好体现数据趋势。
    o 虽然能够显示数值,但不如条形图清晰。
    o 只应用于展示数值型数据,不应用于类别数据。

深入浅出统计学(2) 集中趋势的度量

  1. 均值
    o 为什么不叫平均数:因为平均数不止一种。
    o 如何计算:这……不用说了吧。
    o 符号:μ。
    o 异常值的影响:
    o 异常值会导致数据倾斜。
    o 向左倾斜/向右倾斜/对称数据。
    o 不能应用于类别数据。
    o 在数据非常对称,且仅显示出一种趋势时使用。
  2. 中位数
    o 中位数:另一种平均数。
    o 用于解决异常值问题。
    o 求解:
    o 排序。
    o 如果有奇数个数值,则以中间位置的数据为中位数。
    o 如果有偶数个数值,以中间两个数的均值作为中位数。
    o 异常情况
    o 如1 1 1 1 1 1 1 1 1 1 11 11 11 11 11 11 11 11 11 11,平均数和中位数都是6,但不能表达数据的情况。
    o 不能应用于类别数据。
    o 数据由于异常值而发生偏斜时使用
  3. 众数
    o 平均数的一种。
    o 一批数字中最常见的数,即频数最大的数值。
    o 如果一批数据中有两个众数,成为双峰数据。
    o 一批数据中的所有众数,组成众数组。
    o 应用场景:众数数目较少,或数据为类别数据而不是数据型数据。

深入浅出统计学(3) 强大的"距"

  1. 全距
    o 定义:全距,又名极差,计算方法为上界(最大值) - 下界(最小值)。
    o 作用:用于度量数据集分散程度的方法。
    o 缺陷:
    o 全距仅仅描述了数据的宽度,没有描述数据的分布形式。
    o 容易受到异常值的影响。

  2. 迷你距
    o 定义:不在度量数据集全距,而是找出全距的一部分(不包含异常值的部分)。
    o 作用:忽略异常值。
    o 分类:
    o 四分位距(IQR):
    o 定义:迷你距的一种,计算方法为上四分位数 - 下四分位数。
    o 优点:与全距相比,较少收到异常值影响。
    o 通过三个数字将数据集分为四部分,三个数字称为:下四分位数(第一四分位数)、中位数、上四分位数(第三四分位数)。
    o 百分位数:不常用,对于划分名词、排名很有用。
    o 十分位数
    o 箱线图(或箱型图)
    o 箱的左右两边分别代表下四分位数和上四分位数。
    o 箱中话一条线,标出中位数。
    o 箱两边画先,表示全距的上界和下界。

  3. 方差与标准差
    o 作用:度量数据分散情况。
    o 方差:数值与均值距离的平方的平均数。
    o 计算公式:

o 标准差:方差开根号。
o 意义:根据与均值的距离指出分散性。
o 符号:σ
o 有时候,会用距离均值若干个标准差来表示特定数值的相对位置。
4. 标准分
o 定义(标准分以字母z表示):

o 作用:比较不同数据集中的数值。使用后,可以将所有数值视为来自同一数据集和数据分布,从而进行比较。
o 其他:
o 理论上新分布的均值为0,标准差为1。
o 标准分 = 距离均值的标准差个数。

深入浅出统计学(4) 概率计算

  1. 概率基本概念
    o 概率:度量某事发生几率的数量指标。
    o 进一步理解:概率只是对事件发生可能性的一种表达,概率并非担保。
    o 事件:有概率可言的一个结果或一件事。
    o 计算公式: ,其中S称为概率空间,或样本空间。
    o 概率的直观表现形式:
    o 维恩图
    o 概率树
    o 对立事件: “A不发生”事件可以用A'表示。A'被称为A的对立事件。A'包含事件A所不包含的任何事件。 P(A')=1-P(A)
    o 互斥事件
    o 相交事件
    o 独立事件: 几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)
    o 穷举事件:表示两个事件的并为全集。
    o 全概率公式:根据条件概率计算一个特定事件的全概率。P(B)=P(A∩B)+P(A'∩B)=P(A)* P(B|A)+P(A')* P(B|A')
    o 贝叶斯定理:提供了一种计算逆条件概率的方法,再无法预知每种概率的情况下,非常有用。贝叶斯定理:已知P(A),P(B|A),P(B|A');求P(A|B).
    P(A|B) = P(A∩B) / P(B) = P(A)* P(B|A) / P(A)* P(B|A)+P(A')* P(B|A')
    o 公式:P(A∪B)=P(A)+P(B)-P(A∩B)
    o 条件概率:P(A|B)=P(A∩B)/P(B)
    o 相关事件: 如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。

深入浅出统计学(5) 离散概率分布的应用

  1. 期望和方差的引入
    o 概率的缺陷:无法指出发生这些事情的整体影响。
    o 期望的作用:利用概率预测长期结果。
    o 方差的作用:度量预测结果的确定性。

  2. 期望和方差的计算方法

  3. 线性变换公式

  4. 相互独立的两个随机变量

深入浅出统计学(6) 排序、排位、排

  1. 排位
    o 普通排位:有n个对象进行排位,方式一共有n!。
    o 圆形排位:有n个对象进行圆形排位,方式一共有(n−1)!。
    o 圆形排位定义:n个对象围成一个圈。
    o 如果圆形排位,且要考虑对象的绝对位置,则排位方式一共有n!。
    o 按类型排位:
    o 对n个对象排位,按类型进行排位。其中包括第一类对象k个,第二类对象j个,第三类对象m个……则排位方式一共有

  2. 排列与组合
    o 排列:
    o 定义:一个较大(n个)对象群体中取出一定的数目(r个)对象进行排序。
    o 计算方式:
    o 特点:与顺序有关。
    o 组合:
    o 从n个对象中选取r个对象,不必进行排序。
    o 计算方式: 。
    o 特点:与顺序无关。

深入浅出统计学(7) 几何分布、二项分布及泊松分布

  1. 几何分布
    o 条件:
    o 进行一系列相互独立试验。
    o 每一次试验都存在成功和失败的可能,且每次可能性都相同。
    o 想得到的结果是,为了取得第一次成功所需要进行多少次试验。
    o 表示:
    X∼Geo(p) 第r次试验取得成功的概率:P(X=r)=pqr−1
    o 需要r次以上才能获得第一个成功的概率:P(X>r)=qr
    o 需要试验r次或不到r次即可取得第一次成功的概率:P(X<=r)=1−qr
    o 期望:E(X)=1/p
    o 方差:Var(X)=q/p2
  2. 二项式分布
    o 条件:
    o 进行一系列独立试验。
    o 每一次试验都存在成功和失败的可能,且每次成功概率相同。
    o 试验次数有限。
    o 与几何分布的不同之处:
    o 几何分布感兴趣的是取得第一次成功所需要进行多少次试验。
    o 二项式分布感兴趣的是获得成功的次数。
    o 表示:
    X∼B(n,p) o 在n次试验中,取得r次成功的概率为:
    o 期望:E(X)=np
    o 方差:Var(X)=npq
  3. 泊松分布
    o 条件:
    o 单独时间在给定区间内随机、独立地发生,给定区间可以是时间或空间。
    o 一直该区间内的时间平均发生的次数(或者叫做发生率),且为有限数值。该时间平均发生次数通常用希腊字母λ表示。
    o 表示:
    X∼Po(λ)
    o 给定区间内发生r次时间的概率是:
    o 期望:E(X)=λE
    o 方差:Var(X)=λ

深入浅出统计学(8) 正态分布的运用

  1. 连续随机变量
    o 用概率密度函数来描述连续随机变量的概率分布。
    o 连续随机变量的概率通过面积表示。
    o 处理连续数据时,所计算的是一个数值范围的概率。
  2. 正态分布
    o 如果一个连续随机变量X符合均值为μ、标准差为σ的正泰分布,则通常写作X∼N(μ,σ2)
    o 无论图形多大,概率密度永远不会等于0。
    o 计算方式:
    o 确定分布的范围
    o 标准化
    o 查找概率
    o P(Z>z)=1−P(Z<z)
    o P(a<Z<b)=P(Z<b)−P(Z<a)

深入浅出统计学(9) 再谈正态分布的运用

线性变换与独立观察
o 线性变换:
o 概念:描述了数据的基本变化。
o aX+b∼N(aμ+b,a2σ2)
o 独立观察:
o 概念:描述了有多少数值。
o X1+X2,+…+Xn∼N(nμ,nσ2)
o 两者区别:
o 线性变换影响概率分布中的基本数值。
o 独立观察影响所处理的事件的数量
几个常用计算公式:
o 如果X和Y为独立变量,则
o X+Y∼N(μx+μy,σ2x+σ2y)
o X−Y∼N(μx−μy,σ2x+σ2y)
o 如果X满足正态分布,且a和b都是数字,则:
o aX+b∼N(aμ+b,a2σ2)
o 如果X1X2..XnX1X2..Xn是独立的观察结果,则
o X1+X2+…+Xn∼N(nμ,nσ2)
正态分布近似代替其他分布
o 替代二项分布:
o 如果X∼B(n,p),且np > 5, nq > 5,则可以使用X∼N(np,npq)近似替代二项分布。
o 连续性修正:
o 对于 <= ,要增加一个额外的0.5。
o 对于 >= ,要减去一个额外的0.5。
o 对于 a <= X <= b,是上述两种的合并,要计算 a - 0.5 <= X <= b + 0.5 。
o 对于 < ,要减去一个额外的0.5。
o 对于 > ,要增加一个额外的0.5。
o 近似泊松分布:
o 如果X∼Po(λ)且λ>15,则可用X∼N(λ,λ)进行近似

深入浅出统计学(10) 统计抽样的运用

o 总目标:成功收集数据。
样本与总体
o 总体:统计学上的总体指的是对其进行测量、研究或分析的整个群体。
o 普查指的是对总体进行研究或调查。
o 样本:一个统计样本就是从总体中选取的一部分对象。
o 样本调查:仅对总体的一个样本进行的调查或研究称为样本调查。
o 大多数情况下,对样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都比较低,且不用考虑总体。
o 如何设计样本:
o 确定总体目标。总体目标指的是正在研究、并打算为其采集结果的群体。
o 确定抽样单位。
o 确定抽样空间。需要列一张表,对目标总体范围内的所有抽样单位,最好给每个取个名或编个号。这张表就叫抽样空间。
偏倚
o 无偏样本:可以代表目标总体,即该样本与总体样本具有相似特性,可以利用这些特性对总体本身做出判断。
o 偏倚样本:无法代表目标总体,由于样本与总体的特性的不相似,无法根据样本对总体作出判断。
o 偏倚来源:
o 抽样空间中条目不齐全,因此未包含目标总体中的所有对象。
o 抽样单位不正确。
o 为样本选取的一个个抽样单位未出现在实际样本中。
o 调查问卷的问题设计不当。
o 样本缺乏随机性。
o 偏倚来源广泛,大部分归咎于样本选取方法。

样本选择
o 简单随机抽样:通过随机过程选取一个大小为m的样本,所有大小为n的可能样本被选中的可能性都相同。
o 简单随机抽样的具体方法:
o 重复抽样:在选取一个样本单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体。
o 不重复抽样:不再将抽样单位放回总体。
o 简单随机抽样的主要方法:
o 抽签
o 随即编号
o 分层抽样:将总体分割为几个相似的组,每个组具有类似的特性。
o 整体抽样:对群进行简单随机抽样,然后对每一个群的各种特性进行调查。
o 系统抽样:按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字。

深入浅出统计学(11) 总体和样本的估计

  1. 均值
    o 样本均值被称为总体均值的点估计量,即,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。
    o 点估计量是由样本数据得出,是对总体参数的估计。
    o 样本均值:
    o 总体均值:μ
    o 总体均值点估计量:
  2. 方差:
    o 样本数据的方差可能不是总体方差的最好估计办法。
    o 总体方差计算:
    o 总体方差估计量:
    o 使用n-1的原因:结果与总体方差的数值更接近,大部分情况下,样本估计的总体方差比真实方差略小一些。
  3. 比例与概率
    o 计算成功概率的方法与计算成功比例的方法完全一样。
    o p = probability(概率) = proportion(比例)
    o 样本比例可以作为总体比例的点估计。
  4. 为样本计算概率

o 总体过程:
o 查看与特定样本大小相同的所有样本。
o 观察所有样本形成的分布,然后求出比例的期望和方差。
o 得出上述比例后,利用该分布求出概率。
o 抽样分布:从一个总体中用相同的办法抽取许多大小相同,但存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得的结果为抽样分布。
o 由此可见,用每个样本的比例形成的抽样分布就是比例的抽样分布。通过P_s来代表样本比例随机变量。
o 期望:E(Ps)=p
o 方差:Var(Ps)=pq/n
o 比例标准误差:
o 如果 n > 30,则PsPs符合正态分布,即Ps∼N(p,pq/n),需要进行连续性修正。
5. 中心极限定理
o 计算样本均值的概率:
o 查看我们所研究的样本大小相同的所有可能性样本。
o 查看所有样本形成的分布,求出样本均值的期望和方差。
o 得知样本均值的分布后,用该分布求出概率。
o 均值的抽样分布:为我们提供了一种计算样本均值的概率的方法。
o 均值的分布:
o 期望:
o 方差:
o 均值标准误差:
o 中心极限定理:
o 定义:如果从一个非正态总体中去除一个样本,且样本很大,则X¯的分布近似为正态分布。
o n很大指的是n > 30。

o 点估计量与抽样分布的关系:
o 总体均值的点估计量、均值的抽样分布的期望、样本均值的期望,三者相等。

深入浅出统计学(12) 置信区间的构建

通过样本估计总体:点估计与区间估计
点估计:估计一个精确值(点)
点估计问题:依赖唯一样本进行精确估计。虽然能够确保估计无偏,但无偏是在平均抽样n的的结果上,参数估计平均下来无偏。具体到每一个样本,往往是有细微偏差的,具体偏差多少,无法确定。
区间估计:在点估计的基础上,提供一个误差界限,形成一个取值范围,叫做置信区间。”总体参数落在区间[a,b]内“这一结果具有特定概率,这个概率,叫做置信程度(多高概率,即多大把握估计正确)
目的:降低准确度(从点到区间),提高命中率。
置信区间
o 另一种估计总体统计量的方法,考虑了不确定性。
o 点估计量的缺陷:存在小小的误差。
o 求解过程:选择总体统计量,求出其抽样分布,决定置信水平,求出置信上下限。
o 置信水平:表明对于“置信区间包含总体统计量”这一说法有多大把握。
o 置信水平越高,区间越宽,包含总体统计量几率越大。
o 把置信区间弄得太宽会导致其市区意义。
置信区间的构造流程
置信区间,目的是根据样本构造一个区间,然后希望这个区间可以把真值包含进去,但是并不知道这个真值是多少。
求解步骤

  1. 选择总体统计量
  2. 求出其抽样概率分布(总体参数的期望与方差)
    o 若总体参数已知,则直接代入计算
    o 若总体参数未知,使用样本点估计近似
  3. 确定置信水平
    o 常见置信水平为95%。
  4. 求出置信上下限
    o 通过置信水平,概率表查并求出总体统计量的取值范围。
    置信水平
    置信水平即我们构造的置信区间,成功将总体参数包括在内的概率。
    若置信水平为95%的含义:若重复抽样n次,每次抽样构造一次置信区间,我们一共构造了n个置信区间。
    例:如下图,蓝点为每次样本的点估计,横线为每次样本的区间估计。我们一共重复了7次抽样,其中6次横线都将真实值mu=145包含在内,除了红色的那根。则置信水平为6/7 = 0.86

PS: 显著水平P-value = 1-置信水平。若置信水平为95%,则显著水平为0.05。显著水平P-value的详细介绍,见”假设检验“相关章节。

t分布
o 正态分布的缺陷:并非任何情况都能进行良好近似。
o 原因:可能不知道总体方差的确切值,因此必须利用样本书估计方差;样本太小时,估计值可能出现较大误差。
o 定义:T∼t(v),其中v是自由度
o 在用小样本估计总体方差时,t分布更精确。

深入浅出统计学(13) 假设检验的运用

假设检验
o 目标:判断一个假设是否可信。
o 假设检验:做出假设或断言,对照证据进行检验。
o 步骤:
o 确定要进行检验的假设。
o 选择检验统计量。
o 确定用于做出决策的拒绝域。
o 求出检验统计量的p值。
o 查看样本结果是否位于拒绝域内。
o 做出决策。
详细过程
o 确定假设
o 所需要检验的断言被成为原假设。
o 与原假设对立的被成为备择假设。
o 原假设与备择假设不用覆盖所有可能。
o 选择检验统计量
o 检验统计量:用于对假设进行检验的统计量,是与该检验关系最为密切的统计量。
o 确定拒绝域
o 拒绝域:一组数值,给出反驳元假设的最极端证据。
o 为求拒绝域,先定显著性水平,即所度量的一种愿望,希望在样本结果不可能程度达到多大时,就拒绝原假设,一般选择5%或1%。
o 检验分类:
o 单尾检验:检验的拒绝域在可能的数据集的一侧。
o 双尾检验:拒绝域一分为二位于数据集的两侧。
o 求出p值
o 定义:某个小于或等于拒绝域方向上的一个样本数值的概率。
o 为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率。
o 样本结果位于拒绝域中吗。
o 做出决策。
第一类错误与第二类错误
o 即使证据很有力,也无法确定断言是错误的。
o 假设检验可能出现的错误有两种:
o 第一类错误:错误地拒绝真是假设。
o P(第一类错误)=α,其中α为假设的显著性水平。
o 第二类错误:错误地接受假的原假设。
o P(第二类错误)=β
o 计算过程:检查是否拥有H1的特定数值,求检验拒绝域以外的数值范围,假定H1为真,求得到这些数值的概率。

o 功效:在H0为假的情况下,拒绝H0的概率。
o 功效=1−β
错误概率的计算
第一类错误概率:显著水平
发生了第一类错误,则我们拒绝了原假设,即原假设的发生概率落于拒绝域内。
故而发生第一类错误的概率,等于原假设落于拒绝域内的概率,等于显著水平alpha。
P(第一类错误) = alpha
第二类错误概率

第二类错误概率,则原假设错误情况下,接受原假设的概率。

即备择假设正确的情况下,接受原假设的条件概率。
PS: 要计算第二类错误概率,必须拥有备择假设H_1的具体数值,否则无法计算。因为需要根据备择假设构建新的置信区间。
计算步骤如下

  1. 我们接受了原假设:根据原假设的置信区间,确定接受原假设时,检验统计量X所需要的取值范围
  2. 备择假设正确:根据备择假设,得到新的概率分布
  3. 根据概率分布,得到X取值范围的发生概率,即为第二类错误概率。

深入浅出统计学(14) χ2分布

o 目标:利用χ2分布,判断期望与事实之间存在的差别。
o 举例:老虎机赢钱概率较高,要进行某种假设检验,检查观察频数与期望频数之前的差别。
χ2分布
o 检验统计量:

o 提供了一种对观察频数与期望频数之间的差异进行量度的办法
o 值越小,总差异值越小。
o 主要用途:
o 检测拟合优度,即检验一组给定的数据与指定分布的吻合程度。
o 检验两个变量的独立性,即检查变量之间是否存在某种关联。
o ν:自由度数目,用于计算检验统计量的独立变量的数目,也可以说是独立信息段的数目。
o 计算方式:ν=(组数)−(限制数)
o α:显著性。
o 单尾检验,右尾作为拒绝域。
χ2假设检验
o 步骤:
o 确定要进行检验的假设及其备择假设。
o 求出期望频数和自由度。
o 确定用于做决策的拒绝域。
o 计算检验统计量X2。
o 查验检验统计量是否位于拒绝域内。
o 做出决策。
o χ2检验是假设检验的特殊形式,总使用右尾。

深入浅出统计学(15) 相关与回归

引入
o 相关与回归的目标:说明变量之间的关系,发现事物关系的秘诀
o 单变量数据:考虑的是一个单一变量的频数或概率。
o 二变量数据。
o 其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则成为自变量,另一个变量称为因变量。
o 可视化:散点图,用于显示数据之间的相关性。
o 线性:
o 如果散点图上的点几乎呈线性分布,则相关性为线性。
o 正线性相关、负线性相关、不相关。
深入
o 两个变量之间存在相关关系,并不意味着一个变量会影响另一个变量,也不意味着两者存在实际关系。
o 相关关系意味着存在数学关系,但并不一定是实际关系。
o 最小二乘回归:
o 引入:最好地接近所有数据点的线被称为最佳拟合线。
o 实际点与拟合直线的距离平方之和被称为误差平方和,即 。
o 计算直线y=ax+b,其中

o 再通过平均数求a

o 预测一个特定x值对应的y值时,应避免对已知数据点范围以外的值进行预测。
o 相关系数
o 作用:判断拟合直线的准确性。
o