This website requires JavaScript.

统计学札记

记了下统计学的术语,备忘用查询方便。

**统计学** (Statistics) 是以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。 **决策分析** (decision analysis) 在风险和利益间达到平衡的过程叫做决策分析. **描述统计** (descriptive statistics) 研究的是数据收集、处理、汇总、图标描述、概括与分析等统计方法。 **推断统计** (inferential statistics) 是研究如何利用样本数据来推断总体特征的统计方法。 **分类数据** (categorical data) 是只能归于某一类别的非数字型数据,它是对事务进行分类的结果,数据表现为类别,用文字来表述的。 **顺序数据** (rank data) 是只能归于某一有序类别的非数字型数据。 **品质数据** (qualitative data)分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的。其结果均表现为类别,因而也可以统称为**定性数据**或**品质数据** 。 **数值型数据** (metric data) 是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。 **数量数据** (quantitative data) 数值型数据说明的是现象的数量特征,通常用数值来表现的,因此也可称为**定量数据**或**数量数据**。 **观测数据** (observational data) 是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下的到的,有关社会经济现象的统计数据几乎都是观测数据。 **实验数据** (experimental data) 是在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验数据,对一种新的农作物品种的实验数据。自然科学领域的大多数数据都为实验数据。 **截面数据** (cross-sectional data) 是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。比如,2010年我过各地区的国内生产总值数据就是截面数据。 **时间序列数据** (time series data) 是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于所有描述现象随时间变化的情况。比如2010-2012年我国的国内生产总值数据就是时间序列数据。 **总体** (population) 是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,比如由多个企业构成的集合,多个居民户构成的集合,多人构成的集合,等等。 **样本** (sample) 是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为**样本量**(sample size)。 **参数** (parameter) 是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。比如总体平均数μ(mu),总体标准差σ(sigma),总体比例π(pi)。 **统计量** (statistics) 是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。主要统计量有样本平均数$\bar{x}$(x-bar) **变量** (variable) 是指一个可以取两个或更多个可能值得特征、特质或属性。如人类的性别特征是取两个值的变量,因为一个人只可能是男性或女性。如汽车每加仑汽油所能形式的英里数,取值范围从8到50;孩子们以公斤为单位的重量,取值是从10到70;还有一剂药的药量,等等。 **分类变量** (categorical variable) 是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量。 **顺序变量** (rank variable) 是说明事物有序类别的一个名称,其取值是顺序数据。例如“产品等级”就是一个循序变量,其变量值可以为“一等品”、“二等品”、“三等品”、“次品”等。 **数值型变量** (metric variable) 是说明事物数字特征的一个名称,其取值是数值型数据。如“产品产量”、“商品销售额”、“零件尺寸” **离散型变量** (discrete variable) 是只能取可数值的变量,它只能取有限个值,而且其取值都可以整位数断开,可以一一列举,如“企业数”、“产品数量”等就是离散型变量。 **连续型变量** (continuous variable) 是可以再一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一例举,如“年龄”、“温度”等。 **经验变量** (empirical variable) **理论变量** (theoretical variable) **概率抽样** (probability sampling) 也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 **抽样框** (sampling frame) 通常包括所有总体单位的信息,如企业名录(抽选企业)、学生名册(抽选学生)或住户门牌号码(抽选住户)等。 **简单随机抽样** (simple random sampling) 就是从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的人样概率是相等的。 **分层抽样** (stratified sampling) 是将抽样单位按某种特征或某种规则划分为不同的层,然后从不懂的层中独立、随机地抽取样本。将各层的样本结合起来,对总体的目标量进行估计。 **整群抽样** (cluster sampling) 将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。 **系统抽样** (systematic sampling) 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。 **多段抽样** (multi-stage sampling) 采用类似整体抽样的方法,首先抽取群,但是并不调查群内的所有单位,而是再进一步抽样,从选中的群中抽取若干个单位进行调查。因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样。这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为**多阶段抽样**。 **非概率抽样** (non-probability sampling) 是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。 **统计推断** (statisticsl inference) 是一个过程,它能从样本数据得出与总体参数值有关的结论.它由两部分构成:**估计** (estimation) 和 **假设检验** (hypothesis testing)组成 **抽样误差** (sampling error) 是由抽样的随机性引起的样本结果与总体真值之间的误差。 **非抽样误差** (non-sampling error) 是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。 **数据筛选** (data filter) **数据透视表** (pivot table) **顺序统计量** (order statistics) **频数** (frequency) 落在某一特定类别或组中的数据各数。 **列联表** (contingency table) 由两个或两个以上变量交叉分类的频数分布表 **交叉表** (cross table) **比例** (proportion) 也成构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。 **百分比** (percentage) **比率** (ratio) 是样本(或总体)中不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。 **条形图** (bar chart) **柱形图** (column chart) **[帕累托图](http://baike.baidu.com/view/480202.htm)** (Pareto chart) 是以意大利经济学家V.Pareto的名字命名的。该图是按各类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现的多,哪类数据出现的少。 **饼图** (pie chart) 是用圆形及园内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占据全部数据的比例,对于研究结构性问题十分有用。 **环形图** (doughnut chart) 简单的饼图只能显示一个向本各个部分所占的比例。如果要把5个地区的人口分别按照高收入、中收入、低收入划分成3部分,要比较5个地区不同收入的人口构成,则需要绘制5个饼图,这种做法既不经济也不方便。环形图就是把饼图叠到一起,挖去中间的部分。 **累积频数** (cumulative frequencies) 是将各有序类别或组的频数逐级累加起来得到的频数。 **累积频率**或**累积百分比** (cumulative percentages) 是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。 **分组数据** (grouped data) 将原始数据按照某种标准分成不同的组别。 **下限** (lower limit) **上限** (upper limit) **组距** (class width) 是一个组的上限与下限的差。 **组中值** (class midpoint) 是每一组中下限值与上限值中间的值,即组中值=(上限值+下限值)/2 Excel 中的FREQUENCY函数也可以创建频数分布表。 **直方图** (histogram) **[茎叶图](http://bihell.com/2015/12/19/statistics/)** (stem-and-leaf display) 是反应原始数据分布的图形。 **[箱线图](http://bihell.com/2015/12/19/statistics/)** (box plot) 是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两分四分位数(quartiles)这个五个特征值组成的,它主要用于反应原始数据分布的特征。 **线图** (line plot) 如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。 **散点图** (scatter diagram) 用二维坐标展示两个变量之间关系的一种图形。 **气泡图** (bubble chart) 可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用气泡的大小来表示。 **雷达图** (radar chart) 是显示多个变量的常用图示方法,也称为蜘蛛图(spider chart)。设有n组样本S1,S2,...,Sn,每个样本测得P个变量X1,X2,...,Xp,要绘制这个P个变量的雷达图,具体做法是:先画一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这个P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。 **图优性** (graphical excellency) **集中趋势** (central tendency) 是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。 **众数** (mode) 是一组数据中出现次数最多的变量值,用$M_0$表示。EXCEL中众数函数为MODE。 **中位数** (median) 是一组数据排序后处于中间位置上的变量值,用$M_e$表示。Exce中中位数函数为MEDIAN。中位数公式为:

$$ f(n) = \begin{cases} x_{(\frac{n+1}{2})} n \text{ 为奇数} \
\frac{1}{2}\left \{ X_{(\frac{n}{2})} + X_{(\frac{n}{2}+1)} \right \} n \text{ 为偶数} \end{cases} $$

十分位数 (decile) 百分位数 (percentile) 四分位数 (quartile) 四分位数是通过三个点将全部数据氛围4部分,通常所说的四分位数是处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。公式如下:

$Q\_l 位置=\frac{n+1}{4}$      $Q\_u 位置=\frac{3(n+1)}{4}$

均值 (mean) 也称为平均数,在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。 简单平均数 (simple mean) 未经分组数据计算的平均数。设一组样本数据为X1,X2,···,Xn,样本量(样本数据的各数)为n,则简单平均数用$\bar{x}$表示,总体平均数用$\mu$其公式为:

$$ \bar{x}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}=\frac{\displaystyle\sum_{i=1}^{n} x_i }{n} $$

加权平均数 (weighted mean) 根据分组数据计算的平均数。 设原始数据被分成k组,各组的组中值分别用M1,M2,···,Mk表示,各组变量值出现的频数分别用f1,f2,···,fk表示。**用各组的组中值代表各组的实际数据,使用这一代表值时是假定各组数据在组内是均匀分布的,如果实际数据与这一假定相吻合,计算的结果还是比较准确的,否则误差会很大。**则样本加权平均的计算公式为:

$$ \bar{x}=\frac{M_{1}f_1+M_{2}f_2+\cdots +M_{k}f_k}{f_1+f_2+\cdots +M_kf_k}=\frac{\displaystyle\sum_{i=1}^{k} M_if_i}{n} $$

几何平均数 (geometric mean) 一种特殊的平均数:是n个变量值乘积的n次方根。用G表示。当数据中出现零值或负值时,不宜计算几何平均数。几何平均数是适用于特殊数据的一种平均数,它主要用于计算平均比率。当所掌握的变量值本身是比率形式时,采用几何平均法计算平均比率更为合理。在实际应用中,几何平均数主要用于计算现象的平均增长率。Excel使用函数为GEOMEAN计算公式如下,其中$\prod$为连乘符:

$$ G=\sqrt[n]{x_1 \times x_2 \times \dots \times x_n}=\sqrt[n]{\displaystyle\prod_{i=1}^{n} x_i} $$

例:一位投资者持有一种股票,连续4年的收益率分别为4.5%,2.1%,25.5%,1.9%。要求计算该投资者在这4年内的平均收益率。

$$ \bar{G}=\sqrt[n]{\displaystyle\prod_{i=1}^{n} x_i} - 1 = \sqrt[4]{104.5% \times 102.1% \times 125.5% \times 101.9%} -1 = 8.0787% $$

设开始的数值为y0,逐年增长率为G1,G2,···,Gn,则第n年的数值为:

$$ y_n =y_0(1+G_1)(1+G_2) \cdots (1+G_n)=y_0 \displaystyle\prod_{i=1}^{n} (1+G_i) $$

从y0到yn有n年,每年的增长率都相同,这个增长率G就是平均增长率$\bar{G}$即前面公式中Gi都等于G。因此

$$ (1+G)^n=\displaystyle\prod_{i=1}^{n} (1+G_i) \
\bar{G}=\sqrt[n]{\displaystyle\prod_{i=1}^{n} (1+G_i)} -1 $$

异众比率 (variation ratio) 是指非众数组的频数占总频数的比例,用Vr表示。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频率占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率。其计算公式为:

$$ V_r=\frac{\sum f_i - f_m}{\sum f_i} = 1 - \frac{f_m}{\sum f_i} $$

式中,$\sum f_i$ 为变量值的总频数;$f_m$ 为众数的频数。

四分位差 (quartile deviation) 也称为内距四分间距 (inter-quartile range),它是上四分位数与下四分位数之差,用Qd表示。其计算公式为: $$ Q_d = Q_u - Q_l $$ 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但它不适合分类数据。

极差 (range) 也称全距,用R表示,极差是描述数据离散程度的最简单的测度值,计算简单,是变量观察值中最大值与最小值的差,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。其公式为:

$$ R=max(x_i)-min(x_i) $$

式中,$max(x_i)$ 和 $min(x_i)$ 分别表示一组数据的最大值和最小值。

平均差 (mean deviation) 也称平均绝对离差 (mean absolute deviation),它是各变量值与其平均数离差绝对值的平均数,用Md表示。 Excel中AVEDEV可以计算平均差。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。为了避免离差值和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理解。 根据未分组数据计算平均差的公式为:

$$ M_d=\frac{\displaystyle\sum_{i=1}^{n} | x_i - \bar{x}|}{n} $$

根据分组数据计算平均差的公式为:

$$ M_d=\frac{\displaystyle\sum_{i=1}^{k} | M_i - \bar{x}| f_i}{n} $$

方差 (variance) 是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。方差的平方根称为标准差 (standard deviation). 方差(或标准差)能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。样本方差是用样本数据个数减1后去除离差平方和,其中样本数据个数减1即n-1称为**自由度 ** (degree of freedom)。 设样本方差为$s^2$,根据未分组数据和分组数据计算样本方差的公式分别为:

未分组数据:$s^2=\frac{\displaystyle\sum\_{i=1}^{n} (x\_i - \bar{x})^2}{n-1}$ 分组数据:$s^2=\frac{\displaystyle\sum\_{i=1}^{k} (M\_i - \bar{x})^2 f\_i}{n-1}$

方差开放后即得到标准差。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。标准差的计算公式分别为:

未分组数据:$s=\sqrt{\frac{\displaystyle\sum\_{i=1}^{n} (x\_i - \bar{x})^2}{n-1}}$ 分组数据:$s=\sqrt{\frac{\displaystyle\sum\_{i=1}^{k} (M\_i - \bar{x})^2 f\_i}{n-1}}$

总体方差公式: $$ σ^2=\frac{\displaystyle\sum_{i=1}^{n} (x_i - μ)^2}{n}=\frac{\displaystyle\sum_{i=1}^{n} (x_i^2 - 2xμ - μ^2)}{n} $$

标准误差 (standard error) 是很多不同样本的均值的标准差. 两个或多个均值的标准误差可以从一个大样本的一个包含n个观察值的样本获得.首先获得标准差s,然后标准误差 $s.e.(\bar{x})$可以通过用标准差s除以观察值的个数n的平方根来获得. $$ s.e.(\bar{x})=\frac{s}{\sqrt{n}} $$ 有时,均值的标准误差用符号$s_{(\bar{x})}$表示.

标准分数 (standard score) 变量值与其平均数的离差除以标准差后的值,也称为标准得分或z分数。一个变量的所有观察值都可以变作标准得分。标准得分等于观察值减均值再除以标准差。它的功能是评价一个观察值相对于所有观察值的均值与标准差相比的大小。大部分的标准得分在-2到2之间;标准的得分位于这个区间之外是不寻常的。

$$ z_i=\frac{x_i -\bar{x} }{s} $$

经验法则: 当一组数据对称分布时,经验法则表明: 约有68%的数据在平均数±1个标准差的范围之内。 约有95%的数据在平均数±2个标准差的范围之内。 约有99%的数据在平均数±3个标准差的范围之内。

在±3个标准差的范围之外的数据,在统计上称为离群点 (outlier)。

切比雪夫不等式: 经验法则适合对称分布的数据。如果一组数据不是对称分布,经验法则就不再适用,这时可以使用切比雪夫不等式 (Chebyshev's inequality) ,它对任何分布形状的数据都适用。切比雪夫不等式提供的是“下届”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有$(1-1/k^2)$ 的数据落在±k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2,3,4,改不等式的含义是:

至少有75%的数据在平均数±2个标准差的范围之内。 至少有89%的数据在平均数±3个标准差的范围之内。 至少有94%的数据在平均数±4个标准差的范围之内。

离散系数 也称为 变异系数 (coefficient of variation) ,它是一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的其计算公式为 $$ v_s=\frac{s}{\bar{x}} $$

偏态 (skewness) 一词是由统计学家皮尔逊(K.Pearson) 于1895年首次提出的,它是对数据分布对称性的测度。测度偏态的统计量是偏态系数 (coefficient of skewness) EXCEL中SKEW函数可以算一组数值型数据的偏态系数。记作SK。 偏态和峰态就是对分布形状的测度。 偏态系数的计算方法有很多。在根据未分组的原始数据计算偏态系数时,通常采用下面的公式:

$$ SK = \frac{n\sum(x_i-\bar{x})^3}{(n-1)(n-2)s^3} 式中,s^3是样本标准差的三次方。 $$

如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表名分布是非对称的。若偏态系数大于1或小于-1,称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。

$$ SK = \frac{\displaystyle\sum_{i=1}^{k}(M_i-\bar{x})^3}{ns^3} $$

从以上公式可以看到,它是离差三次方的平均数再除以标准差的三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差不能抵消,就形成了正或负的偏态系数SK。当SK为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差值较大,可判断为负偏或左偏。在计算SK时,将离差三次方的平均数除以s^3是为了将偏态系数转化为相对数。SK的数值越大,表示偏斜的程度越大。

峰态 (kurtosis) 一词是由统计学家皮尔逊 1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。测度峰态系数 (coefficient of kurtosis),记作 K 。 Excel中KURT函数可以计算一组数值型数据的峰态系数。 峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。 在根据未分组数据计算峰态系数时,通常采用下面的公式:

$$ K = \frac{n(n+1)\sum(x_i-\bar{x})^4-3[\sum(x_i-\bar{x})^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4} $$

根据分组数据计算峰态系数是用离差四次方的平均数在除以标准差的四次方,其计算公式为:

$$ K = \frac{\displaystyle\sum_{i=1}^{k} (M_i - \bar{x})^4f_i}{ns^4} -3 式中,s^4是样本标准差的四次方。 $$

公式中将离差四次方的平均数除以s^4是为了将峰态系数转化成相对数。用峰态系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰态系数进行比较来实现的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。式中也可以不减3,此时的比较标准是3。当K>3时为尖峰分布,K<3时为扁平分布。

随机事件 (random event) 在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件。用大写字母A,B,C等表示 必然事件 (certain event) 在同一组条件下,每次试验一定出现的事件。 用Ω表示。 不可能事件 (impossible event) 在同一组条件下,每次试验一定不会出现的事件。用Φ表示。 基本事件 (mentary event) 一个事件不能分解成两个或更多个事件。

概率的加法法则 法则1 两个互斥事件之和的概率,等于两个事件概率之和。架设A和B为两个互斥事件,则P(A∪B)=P(A)+P(B) 法则2 对于任意两个随机事件,它们和的概率为两个事件分别的概率之和减去两个事件相交的概率,即P(A∪B)=P(A)+P(B)-P(A∩B) 设某地有甲、乙两种报纸,该地成年人中有30%读甲报纸,15%读乙报纸,10%两种报纸都读,成年人中有百分之几至少读一种报纸? 解:设A={读甲报纸},B={读乙报纸},C={至少读一种报纸},则P(C)=P(A∪B)=P(A)+P(B)-P(A∩B),P(C)=0.3+0.15-0.1=0.35

主观概率 (subjective probability) 一次事件的概率叫主观概率

条件概率 (conditional probability) 每一个随机试验都是在一定的条件下进行的,而这里要讨论的条件概率,则是当试验结果的部分信息已知(即在原随机试验的条件下,再加上一些附加信息),例如当某一事件B已经发生时,事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为P(A|B) 一般来说 P(A|B)≠P(A)。 例5.6 100件产品中,有80件正品,20件次品;而80件正品中有50件一等品,30件二等品。现从这100件产品中任取1件,用A表示“取到一等品”,B表示“取到正品”,求P(A)及P(A|B)。 解:从100件产品中任取1件,共有100中可能结果,其中导致A出现的结果有50种。所以P(A)=50/100=1/2=0.5 若已知B发生,即已知所取产品为正品的条件下,可能出现的结果不再是100种,而是只有80种,其中导致A出现的结果有50种,故P(A|B) = 50/80=0.625 P(A|B)=50/80=(50/100)/(80/100)=P(AB)/P(B) 用另外一种形式写出既有P(AB)=P(A)P(B|A)

例5.7 设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是多少? 解:设$A_i$表示“第i次抽到的是次品”(i=1,2),所求概率为P(A1A2)。 P(A1)=150/1000 P(A2|A1)=149/999 应用式P($A_2$|$A_1$)=P($A_1$)P($A_2$|$A_1$) =(150/1000)*(149/999)=0.0224

独立性 (independence) 使用概率的乘法公式时,一般要计算条件概率,但是在事件独立的情况下,乘法公式就变得很简单。什么是独立事件呢?一般认为,两个事件中不论哪一个事件发生并不影响另一个事件发生的概率,则称为这两个事件相互独立。与此相对应的是相依事件,即一个事件发生与否会影响另一个事件的发生。根据事件独立性的含义,由于一个事件发生与否不会影响另一个事件发生的概率,因此其条件概率应等于其无条件概率。即P(B|A) = P(B) , P(A|B)=P(A) .所以两个事件相互独立时,其乘法则可以简化为:P(AB)=P(A)P(B)

例5.8 某工人同时看管三台机床,每单位时间(如半小时) 内机床不需要看管的概率:甲机床为0.9,乙机床为0.8,丙机床为0.85.若机床是自动机床且独立工作(三台机床能同时工作)。 设A1,A2,A3为甲、乙、丙三台机床不需要看管的事件,$\bar{A_3}$为丙机床需要看管的事件。根据题意,A1,A2,A3是独立事件且同时出现。 (1) 在半小时内三台机床都不需要看管的概率可写成: P(A1A2A3)=P(A1)P(A2)P(A3)=0.9*0.8*0.85=0.612 (2) 在半小时内甲、乙机床不需要看管,而丙机床需要看管的概率可以写成: P(A1A2$\bar{A_3}$)=P(A1)P(A2)P($\bar{A_3}$)=0.108 注意 互斥时间一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。

概率函数 (probability function) 在同一组条件下,如果每次试验可能出现这样或那样的结果,并且把所有的结果都能举例出来,即把X的所有可能值x1,x2,···,xn都能举例出来,而且X的可能值x1,x2,···,xn具有确定概率P(x1),P(x2),···,P(xn)其中$P(x_i)=P(X=x_i)$,称为概率函数,则X称为P(X)的随机变量P(X)称为随机变量X的概率函数。

离散型(discrete)随机变量 如果随机变量X的所有取值都可以逐个列举出来,则称X为离散型随机变量,例如,在一批产品中取到次品的个数、单位时间内某交换台收到的呼叫次数等都是离散型随机变量。

连续型(continuous)随机变量 如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间的任一点,则称X为连续型随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。

概率分布 (probability distribution) 设有一离散型随机变量X,可能取值x1,x2,···,xn,其响应的概率为P1,p2,···,pn,即P(X=xi)=pi(i=1,2,···,n) 如下表:其中,$P(X=x_i)=p_i$是X的概率函数。因为x1,x2,···,xn构成一完备组,所以$\displaystyle\sum_{i=1}^{n} p_i=1$ probability distribution

均匀分布 (uniform distribution) 投掷一颗骰子,出现的点数是一个离散型随机变量,如果每个点的概率都是一样的,这样的概率分布叫离散型随机变量X的均匀分布

离散型随机变量的期望值和方差 1.期望值 (expected value) 离散型随机变量X的期望值定义为,在离散型随机变量X的一切可能值的完备组中,各可能值xi与其对应概率pi的乘积之和称为该随机变量X的期望值,记作E(X)或μ。 期望值反应随机变量X取值的平均水平。 若X取数值: x1,x2,···,xn,其对应的概率为:p1,p2,···,pn ,则期望值为: $$ E(X)=x_1p_1+x_2p_2+···+x_np_n=\displaystyle\sum_{i=1}^{n} x_ip_i $$ 2.方差与标准差 这里讨论随机变量与其数学期望的离差的平均水平,用它可以测定随机变量的变异程度或离散程度,它是随机变量的另一个重要数字特征。例如有一批灯泡,已知其平均寿命E(X)=1000小时,但仅由这一指标还不能判定这批灯泡质量的好坏,事实上,可能其中绝大部分灯泡的寿命都在95小时~1050小时左右(质量稳定);也可能其中约一半是高质量,寿命大约有1300小时,而另一半却是质量很差的,寿命大约只有700小时(质量不稳定)。因此为了正确评定灯泡质量,除需要考察灯泡平均寿命指标,还需要考虑各个灯泡寿命X与一批灯泡寿命E(X)=1000小时的离差的平均水平这个指标。若个值较小,则表示质量比较稳定,质量较好;反之,质量较差。同样,在检查棉纱质量时,不仅需要知道纤维的平均长度,还要知道纤维长短的均匀度等。 随机变量的方差是用来反映随机变量取值的离散程度的。随机变量的方差定义为每一个随机变量取值与期望值的离差平方之期望值。设随机变量为X,其方差常用$a^2x$,D(X)或V(X)表示,我们采用D(X),方差反映随机变量X取值的离散程度。则 $$ σ^2=D(X)=E[X-E(X)]^2 $$ 有上式可知,方差实际上就是随机变量X的函数$[X-E(X)]^2$的数学期望。于是,若X是离散型随机变量,则

$$ σ^2=D(X)=\displaystyle\sum_{i=1}^{∞} [x_i-E(X)]^2p_i 式中,p_i=P{X=x_i} (i=1,2,···) $$

在计算方差中,一个常用的简化公式为:$σ^2=D(X)=E(X^2)-[E(X)]^2$ 由定义可知,若X的取值比较集中,则方差较小;若X的取值比较分散,则方差较大。如果方差为0,则意味着随机变量取值集中在期望值E(X),即随机变量以概率1取值E(X)。此外,称随机变量方差的平方根为标准差,记为:$σ=\sqrt{D(X)}$

由于标准差与随机变量X有相同的度量单位,所以在实际中经常使用。对于投掷骰子的例子,随机变量X的方差为: $ σ^2=\displaystyle\sum_{i=1}^{n} [x_i-E(X)]^2p(x_i) \
= (1-3.5)^2\times\frac{1}{2}+(2-3.5)^2\times\frac{1}{2}+(3-3.5)^2\times\frac{1}{2}+(4-3.5)^2\times\frac{1}{2}+(5-3.5)^2\times\frac{1}{2}+(6-3.5)^2\times\frac{1}{2} \
=2.9167 $ 标准差σ=1.7078,说明每次掷得的点数与平均点数3.5平均相距1.7078点。

一位投资者有一笔现金可用于投资,现有两个投资项目可供选择。项目A和B有如下资料可供参考。试比较哪个投资项目较佳。 项目投资比较 项目A的方差$σ^2=\sum(x-μ)^2p(x)=2$ 项目A的标准差$σ=\sqrt{2}=1.414$ 项目B的方差$σ^2=\sum(x-μ)^2p(x)=1.25$ 项目A的标准差$σ=\sqrt{1.25}=1.12$ 项目A的标准差为1.414%,这个值反映了每一个可能出现的回报率与预期平均回报率的平均差别;数值越大,回报率变化越大,其稳定性越小,风险越大。项目B的标准差为1.12%,比项目A的低,因此,回报率的稳定性较高,即风险较低。比较二者,就风险控制而言,投资于项目B较项目A更优。

3.离散系数 离散系数也可用来比较不同期望值的总体之间的离中趋势。计算公式为:$V=\frac{σ}{E(X)}$ 上例中如果项目A与项目B预期平均回报率不一样,则需要用离散系数来考察投资风险的大小,帮助投资者作出选择。比如投资项目A的预期回报率为7%,标准差为5%;而投资项目B的预期回报率为12%,标准差为7%,哪个投资项目风险较大? 解:如果只从标准差考虑,似乎投资项目B的风险较大,但由于A与B的预期回报率(均值)不同,我们需要用离散系数进行比较。 项目A的离散系数V=0.05/0.07=0.714 项目B的离散系数V=0.07/0.12=0.583 投资项目A每单位回报率承受0.714单位的风险,而投资项目B每单位回报率的风险为0.583单位,因此,A的风险较大。

二项概率

二元变量的两个取值常常被称为成功和失败.用π来代表成功的概率用1-π来代表失败的概率.在n个观察值的样本中,成功的次数为x次,而失败的次数为n-x次.则x次成功和n-x次失败的概率,x次成功的均值,和成功次数的标准差分别为:

$$ p(n次试验中成功x次)=\binom{n}{x}π^x(1-π)^{n-x}=\frac{n!}{x!(n-x)!}π^x(1-π)^{n-x} \
x的均值=μ=nπ \
x的标准差=σ=\sqrt{nπ(1-π)} \
$$

作为一个例子,如果n=4,x=3和π=0.49.那么有三次成功一次失败的概率是:

$$ \binom{4}{3}0.49^3(1-0.49)^{4-3}=\frac{4!}{3!(4-3)!}0.49^3(1-0.49)^{4-3}=\frac{(4)(3)(2)(1)}{(3)(2)(1)(1)}0.49^3(0.51)=4(0.49)^3(0.51)=0.24 $$

均值和标准差是:

$$ 均值μ=4(0.49)=1.96 \
标准差σ=\sqrt{4(0.49)(1-0.49)}=1.00 $$

优势和概率 如果给了我们一个事件发生的优势a比b,那么概率p的计算方法为: $$ p=\frac{b}{a+b} $$

这个方程还可以被改写为:

$$ p=\frac{b/a}{1+b/a}=\frac{优势}{1+优势} $$

另一方面我们还可以使用概率来得到优势.如果我们将上面的方程对优势b/a进行反解可以得到(感觉公式有点问题,具体可以看后面的例子):

$$ \frac{b}{a}=\frac{p}{1+p} $$

在5.3节奥运会主办地的例子中,悉尼得到2000年夏季运动会主办权的概率是0.692:

$$ \frac{b}{a}=\frac{0.692}{1-0.692}=2.25 $$

这就是说优势是1比2.25,转化为整数是4比9.优势是事件不发生(a)与事件发生(b)的比率.因此事件发生的概率是p=b/(a+b),事件不发生的概率是p=a/(a+b)

二项变量 (binomial variable) 如果一个家庭有4个孩子,它们中有一定数量的女孩,则用4减去该数就是男孩数.这是一个新的变量:4个孩子中女孩的个数.这个变量可能取值为0,1,2,3或4.这种变量叫做二项变量.

p值 p值是在有关总体的某些假设下,观察值或更极端值出现的概率.

泊松分布 (Poisson distribution) 是用来描述在一指定时间范围内或指定的面积或体积之内某一事件出现的次数的分布。让我们用μ来表示事件发生次数的均值。那么事件发生x次的概率可以用下面公式来计算: $$ p(x)=\frac{e^{-μ}μ^x}{x!} $$

事件发生次数的均值和标准差则是: $$ 均值 = μ \
标准差σ = \sqrt{μ} $$ 如果一个小时内,电话铃平均响2.1次,那么一小时内电话铃响5次的概率是多大?我们在Poisson分布的公式中带入μ=2.1得到: $$ p(5)=\frac{e^{-2.1}2.1^5}{5!}=0.042 $$

100个小时中只有大约4个小时会出现电话铃声响过5次的情况。呼叫次数的标准差是$σ=\sqrt{2.1}=1.45$次。

概率密度函数 (probability density function) 由于连续型随机变量可以取某一区间或整个实数轴上的任意一个值,所以我们不能像对离散型随机变量那样,列出没一个值及其相应的概率,而必须用其他的方法,通常用数学函数的形式和分布函数的形式来描述。当用函数f(x)来表示连续型随机变量时我们将f(x)称为概率密度函数 概率密度函数应满足下述两个条件: (1) f(x) ≥ 0     (2)$\int_{-\infty}^{+\infty}f(x)dx=1$ 需要指出的是,f(x)并不是一个概率,即f(x)≠P(X=x),f(x)称为概率密度函数,而P(X=x)在连续分布的条件下为零(比如明天的降雨量)。在连续分布的情况下曲线下面的面积表示概率,如随机变量X在a和b之间的概率可以写成: $$ P(a<X<b)=\int_a^bf(x)dx $$

超几何概率分布 第5.6节节中有关委员会成员选择是否公平的例子可以如表5.3所示。这十个人中没一个人都属于上述表格中四栏之一。因为我们知道性别变量的分布和需要选入委员会的人数,所以上表中总数的一栏是固定的。表中的其他四个栏是随机的,如果形成另一个委员会,这两个表不一定一样。

超几何概率分布 在表5.4中表示了概括的数据。所有事件的总数是n,某一种事件是b个,另一种是r个。从n个事件中随机的选择m个并且属于无放回选择。那么某一种事件出现x次的概率是:

$$ p(x)=\frac{\binom{b}{x}\binom{n-b}{m-x}}{\binom{n}{m}} $$

括号中的两个数是二项系数,其计算与在二项分布中的解释相同。对于委员会选取的例子:

$$ p(4)=\frac{\binom{5}{4}\binom{5}{0}}{\binom{10}{4}}=\frac{(5)(1)}{\frac{(10)(9)(8)(7)}{(4)(3)(2)(1)}}=\frac{(5)(24)}{5040}=0.02 $$

从概率分布中计算均值和方差 当离散随机变量按相应的概率$p(x_1),p(x_2),···,p(x_k)$取值$x_1,x_2,···,x_k$时,均值μ和方差$σ^2$可以通过下式来计算: $$ μ=x_1p(x_1)+x_2p(x_2)+···+x_np(x_n) \
σ^2 = (x_1-μ)^2p(x_1)+(x_2-μ)^2p(x_2)+···+(x_n-μ)^2p(x_n) $$

正态分布 (normal distribution)在连续型随机变量中,最重要的一种随机变量是具有钟形概率分布的随机变量,相应的概率分布称为正态分布。在社会经济问题中,有许多随机变量的概率分布都服从正态分布。例如,某地区同年龄组儿童的发育特征,如身高、体重、肺活量;某公司年销售量;在同一条件下产品的质量以平均质量为中心上下摆动;特别查的和特别好的都是少数,多数处在中间状态;人群中的高个子和矮个子都是少数,而中等身材的人居多,等等。 1.正态分布的定义及图形特点 如果随机变量X的概率密度为:

$$ f(x)=\frac{1}{σ\sqrt{2π}}e^{-\frac{1}{2σ2}(x-\mu)^2},-∞<x<+∞ $$

则称X服从正态分布,记作X~N(μ,$σ^2$),其中,-∞<x<+∞,σ>0,μ为随机变量X的均值,σ为随机变量X的标准差,他们是正态分布的两个参数。 X~N(μ,$σ^2$),通常读成随机变量X服从均值为μ、方差为$σ^2$的正态分布。 为了画出正态分布的图形,先对概率密度f(x)作几点讨论: (1) f(x)≥0,即整个概率密度曲线都在x轴的上方。 (2) 曲线f(x) 相对于x=μ对称,并在x=μ处达到最大值,$f(μ)=\frac{1}{\sqrt{2π}σ}$。 (3) 曲线的陡缓程度由σ决定,σ越大,曲线越平缓;σ越小,曲线越陡峭。 (4) 当x趋于无穷时,曲线以x轴为其渐近线。 μ决定了图形的中心位置,σ决定了图形中曲线的陡峭程度。当σ较大时,曲线趋于平缓;当σ较小时,曲线趋于陡峭。

参数μ和σ对曲线位置、形状的影响

2.标准正态分布 当前面式中μ=0,σ=1时,有 $$ f(x)=\frac{1}{σ\sqrt{2π}}e^{-\frac{x^2}{2}},-∞<x<+∞ $$

相应的正态分布N(0,1)称为标准正态分布 (standard normal distribution)。对标准正态分布,通常用$\varphi(x)$表示概率密度函数,用$\Phi(x)$ 表示分布函数,即

$$ \varphi(x)=\frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}    \Phi(x)=\int_{-\infty}^{x}\Phi(t)dt=\int_{-\infty}^{x}\frac{1}{\sqrt{2π}}e^{-\frac{t^2}{2}}dt $$

标准正态分布的概率密度函数$\varphi(x)$和分布函数$\Phi(x)$的图形如下图所示。

标准正态分布的概率密度函数和分布函数

标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。设X~N(μ,$σ^2$),则$Z=\frac{X-μ}{σ}~N(0,1)$就是将一般正态分布转化为标准正态分布的公式。

3.正态分布表 只要将一般正态分布转化为标准正态分布,通过查表,就可解决正态分布的概率计算问题。对于负的x值,可由$\Phi(-x)=1-\Phi(x)$得到。

统计量 在实际应用中,当我们从某总体中抽取一个样本(X1,X2,···,Xn)后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断称为可能,首先必须把分散的样本中我们关心的信息集中起来,针对不同的研究目的,构造不同的样本函数,这种函数在统计学中称为统计量。统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。统计量在统计学中具有极其重要的地位,它是统计推断的基础。统计量在统计学中的地位相当于随机变量在概率论中的地位。

抽样分布 (sampling distribution) 三大抽样分布 中心极限定理 (central limit theorem) 设从均值为μ、方差为$σ^2$(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值$\bar{x}$的抽样分布近似服从均值为μ、方差为$σ^2/n$的正态分布。

蒙提霍尔问题 (Monty Hall problem)

参数估计 (parameter estimation) 就是用样本统计量去估计总体的参数。比如,用样本均值$\bar{x}$估计总体均值μ,用样本比例p去估计总体比例π,用样本方差$s^2$估计总体方差$σ^2$,等等。如果将总体参数笼统地用一个符号$\theta$来表示,而用于估计总体参数的统计量用$\vartheta$表示,参数估计也就是如何用$\vartheta$来估计$\theta$。

在参数估计中,用来估计总体参数的统计量称为估计量(estimator),用符号$\vartheta$表示。样本均值、样本比例、样本方差等都可以是一个估计量。而根据一个具体的样本计算出来的估计量的数值称为估计值(estimated value)。比如,要估计一个班学生考试的平均分数,从中抽取一个随机样本,全班的平均分数是不知道的,称为参数,用$\theta$表示,根据样本计算的平均分数$\bar{x}$就是一个估计量,用$\vartheta$表示,假定计算出来的样本平均分数为80分,这个80分就是估计量的具体数值,称为估计值。

点估计 (point estimate) 就是用样本统计量$\vartheta$的某个取值直接作为总体参数$\theta$的估计值。假定要估计一个班学生考试成绩的平均分数,根据抽出的一个随机样本计算的平均分数为80分,用80分作为全班平均考试分数的一个估计值,这就是点估计。再比如,若要估计一批产品的合格率,根据抽样结果合格率为96%,将96%直接作为这批产品合格率的估计值,这也是一个点估计。

区间估计 (interval estimate) 虽然在重复抽样条件下,点估计的均值可望等于总体均值(比如,$E(\bar{x})=μ$),但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体均值。在用点估计值代表总体参数值得同时,还必须给出点估计值的可靠性,也就是说,必须能说出点估计值于总体参数的真实值接近的程度。但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这个表明一个具体的店估计值无法给出估计的可靠性的度量,因此就不能完全依赖于一个点估计值,而是围绕点估计值构造总体参数的一个区间,这就是区间估计。

假定参数是射击靶上10环的位置,作一次射击,打在靶心10环的位置上的可能性很小,但打在靶子上的可能性就很大,用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这个是区间估计的基本思想。

由样本均值的抽样分布可知,在重复抽样或无限总体抽样的情况下,样本均值的数学期望等于总体均值,即$E(\bar{x})=μ$,样本均值的标准误差为$σ_\bar{x}=σ/\sqrt{n}$,由此可知样本均值$\bar{x}$落在总体均值μ的两侧各为1个抽样标准差范围内的概率为0.6827;落在2各抽样标准差范围内的概率为0.9545;落在3各抽样标准差范围内的概率为0.9973等等。

实际上,可以求出样本均值$\bar{x}$落在总体均值μ的两侧任何一个抽样标准差范围内的概率。通俗的说,如果抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值,而另外5个区间则不包含总体均值。 下图给出了区间估计的示意图。

区间估计示意图

无偏性 (unbiasedness) 是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为$\theta$,所选择的估计量为$\vartheta$,如果$E(\vartheta)=\theta$,则称$\vartheta$为$\theta$的无偏估计量。

无偏和有偏估计量

有效性 (efficiency) 一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须与总体参数的离散程度比较小。有效性是指对同一总体参数的两个无偏估计量,有更小的标准差的估计量更有效。在无偏估计的条件下,估计量的方差越小,估计就越有效。 下图中$\vartheta1$比$\vartheta2$更有效

两个无偏估计量的抽样分布

一致性 (consistency) 一致性是指随着样本量的增大,估计量的值越来越接近被估总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。大样本量给出的估计量更接近总体均值μ。从这个意义上说,样本均值是总体均值的一个一致估计量。对于一致性如下图。

两个不同样本量的样本统计量的抽样分布

置信区间

置信区间 (confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。原因是,如果抽取了许多不同的样本,比如说抽取100个样本,根据每一个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含,则95%这个值称为置信水平。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平 (confidence level),也成为置信度置信系数(confidence coefficient)

在构造置信区间时,可以用所希望的任意值作为置信水平。比较常用的置信水平及正态分布曲线下右侧面积为α/2时的z值($z_{α/2}$)

总体百分数的置信区间 从一个大的总体中抽取一个由n个观测值组成的随机样本,并用P来标记样本百分比。我们想要得到总体百分比π的一个95%置信区间。该区间为(公式6.1)

$$ P - 1.96\sqrt{\frac{P(100-P)}{n}} 到 P + 1.96\sqrt{\frac{P(100 - P)}{n}} $$

1.96这个值来自正态分布。是变量z的一个值。它使得2.5%的z值小于-1.96同时2.5%的z值大于1.96。也就是说有95%的z值落在-1.96到1.96之间,从而构成了一个95%的置信区间。对于别的置信水平的置信区间,相应的z值可以从正态分布表中查到。 一个快速计算95%置信区间的近似方法是令P=50,同时四舍五入1.96到2 (公式6.2):

$$ p-\frac{100}{\sqrt{n}} 到 p+\frac{100}{\sqrt{n}} $$ 在某种意义上,这是一个有些保守的置信区间,因为大多数情况下它比公式6.1得到的区间要稍长一些。但它更容易计算,并且与(6.1)的结果差别不太大。由公式6.2可知,对于一个有900个观测的样本,误差是100/30=3.3,而对有1600个观测的样本这个误差变成了2.5。对于误差是3,则要求样本含有1111个观测。一般都要求把误差控制在3左右。这就是为什么大多数样本要求有1200个响应者的原因。

总体均值的置信区间

由n个独立的、服从正态分布的观测组成一个样本,样本均值计为$\bar{x}$,样本标准差记为s。则总体均值的置信区间是:

$$ \bar{x}-t*\frac{s}{\sqrt{n}} 到 \bar{x}+t*\frac{s}{\sqrt{n}} d.f. = n -1 $$

这儿的t*是t变量的一个值,它可以从自由度为n-1的t分布的统计表中查到。要得到95%置信区间,只需找到t*使95%的t变量的值都落在-t* 到+t*之间即可。

在少数情况下总体的标准差σ是已知的,这时可以用σ去代替公式中的样本标准差s,同事还要用来自正态分布的值z*去替代来自t分布的t*。这时置信区间就变成了:

$$ \bar{x}-z*\frac{σ}{\sqrt{n}} 到 \bar{x}+z*\frac{σ}{\sqrt{n}} $$ 当z*=1.96时它是一个95%的置信区间。

两个百分比之差的置信区间 一个样本有$n_1$个观测,另一个有$n_2$个观测;相应地,两个样本的样本百分比分别为$p_1$和$p_2$。则两个总体百分比$II_1$和$II_2$之差的95%置信区间是(公式6.4):

$$ (P_1-P_2)-1.96\sqrt{\frac{P_1(100-P_1)}{n_1}+\frac{P_2(100-P_2)}{n_2}} 到 (P_1-P_2)+1.96\sqrt{\frac{P_1(100-P_1)}{n_1}+\frac{P_2(100-P_2)}{n_2}} $$

两个均值之差的置信区间 一个含有$n_1$个观测的样本的样本均值为$\bar{x}_1$,样本标准差为$s_1$。另一个样本有$n_2$个观测,样本均值为$\bar{x}_2$,样本标准差为$s_2$。先由公式:

$$ s=\sqrt{\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}} $$

给出两个标准差的平均值,然后就可以的到两个总体均值$μ_1$与$μ_2$之差的置信区间了 公式(6.5):

$$ (\bar{x}_1-\bar(x)_2)-t*s\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} 到 (\bar{x}_1-\bar{x}_2)+t*s\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} $$ 我们从自由度是$n_1+n_2-2$的t分布表中查得到t*的值,是t变量落入-t*到t*之间的概率是0.95

假设检验

显著水平 显著水平一般用希腊字母α来表示。α是抽样所得的数据拒绝了本来是正确的零假设概率。样本统计量的临界值是这样被选出来的:当零假设正确时落在临界值以外的样本统计量只占全部的5%。

单个均值的检验 它的零假设要问的是总体均值μ是否等于一个特殊值$μ_0$:

$$ H_0:μ = μ_0 $$

一个样本包括n个观测,均值是$\bar{x}$,标准差是s。为检验零假设先要把样本均值做一个变换,变换成t变量的一个值,公式如下:(7.1)

$$ t=\frac{\bar{x}-μ_0}{s/\sqrt{n}}   d.f. = n - 1 $$

用t的这个观测值,通过软件或统计表可以计算出相应的p-值。如果p-值很小就拒绝零假设。考虑零假设$H_0:μ=4.0$。如果样本容量n=12,均值$\bar{x}=2.0$,标准差s=1.54,则有

$$ t=\frac{2.0-4.0}{1.54/\sqrt{12}} = -4.50   d.f. = 12 - 1 =11 $$

t 小于等于 -4.50的概率是0.0005,即p-值是0.0005。如果用5%的显著水平或t分布表来判断,对于自由度11的t分布来说t< -2.20或 t>2.20的概率是5%。现在t值为更极端的-4.50,所以拒绝零假设。

检验两均值的不同

设两个总体的均值分别是$μ_1$和$μ_2$,零假设是:两个均值相等:

$$ H_0:μ_1-μ_2=0 $$

为检验零假设,从两个总体中抽取样本数据,第一个样本有$n_1$个观测,均值是$\bar{y}_1$,标准差是$s_1$;第二个样本有$n_2$个观测,均值是$\bar{y}_2$,标准差是$s_2$。通过这些可以计算出下面的t统计量公式(7.2):

$$ t=\frac{\bar{y}_1-\bar{y}_2}{s\sqrt{1/n_1+1/n_2}}  d.f. = n_1+n_2-2 $$

如果计算出的t值超过了从t分布表中查到的临界值,就拒绝零假设。(用p-值方法可以的到更多的信息,p-值是出现观测到的t值和比这个值更极端的值的概率。) 要计算t,我们首先要找到公式(7.2)中的标准差s。首先要计算的是$s^2$而不是s。它是两个样本方差的加权平均。它被称为来自两个样本的联合方差,计算公式如下公式(7.3):

$$ s^2=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2} $$ 注意公式中用的是两个样本的方差而不是标准差。使用这个公式的前提是样本所属的两个总体的方差相等。因为若总体方差相等。则这两个样本方差就是对同一个参数的估计,两个估计也可以联合起来。联合方差的平方根就是联合标准差s,用它、两个样本均值和它们的样本容量就可以计算t变量的观察值了。 在地理的例子中,我们虽然知道分子上的任何两国样本的两个均值但由于并不知道联合的s或它们的样本容量,所以无法计算t值。但是我们知道大不列颠和法国的t值一定很小,因为在地图上找对的地方数之差仅为0.2,从统计上看是不显著的。同时墨西哥和美国的均值之差却达到1.3,这个差异应该是统计显著的,它们的t值很可能会比较大。一般来说t值大于2.00就被人为是相当大的,而且是统计显著的。反之,若算得的t值小于2.00就不能算大,也就不能说这个结果是统计显著的。 在总体方差相等的情况下,有一个计算t值的简化公式,它可以避开联合标准差的计算。与上面类似,用下表1和2来区分统计量来自哪个样本,一个计算t的近似值的公式为:

$$ t=\frac{\bar{y}_1-\bar{y}_2}{\sqrt{s^2_2/n_1+s^2_1/n_2}}  d.f. = n_1+n_2-2 $$

注意在分母的根号中是用第一个样本的观测个数除第二个样本的方差,同事用第二个样本的观测个数除第一个样本的方差。在绝大多情况下这个公式的效果和公式7.2一样好。 比较成对数据均值的t检验将会在第十二章给出。

总体比例检验

零假设为总体比例π等于一个特殊值$π_0$:

$$ H_0:π = π_0 $$

我们把样本比例p的值变换成z变量的一个值,公式如下(7.4):

$$ z=\frac{p-π_0}{\sqrt{\frac{π_0(1-π_0)}{n}}} $$ 此处n是样本尺寸。 作为一个例子,假设有n=1000个观测的样本的样本比例是p=0.60。我们想检验零假设 $$ H_0:π=0.50 $$

首先把p-值变换成z值

$$ z=\frac{0.60-0.50}{\sqrt{\frac{0.50(1-0.50)}{1000}}}=6.32 $$

而z值大于等于6.32的概率小于0.0001.这样,在总体比例是0.50的情况下,含有1000个观测的样本之比例大于等于0.60的概率是如此之小。浴室我们只好拒绝零假设,并下结论说样本不可能来自这样的总体,真正的总体比例应大于0.50。

比例之差的检验

零假设为两个总体比例相等:

$$ H_0:π_1-π_2=0 $$

为了对零假设进行检验,我们把两个样本的观察比例之差p1-p2用下面公式变换成为z得分公式(7.5):

$$ z=\frac{(p_1-p_2)-(π_1-π_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}}+\frac{p_2(1-p_2)}{n_2}} $$

其中$n_1$和$n_2$分别是两个样本中观测的个数。 在罪犯的那个例子中一个样本中的32个人中有6个被判犯新罪,而另一个样本的40个人中有18个被判犯新罪。这就给出了$p_1=6/32=0.19,p_2=18/40=0.45$。有

$$ z=\frac{(0.45-0.19)-0}{\sqrt{\frac{0.45(1.00-0.45)}{40}}+\frac{0.19(1-0.19)}{32}}=2.35 $$

而z=2.35的p-值是0.0094,因此我们拒绝两个总体比例的相等的零架设。 这个方法也可以作少许变动。当零假设为真而且两个总体比例确实相等时,两个样本就可以联合在一起来评估这个公共的值。重新犯罪的总人数所占的比例为 $$ p=\frac{6+8}{32+40}=\frac{24}{72}=0.33 $$

现在可以用这个公共的p-值来替代两个分别的值去计算z值:

$$ z=\frac{(0.45-0.19)-0}{\sqrt{\frac{0.33(1.00-0.33)}{40}}+\frac{0.33(1-0.33)}{32}}=\frac{0.45-0.19}{\sqrt{0.33(1.00-0.33)}\sqrt{\frac{1}{32}+\frac{1}{40}}}=2.33 $$

其p-值为0.0099,得到同样的结论;拒绝总体有相等比例的零架设。 这个公式看上去很像在检验两个均值差异时求t值的公式;分子为两个均值之差,分母的s用p(1-p)和两样本容量的到数之和的平方根来代替了。 也可以通过比较两个比例来研究2x2列联表中两个分类型变量间的关系。

其他

希腊字母读音 正态分布表 Standard normal table Engineering Tables/Student's T-Distribution

0条评论
avatar