世界杯预选赛预测

目录

参数估计方法:1.点估计:1.1 矩估计:1.2 最大似然估计:1.3 评价标准:如果判断一个估计量是好是坏?

2. 区间估计:2.0 使用前提:2.1 单个总体:2.1.1 估计均值:2.1.2 估计方差:

2.2 两个总体:2.2.1 独立样本估计均值之差:2.2.2 匹配样本估计均值之差:2.2.3 估计方差之比:

3. 思维导图:

样本估计整体:

在统计学中,由于大多数情况下难以获得总体的情况,所以人们通常选择通过样本去估计总体(主要是通过样本的统计量估计总体的统计量)。

通常为已知样本分布【通常为正态分布】的情况下

由于知道每个样本的具体的值,故能知道样本的所有的数值特征 可以利用样本的参数(主要是

x

ˉ

\bar{x}

xˉ和

s

2

s^{2}

s2)对总体对应的参数(

μ

\mu

μ和

σ

2

\sigma^{2}

σ2)进行估计。

参数估计方法:

参数估计有两种方法分别是:点估计和区间估计

点估计(Point estimate for a parameter):又包括矩估计和最大似然估计。

1.点估计:

1.1 矩估计:

矩估计直接用样本的统计量代替相应总体的统计量较为直白、粗暴,胜在简单:

利用如下公式直接对参数进行估计: 其中,

A

k

A_{k}

Ak​是

x

x

x的

k

k

k阶原点矩。

A

k

=

1

n

i

=

1

n

x

i

k

A_{k} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}^{k}

Ak​=n1​i=1∑n​xik​

期望估计(一阶原点矩)

A

1

=

E

(

x

)

=

x

ˉ

A_{1} = E(x) = \bar{x}

A1​=E(x)=xˉ

方差估计(二阶原点距)

A

2

=

E

(

x

2

)

=

D

(

x

)

+

[

E

(

x

)

]

2

A_{2} = E(x^{2}) = D(x) + \left[E(x)\right]^{2}

A2​=E(x2)=D(x)+[E(x)]2

1.2 最大似然估计:

最大似然估计认为:出现所得到的观测值的原因,是因为其出现概率最大,具体计算操作此处暂不涉及。

1.3 评价标准:如果判断一个估计量是好是坏?

判断一个估计量的好坏:首先要以不存在系统性偏差为前提(期望相同);在这个前提下误差越小越好(方差更下);同时样本数越多,估计的越准(依概率收敛于被估计参数)。

无偏性:估计量的数学期望等于被估计参数。【期望相同】有效性:均为无偏时,方差小的有效性更强。【方差更小】一致性:随着样本量的增大,估计值接近被估计参数。【收敛于被估计参数】

2. 区间估计:

区间估计认为,小概率事件不会在一次实验中发生,故可以利用分位数确定参数所在区间范围。

考虑到样本参数直接等于总体参数的可能性接近于0,区间估计对齐进行优化:增加可能存在的误差区间【这个误差的大小由置信水平

1

α

1-\alpha

1−α决定(

α

\alpha

α可以当做犯错误的概率)】

若要求犯错的概率越低,那么误差的水平将会越大。若要求误差的水平越小,那么犯错的概率将会越高。

这是建立在已知信息(即样本的数量)不变的情况下,如果增大信息量(即增加样本量)那么可以同时减少误差和犯错概率!

2.0 使用前提:

林德伯格中心极限定理:保证正态总体前提

抛开数学公式的解释就是:当样本量足够大的时候,样本的分布将可以近似为正态分布,而如果已知是正态分布,那么一切都变得好办了起来。

注:图片来自知乎,作者慧航,如有侵权,请联系删除。

由此中心极限定理,可以将很多未知分布的问题转化为正态分布的问题,使得问题变得可以研究。因此接下来所讨论的问题均在已知正态总体的情况下进行讨论。

2.1 单个总体:

2.1.1 估计均值:

如果需要对整体均值(

μ

\mu

μ)进行估计,按照整体方差(

σ

2

\sigma^{2}

σ2)已知或未知分成两种不同的情况。分别采用

z

z

z(也可是说

u

u

u,下文统一用

z

z

z)统计量或者

t

t

t统计量。

待估参数其他参数(

σ

\sigma

σ)统计量置信区间

μ

\mu

μ未知

t

=

x

ˉ

μ

s

/

n

t

(

n

1

)

t=\dfrac{\bar{x}-\mu}{s/\sqrt{n}}\sim t\left(n-1\right)

t=s/n

​xˉ−μ​∼t(n−1)

[

x

ˉ

±

t

α

/

2

s

n

]

\left[\bar{x}\pm t_{\alpha/2}\dfrac{s}{\sqrt{n}}\right]

[xˉ±tα/2​n

​s​]

μ

\mu

μ已知

z

=

x

ˉ

μ

σ

/

n

N

(

0

,

1

)

z=\dfrac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N\left(0,1\right)

z=σ/n

​xˉ−μ​∼N(0,1)

[

x

ˉ

±

z

α

/

2

σ

n

]

\left[\bar{x}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right]

[xˉ±zα/2​n

​σ​]

注:在大样本(统计学中认为

n

30

n\geq 30

n≥30的,可以称之为大样本)的情况下,即使总体方差未知也可以使用

z

z

z统计量进行估计。(从操作难度上来看,选择

z

z

z或者

t

t

t作为统计量是一样的)

SPSS中只有t检验

z

z

z和

t

t

t统计量的主要区别在于

t

t

t统计量厚尾

2.1.2 估计方差:

如果需要对整体方差(

σ

2

\sigma^{2}

σ2)进行估计,按照整体均值(

μ

\mu

μ )已知或未知分成两种不同的情况,由于已知均值未知方差情况过于少见(以至于大多数教材都未列出),且二者差异只在自由度不同。此处只对

μ

\mu

μ未知的情况进行研究讨论。

待估参数其他参数($\mu $)统计量置信区间

σ

\sigma

σ未知

χ

2

=

(

n

1

)

S

2

σ

2

χ

2

(

n

1

)

\chi^{2}=\dfrac{(n-1)S^{2}}{\sigma^{2}}\sim \chi^{2}\left(n-1\right)

χ2=σ2(n−1)S2​∼χ2(n−1)

[

(

n

1

)

S

2

χ

α

/

2

2

(

n

1

)

,

(

n

1

)

S

2

χ

1

α

/

2

2

(

n

1

)

]

\left[\dfrac{(n-1)S^{2}}{\chi^{2}_{\alpha/2}(n-1)},\dfrac{(n-1)S^{2}}{\chi^{2}_{1-\alpha/2}(n-1)}\right]

[χα/22​(n−1)(n−1)S2​,χ1−α/22​(n−1)(n−1)S2​]

2.2 两个总体:

两个总体的估计,主要有估计均值之差和估计方差之比两种情况,基本思路是将两总体转化为单总体再进行操作。所以具体的操作步骤和单总体操作基本类似,只是由于总体变成了两个,新增了一个分类维度,叫做“均值是否相同”。

样本的分类:

独立样本:两个样本是从两个相互独立的总体中抽取得到的。

匹配样本:一个样本的数据与另一个样本中的数据相互对应。

如一组学生的语文成绩和数学成绩,一个学生对应两个成绩,且每个语文成绩都有与齐相互对应的数学成绩。

2.2.1 独立样本估计均值之差:

方差已知的情况下,无论样本大小,对参数进行估计,均采用

z

z

z统计量。

统计量置信区间

z

=

(

x

1

x

2

)

(

μ

1

μ

2

)

σ

1

2

n

1

+

σ

2

2

n

2

{z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{\sigma_{1}^{2}}{n_{1}}+\dfrac{\sigma_{2}^{2}}{n_{2}}}}

z=n1​σ12​​+n2​σ22​​

​(x1​−x2​)−(μ1​−μ2​)​

[

(

x

1

x

2

)

±

z

α

/

2

σ

1

2

n

1

+

σ

2

2

n

2

]

\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{\sigma_{1}^{2}}{{n}_{1}}+\dfrac{\sigma_{2}^{2}}{{n}_{2}}}\right]

[(x1​−x2​)±zα/2​n1​σ12​​+n2​σ22​​

​]

方差未知的情况下,需要对样本的大小进行讨论,采用不同的方法

大样本情况下的均值之差估计,不需要考虑总体方差是否相同

统计量置信区间

z

=

(

x

1

x

2

)

(

μ

1

μ

2

)

s

1

2

n

1

+

s

2

2

n

2

{z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{s_{1}^{2}}{n_{1}}+\dfrac{s_{2}^{2}}{n_{2}}}}

z=n1​s12​​+n2​s22​​

​(x1​−x2​)−(μ1​−μ2​)​

[

(

x

1

x

2

)

±

z

α

/

2

s

1

2

n

1

+

s

2

2

n

2

]

\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{s_{1}^{2}}{{n}_{1}}+\dfrac{s_{2}^{2}}{{n}_{2}}}\right]

[(x1​−x2​)±zα/2​n1​s12​​+n2​s22​​

​]

小样本情况下的均值之差估计:在小样本的情况下,若方差已知。

方差相同方差不同统计量

t

=

(

x

1

x

2

)

(

μ

1

μ

2

)

s

p

1

/

n

1

+

1

/

n

2

t

(

n

1

+

n

2

2

)

{t}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{{s}_{{p}} \sqrt{1 / {n}_{1}+1 / {n}_{2}}} \sim {t}\left({n}_{1}+{n}_{2}-2\right)

t=sp​1/n1​+1/n2​

​(x1​−x2​)−(μ1​−μ2​)​∼t(n1​+n2​−2)

t

=

x

1

x

2

s

1

2

n

1

+

s

2

2

n

2

t

(

v

)

{t}= \dfrac{\overline{{x}}_{1}-\overline{{x}}_{2}}{\sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}}\sim t\left(v\right)

t=n1​s12​​+n2​s22​​

​x1​−x2​​∼t(v)置信区间

[

(

x

ˉ

1

x

ˉ

2

)

±

t

α

/

2

(

n

1

+

n

2

2

)

s

p

2

(

1

/

n

1

+

1

/

n

2

)

]

\left[\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(1 / n_{1}+1 / n_{2}\right)}\right]

[(xˉ1​−xˉ2​)±tα/2​(n1​+n2​−2)sp2​(1/n1​+1/n2​)

​]

[

(

x

1

x

2

)

±

t

α

/

2

(

v

)

s

1

2

n

1

+

s

2

2

n

2

]

\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {t}_{\alpha/2}({v}) \sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}\right]

[(x1​−x2​)±tα/2​(v)n1​s12​​+n2​s22​​

​]参数信息

s

p

2

=

(

n

1

1

)

s

1

2

+

(

n

2

1

)

s

2

2

n

1

+

n

2

2

s_{p}^{2}=\dfrac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2}

sp2​=n1​+n2​−2(n1​−1)s12​+(n2​−1)s22​​

v

=

(

s

1

2

n

1

+

s

2

2

n

2

)

2

(

s

1

2

/

n

1

)

2

n

1

1

+

(

s

2

2

/

n

2

)

2

n

2

1

{v}=\dfrac{\left(\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}\right)^{2}}{\dfrac{\left({s}_{1}^{2} / {n}_{1}\right)^{2}}{{n}_{1}-{1}}+\dfrac{\left({s}_{2}^{2} / {n}_{2}\right)^{2}}{{n}_{2}-{1}}}

v=n1​−1(s12​/n1​)2​+n2​−1(s22​/n2​)2​(n1​s12​​+n2​s22​​)2​

2.2.2 匹配样本估计均值之差:

使用匹配样本可以排除由于样本本身的差异对结果造成的影响,下边列出方差未知情况下的匹配样本均值之差的参数估计

统计量置信区间大样本

z

=

d

ˉ

σ

d

/

n

N

(

0

,

1

)

{z}=\dfrac{\bar{d}}{\sigma_{d}/\sqrt{n}}\sim N\left(0,1\right)

z=σd​/n

​dˉ​∼N(0,1)

[

d

ˉ

±

z

α

/

2

σ

d

n

]

\left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{\sigma_{d}}{\sqrt{n}}\right]

[dˉ±zα/2​n

​σd​​]小样本

z

=

d

ˉ

s

d

/

n

t

α

(

n

1

)

{z}=\dfrac{\bar{d}}{s_{d}/\sqrt{n}}\sim t_{\alpha}\left(n-1\right)

z=sd​/n

​dˉ​∼tα​(n−1)

[

d

ˉ

±

z

α

/

2

s

d

n

]

\left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{s_{d}}{\sqrt{n}}\right]

[dˉ±zα/2​n

​sd​​]

其中:

d

ˉ

\bar{d}

dˉ:样本各差值的均值:

d

=

X

1

i

X

2

i

n

d

d = \dfrac{\sum{X_{1i}-X_{2i}}}{n_{d}}

d=nd​∑X1i​−X2i​​

σ

d

\sigma_{d}

σd​:总体各差值的标准差,

s

d

s_{d}

sd​:样本各插值的标准差:

s

d

=

(

d

i

d

ˉ

)

2

n

d

1

s_d = \sqrt{\dfrac{\sum{\left(d_{i}-\bar{d}\right)^{2}}}{n_{d}-1}}

sd​=nd​−1∑(di​−dˉ)2​

2.2.3 估计方差之比:

估计方差之比,先构造卡方统计量,对方差进行估计;再利用估计的方差做比,构造F统计量,从而求出方差之比的参数估计范围。由于应用较少,在此略去不表。(有时间再填这个坑吧)

3. 思维导图: