生物统计学是生命科学各专业本科生的必修课程。样本方差是生物统计学中的一个重要概念,但对样本方差自由度的介绍一直是课堂教学的难点所在。运用MATLAB模拟、结合实例以及数学证明对自由度概念给予多角度阐释,不仅有助于学生正确理解样本方差自由度的概念,激发学生的学习兴趣,同时也能为统计推断的教学奠定基础。 Biostatistics is a compulsory major course for students. A key concept in biostatistics is sample variance, but it is difficult to clearly demonstrate the degree of freedom in sample variance during classroom teaching. MATLAB based simulations together with real-world examples and rigorous proof can explain the concept of degree of freedom from multiple perspectives. These combinatorial strategies not only help to accurately understand the concept of degree of freedom in sample variance, inspire students’ interest but also assist in the study of statistical inference.
生物统计学是生命科学各专业本科生的必修课程。样本方差是生物统计学中的一个重要概念,但对样本方差自由度的介绍一直是课堂教学的难点所在。运用MATLAB模拟、结合实例以及数学证明对自由度概念给予多角度阐释,不仅有助于学生正确理解样本方差自由度的概念,激发学生的学习兴趣,同时也能为统计推断的教学奠定基础。
生物统计学,MATLAB,样本方差,自由度
Tingzhe Sun*, Dan Mu
School of Life Sciences, Anqing Normal University, Anqing Anhui
Received: Mar. 7th, 2021; accepted: Apr. 18th, 2021; published: Apr. 25th, 2021
Biostatistics is a compulsory major course for students. A key concept in biostatistics is sample variance, but it is difficult to clearly demonstrate the degree of freedom in sample variance during classroom teaching. MATLAB based simulations together with real-world examples and rigorous proof can explain the concept of degree of freedom from multiple perspectives. These combinatorial strategies not only help to accurately understand the concept of degree of freedom in sample variance, inspire students’ interest but also assist in the study of statistical inference.
Keywords:Biostatistics, MATLAB, Sample Variance, Degree of Freedom
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
生物统计学是一门基于数据的科学,是统计学的一个分支,旨在运用数理统计方法,探究生命科学研究中的现象和实验数据 [
在样本方差的定义中,需要调整自由度(degree of freedom, df),即由n调整为n − 1。此处自由度调整对初学者而言可能具有一定的理解困难。解释自由度的真正含义需要建立在对“数学期望”概念的理解基础上,而对于非数学专业学衡而言,“数学期望”并不是一个十分熟悉的概念。生物统计学教材中常不加证明而直接给出样本方差抽样分布的形式,通过此分布性质进而解释样本方差的自由度调整 [
MATLAB具有更接近自然语义的语法和数据结构、强大的绘图功能,并兼具卓越的科学计算能力 [
设 x = ( x 1 , x 2 , ⋯ , x n ) T 为取自正态总体 N ( μ , σ 2 ) 的简单随机样本,记样本均值 x ¯ = 1 n ∑ i = 1 n x i ,样本方差 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2 ,则: E s 2 = σ 2
证明:取 y = Γ x , y = ( y 1 , y 2 , ⋯ , y n ) T ,其中:
Γ = ( 1 n 1 n 1 n ⋯ 1 n 1 2 ⋅ 1 − 1 2 ⋅ 1 ⋯ ⋯ 0 1 3 ⋅ 2 1 3 ⋅ 2 − 2 3 ⋅ 2 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ 1 n ⋅ ( n − 1 ) 1 n ⋅ ( n − 1 ) 1 n ⋅ ( n − 1 ) ⋯ − n − 1 n ⋅ ( n − 1 ) ) (1)
容易验证矩阵Γ为正交矩阵。
则:
E y = Γ E x = ( n μ 0 ⋮ 0 ) (2)
y的方差 V a r ( y ) = Γ V a r ( x ) Γ T = Γ ( σ 2 I n ) Γ T = σ 2 Γ Γ T = σ 2 I n ,这里In为n阶单位矩阵。
由y的方差可知, y 1 , y 2 , ⋯ , y n 相互独立,且 y 1 ~ N ( n μ , σ 2 ) , y i ~ N ( 0 , σ 2 ) , i = 2 , ⋯ , n 。
另:
∑ i = 1 n y i 2 = y T y = x T Γ T Γ x = x T x = ∑ i = 1 n x i 2 (3)
( n − 1 ) s 2 = ∑ i = 1 n ( x i − x ¯ ) 2 = ∑ i = 1 n x i 2 − n x ¯ 2 = ∑ i = 1 n y i 2 − n x ¯ 2 = ∑ i = 1 n y i 2 − y 1 2 = ∑ i = 2 n y i 2 (4)
则根据χ2分布定义,得
( n − 1 ) s 2 σ 2 = ∑ i = 2 n y i 2 σ 2 ~ χ 2 ( n − 1 ) (5)
根据χ2分布的性质:
E [ ( n − 1 ) s 2 σ 2 ] = n − 1 (6)
即 E s 2 = σ 2 ,证毕。
由表达式(5)可知,有关样本方差的抽样分布为χ2分布,其自由度为n − 1。样本方差为总体方差σ2的无偏估计量。但对于绝大多数生命科学背景的学生而言,理解上述证明具有一定的难度。所以,在实际的讲授中,一般会通过形象化的举例描述来解释方差公式中的除数(n − 1),如:“n − 1”在统计学上可称之为自由度,是指独立可自由变化的观测数个数。在计算n个观测数的样本标准差时,每个x与 x ¯ 比
较,虽有n个离均差,但只有n − 1个是自由变动的,最后一个离均差由于受到一个条件 ∑ i = 1 n ( x i − x ¯ ) = 0 的限制不能自由变动。如一个样本具有5个观测数,已知4个离均差为2,3,1,−2,则第5个离均差必然为−4,才能使 ∑ i = 1 n ( x i − x ¯ ) = 0 成立。由于能自由变动的离均差是4,故自由度为4,即自由度为n − 1。
通过列举如上实例,可帮助部分基础薄弱学生对样本方差自由度形成一定的认识。
利用软件辅助教学是课程设计的重要环节。将MATLAB融入生物统计学课堂讲学,不仅可以提升学生知识运用的能力,还能辅助进行复杂繁琐的计算,激发学生热情 [
取容量为n的样本,样本均值为 x ¯ 。记样本的离均差平方和为 S S = ∑ i = 1 n ( x i − x ¯ ) 2 。若重复此过程N次,记 S S m e a n = 1 N ∑ j = 1 N ∑ i = 1 n ( x i j − x ¯ ) 2 。当 N → + ∞ 时, S S m e a n → ( n − 1 ) σ 2 [
运用MATLAB进行数值模拟,样本容量n = 5。简化起见,取标准正态分布随机变量,即 x i ~ N ( 0 , 1 ) , x = ( x 1 , x 2 , x 3 , x 4 , x 5 ) T 。简单随机样本(每行为1样本),示例参见图1。随机样本使用MATLAB中randn函数生成。无偏和有偏方差的计算基于MATLAB中std函数,通过设定std (X, Dim)函数第二输入参数Dim实现(Dim = 0为无偏,Dim = 1为有偏)。每抽取一个容量n = 5的样本,计算一次样本的离均差平方
和。若此时重复次数为N,则依 S S m e a n = 1 N ∑ j = 1 N ∑ i = 1 n ( x i j − x ¯ ) 2 公式计算SSmean。因随机变量来自于标准正态分布 σ 2 = 1 ,故 N → + ∞ 时, 1 n − 1 S S m e a n → 1 , 1 n S S m e a n → 0.8 ,偏差 − σ 2 n → − 0.2 。所以随着重复取样次数N的增加, 1 n − 1 S S m e a n 、 1 n S S m e a n 和偏差 − σ 2 n 取值将逼近理论值(图2)。因此,样本方差的自由度应为n –
1,若样本离均差平方和除以n,则与理论值存在偏差,不符合参数估计中“无偏性”的要求。
随机样本生成和均方计算MATLAB脚本文件如图3所示。其中“RepNum”为重复数N的取值范围,以适应对数横坐标。
用于绘制图2的MATLAB代码如图4所示。“scatter”为绘制散点图的MATLAB函数。在实际的教学过程,可通过改变scatter函数的参数取值,调整散点图的效果,不仅可以使学生熟悉统计图谱绘制,同时也帮助学生了解统计图对生物统计学结果的增强效应。
图1. MATLAB生成服从标准正态分布随机变量
图2. 无偏、有偏方差和偏差值随重复数N变化的MATLAB模拟
图3. 用于计算的MATLAB源代码
图4. 用于绘图的MATLAB源代码
方差自由度是统计学中的重要基本概念,但一般的生物统计学教材中缺少对此自由度的证明和详尽解释。因此,多数学生无法清楚理解基于n − 1自由度产生方差无偏估计的性质。通过修改脚本中RepNum向量的最大值,增加重复取样N的次数,可以实现对图2横轴的延伸,进而观察到更多的均方变化趋势,这不失为一种有益的课堂交互式体验。另外,由于MATLAB语法更接近于自然语义,所以上述均方计算代码相对简单易懂,有助于具有一定基础的学生理解和掌握。另外,MATLAB代码的运行时间相对较短,生成图2所需循环时间仅为约0.085秒(Windows 10操作系统,Intel CoreTM i5-8265 CPU,1.80 GHz,8.00 GB RAM)。即使增大RepNum向量的最大值3个数量级至107,运行时间仍小于0.1秒。最近有文献以Excel 2010作为语言工具,运用Excel 2010内嵌的VBA (Visual Basic for Application)编程功能进行了随机抽样过程并对自由度进行了模拟 [
值得注意的是,2018年,高教司提出了“金课”的建设标准“两性一度”,即高阶性、创新性、挑战度 [
感谢安庆师范大学生命科学学院朱亮亮老师对本研究的帮助。
国家自然科学基金面上项目(31971185);安徽省高等学校省级质量工程线下课程(原精品线下开放课程)示范项目(2020kfkc299);安徽省高等学校省级质量工程大规模在线开放课程(MOOC)示范项目(2018mooc399);安徽省高等学校省级质量工程教学研究重点项目(2017jyxm0307)。
孙廷哲,穆 丹. 样本方差自由度的多角度阐释Explaining the Degree of Freedom in Sample Variance from Multiple Perspectives[J]. 创新教育研究, 2021, 09(02): 420-425. https://doi.org/10.12677/CES.2021.92066