卡方独立性检验是一种统计方法,用于检验两个分类变量之间是否独立。它基于样本的频数数据,构建一个列联表,并通过计算随机变量K^2(卡方值)来评估两个变量之间的关联性。K^2值越大,说明两个变量有关系的可能性越大。
以下是卡方独立性检验的基本步骤:
- 构建假设 :
-
零假设 (H₀) :两个分类变量是独立的。
-
备择假设 (H₁) :两个分类变量不是独立的。
- 创建列联表 :
- 列出所有可能的分类组合,并统计每个组合的实际频数。
- 计算期望频数 :
- 根据边际总数和假设变量独立的情况下,计算每个单元格的期望频数。
- 计算卡方统计量 :
- 使用公式 \( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \) 计算卡方值,其中 \( O_i \) 是实际频数,\( E_i \) 是期望频数。
- 确定自由度 :
- 自由度 \( v \) 的计算公式为 \( v = (行数 - 1) \times (列数 - 1) \)。
- 确定显著性水平 :
- 选择一个显著性水平(如0.05),用于判断观察到的卡方值是否显著。
- 比较卡方值和临界值 :
- 将计算得到的卡方值与卡方分布的临界值进行比较。如果卡方值大于临界值,则拒绝零假设,认为两个变量不独立;否则,没有足够证据拒绝零假设,认为两个变量独立。
示例
假设有以下数据:
患者类型 | 在医院 | 在诊所 | 总计 |
---|---|---|---|
药物过量 | 10 | 5 | 15 |
非药物过量 | 20 | 15 | 35 |
总计 | 30 | 20 | 50 |
构建列联表如下:
在医院 | 在诊所 | 总计 | |
---|---|---|---|
药物过量 | 10 | 5 | 15 |
非药物过量 | 20 | 15 | 35 |
总计 | 30 | 20 | 50 |
计算期望频数:
-
期望频数(在医院,药物过量)= (15/50) * 30 = 9
-
期望频数(在医院,非药物过量)= (35/50) * 30 = 21
-
期望频数(在诊所,药物过量)= (15/50) * 20 = 6
-
期望频数(在诊所,非药物过量)= (35/50) * 20 = 14
计算卡方统计量:
[
\chi^2 = \frac{(10-9)^2}{9} + \frac{(5-21)^2}{21} + \frac{(20-6)^2}{6} + \frac{(15-14)^2}{14} = \frac{1}{9} + \frac{256}{21} + \frac{196}{6} + \frac{1}{14} \approx 14.11
]
确定自由度:
[
v = (2 - 1) \times (2 - 1) = 1
]
查找临界值(显著性水平0.05):
[
\chi^2_{0.05, 1} \approx 3.84
]
由于计算得到的卡方统计量(14.11)大于临界值(3.84),因此拒绝零假设,认为患者类型和就医地点之间存在显著关系。
注意事项
-
卡方检验要求每个单元格的期望频数不应太小,否则检验的准确性会受到影响。
-
卡方检验只能用于分类数据,即名义数据或序数数据。
-
卡方检验的结果可能受到样本容量的影响,样本容量越大,检验结果越可靠。