卡方独立性检验

卡方独立性检验是一种统计方法,用于检验两个分类变量之间是否独立。它基于样本的频数数据,构建一个列联表,并通过计算随机变量K^2(卡方值)来评估两个变量之间的关联性。K^2值越大,说明两个变量有关系的可能性越大。

以下是卡方独立性检验的基本步骤:

  1. 构建假设
  • 零假设 (H₀) :两个分类变量是独立的。

  • 备择假设 (H₁) :两个分类变量不是独立的。

  1. 创建列联表
  • 列出所有可能的分类组合,并统计每个组合的实际频数。
  1. 计算期望频数
  • 根据边际总数和假设变量独立的情况下,计算每个单元格的期望频数。
  1. 计算卡方统计量
  • 使用公式 \( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \) 计算卡方值,其中 \( O_i \) 是实际频数,\( E_i \) 是期望频数。
  1. 确定自由度
  • 自由度 \( v \) 的计算公式为 \( v = (行数 - 1) \times (列数 - 1) \)。
  1. 确定显著性水平
  • 选择一个显著性水平(如0.05),用于判断观察到的卡方值是否显著。
  1. 比较卡方值和临界值
  • 将计算得到的卡方值与卡方分布的临界值进行比较。如果卡方值大于临界值,则拒绝零假设,认为两个变量不独立;否则,没有足够证据拒绝零假设,认为两个变量独立。

示例

假设有以下数据:

患者类型 在医院 在诊所 总计
药物过量 10 5 15
非药物过量 20 15 35
总计 30 20 50

构建列联表如下:

在医院 在诊所 总计
药物过量 10 5 15
非药物过量 20 15 35
总计 30 20 50

计算期望频数:

  • 期望频数(在医院,药物过量)= (15/50) * 30 = 9

  • 期望频数(在医院,非药物过量)= (35/50) * 30 = 21

  • 期望频数(在诊所,药物过量)= (15/50) * 20 = 6

  • 期望频数(在诊所,非药物过量)= (35/50) * 20 = 14

计算卡方统计量:

[

\chi^2 = \frac{(10-9)^2}{9} + \frac{(5-21)^2}{21} + \frac{(20-6)^2}{6} + \frac{(15-14)^2}{14} = \frac{1}{9} + \frac{256}{21} + \frac{196}{6} + \frac{1}{14} \approx 14.11

]

确定自由度:

[

v = (2 - 1) \times (2 - 1) = 1

]

查找临界值(显著性水平0.05):

[

\chi^2_{0.05, 1} \approx 3.84

]

由于计算得到的卡方统计量(14.11)大于临界值(3.84),因此拒绝零假设,认为患者类型和就医地点之间存在显著关系。

注意事项

  • 卡方检验要求每个单元格的期望频数不应太小,否则检验的准确性会受到影响。

  • 卡方检验只能用于分类数据,即名义数据或序数数据。

  • 卡方检验的结果可能受到样本容量的影响,样本容量越大,检验结果越可靠。

Top