统计学DATA1001STAT1001MATH1041假设检验回归分析

澳洲大学统计学完整攻略:STAT1001/DATA1001 期末备考指南

4 min read

统计学是澳洲大学几乎所有专业(商科、心理、经济、生物、公共卫生、计算机)都需要修读的基础课。很多同学在高中数学上表现不错,却在大学统计学上碰壁——因为大学统计强调"如何解读结论",而不只是计算数字

课程对应关系

  • USYD:DATA1001 Foundations of Data Science / MATH1005
  • UNSW:MATH1041 Statistics for Life and Social Sciences
  • Monash:ETC1000 Business and Economic Statistics
  • UQ:STAT1201 Analysis of Scientific Data
  • UniMelb:MAST10010 Data Analysis 1
  • ANU:STAT1008 Probability and Statistics

考核结构(以 USYD DATA1001 为例)

组成部分权重
R 语言作业(4–6 次)20–30%
期中测试20%
期末考试50–60%

关键:R 语言作业是稳定分源,早学早受益;期末考试以概念理解 + 计算为主,需要理解"为什么"。


第一部分:描述统计(Descriptive Statistics)

集中趋势测量

指标计算适用情境
均值(Mean)$\bar{x} = \frac{\sum x_i}{n}$正态分布,无极端值
中位数(Median)排序后中间值有偏分布,有极端值
众数(Mode)出现频率最高的值分类数据

选择原则:有极端值(outliers)→ 用中位数;正态分布 → 用均值

离散程度测量

方差(Variance)

$$s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} \quad \text{(样本方差用 n-1)}$$

标准差(Standard Deviation):$s = \sqrt{s^2}$

四分位距(IQR = Q3 - Q1):对抗极端值的稳健测量

五数摘要(Five-Number Summary):Min, Q1, Median, Q3, Max → 用于绘制箱线图(Boxplot)

异常值识别(Outlier Detection)

IQR 方法(澳洲大学标准)

  • 下界:$Q1 - 1.5 \times IQR$
  • 上界:$Q3 + 1.5 \times IQR$
  • 超过范围的数据点 = 异常值

第二部分:概率与分布

基本概率规则

加法规则(互斥事件):$P(A \cup B) = P(A) + P(B)$

一般加法规则(非互斥):$P(A \cup B) = P(A) + P(B) - P(A \cap B)$

乘法规则(独立事件):$P(A \cap B) = P(A) \times P(B)$

条件概率:$P(A|B) = \frac{P(A \cap B)}{P(B)}$

正态分布(Normal Distribution)——期末核心

$$X \sim N(\mu, \sigma^2)$$

标准化(Z-score)

$$Z = \frac{X - \mu}{\sigma}$$

使用 Z 表(Standard Normal Table)计算概率

例题:某班成绩 N(70, 100),求 P(X > 80) = ?

Z = (80 - 70) / 10 = 1.0
查 Z 表:P(Z < 1.0) = 0.8413
P(X > 80) = 1 - 0.8413 = 0.1587 ≈ 15.87%

68-95-99.7 规则(经验法则)

  • $\mu \pm 1\sigma$ 覆盖约 68% 数据
  • $\mu \pm 2\sigma$ 覆盖约 95% 数据
  • $\mu \pm 3\sigma$ 覆盖约 99.7% 数据

二项分布(Binomial Distribution)

$$X \sim B(n, p)$$

$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$

均值:$\mu = np$,方差:$\sigma^2 = np(1-p)$


第三部分:假设检验(Hypothesis Testing)——期末最难考点

五步法(澳洲大学标准流程)

Step 1:建立假设

  • $H_0$(零假设):通常是"没有效应"或"没有差异"
  • $H_1$(备择假设):你想验证的命题

Step 2:选择显著性水平 $\alpha$(通常 $\alpha = 0.05$)

Step 3:计算检验统计量

单样本 t 检验(总体方差未知):

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}, \quad df = n - 1$$

Step 4:计算 p-value 或与临界值比较

Step 5:得出结论

if p-value < α:拒绝 H₀(有统计显著性证据)
if p-value ≥ α:不能拒绝 H₀(证据不足)

重要区分(澳洲大学特别强调)

  • "不拒绝 $H_0$" ≠ "证明 $H_0$ 为真"
  • p-value 是"在 $H_0$ 为真的前提下,观测到这么极端数据的概率"
  • 统计显著 ≠ 实际重要(需要结合效应量分析)

常用检验类型

情境检验方法
一个样本均值 vs 已知值单样本 t 检验
两个独立样本均值比较两样本独立 t 检验
配对数据(前后对比)配对 t 检验
分类变量独立性卡方检验(Chi-Square)
多组均值比较方差分析(ANOVA)

第四部分:线性回归(Linear Regression)

简单线性回归

$$\hat{y} = b_0 + b_1 x$$

  • $b_1$(斜率)= 自变量每增加 1 单位,因变量的平均变化量
  • $b_0$(截距)= 自变量为 0 时,因变量的预测值

最小二乘法(OLS):通过最小化残差平方和来估计参数

$$b_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = r \times \frac{s_y}{s_x}$$

R² 决定系数(Coefficient of Determination)

$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$

解读:$R^2 = 0.75$ 表示模型解释了因变量 75% 的变异性

常见考试陷阱:$R^2$ 高不等于因果关系!相关 ≠ 因果(Correlation ≠ Causation)


第五部分:R 语言基础

澳洲大学统计学课普遍使用 R 或 R Studio,以下是高频代码:

# 基础描述统计
mean(x); median(x); sd(x); var(x)
summary(x)  # 五数摘要
IQR(x)

# 正态分布
pnorm(1.96)       # P(Z < 1.96)
qnorm(0.975)      # 求分位点
rnorm(100, mean=0, sd=1)  # 生成随机数

# t 检验
t.test(x, mu = 0)                  # 单样本
t.test(x, y, paired = FALSE)       # 两样本
t.test(before, after, paired = TRUE)  # 配对

# 线性回归
model <- lm(y ~ x, data = df)
summary(model)  # 查看 R², p-value, 系数

# 绘图
hist(x, main="标题", xlab="x轴")
boxplot(x)
plot(x, y)
abline(model)  # 在散点图上加回归线

期末备考策略

统计学期末的高频题型:

  1. 选择题:概率计算、分布识别、假设检验结论判断(约 40% 分数)
  2. 计算题:给数据求均值、标准差、z-score、t 统计量、置信区间
  3. 解读题:给出 R output,解读回归系数 / p-value / R²(这是最难得分的部分)

解读题模板

"The coefficient of [variable] is [value], meaning that for every one unit increase in [x], [y] increases/decreases by [value] on average, holding other variables constant."

"The p-value is [value], which is [less than / greater than] the significance level of 0.05. Therefore, we [reject / fail to reject] the null hypothesis. There is [sufficient / insufficient] evidence to conclude that [...]."


相关资源:

📊

数据分析卡壳了?

R / Python / SPSS 统计辅导,从跑模型到写结果解读,一步到位。微信 30 分钟内回复。

扫码咨询发 Brief · 30 分钟报价