统计学是澳洲大学几乎所有专业(商科、心理、经济、生物、公共卫生、计算机)都需要修读的基础课。很多同学在高中数学上表现不错,却在大学统计学上碰壁——因为大学统计强调"如何解读结论",而不只是计算数字。
课程对应关系:
- USYD:DATA1001 Foundations of Data Science / MATH1005
- UNSW:MATH1041 Statistics for Life and Social Sciences
- Monash:ETC1000 Business and Economic Statistics
- UQ:STAT1201 Analysis of Scientific Data
- UniMelb:MAST10010 Data Analysis 1
- ANU:STAT1008 Probability and Statistics
考核结构(以 USYD DATA1001 为例)
| 组成部分 | 权重 |
|---|---|
| R 语言作业(4–6 次) | 20–30% |
| 期中测试 | 20% |
| 期末考试 | 50–60% |
关键:R 语言作业是稳定分源,早学早受益;期末考试以概念理解 + 计算为主,需要理解"为什么"。
第一部分:描述统计(Descriptive Statistics)
集中趋势测量
| 指标 | 计算 | 适用情境 |
|---|---|---|
| 均值(Mean) | $\bar{x} = \frac{\sum x_i}{n}$ | 正态分布,无极端值 |
| 中位数(Median) | 排序后中间值 | 有偏分布,有极端值 |
| 众数(Mode) | 出现频率最高的值 | 分类数据 |
选择原则:有极端值(outliers)→ 用中位数;正态分布 → 用均值
离散程度测量
方差(Variance):
$$s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} \quad \text{(样本方差用 n-1)}$$
标准差(Standard Deviation):$s = \sqrt{s^2}$
四分位距(IQR = Q3 - Q1):对抗极端值的稳健测量
五数摘要(Five-Number Summary):Min, Q1, Median, Q3, Max → 用于绘制箱线图(Boxplot)
异常值识别(Outlier Detection)
IQR 方法(澳洲大学标准):
- 下界:$Q1 - 1.5 \times IQR$
- 上界:$Q3 + 1.5 \times IQR$
- 超过范围的数据点 = 异常值
第二部分:概率与分布
基本概率规则
加法规则(互斥事件):$P(A \cup B) = P(A) + P(B)$
一般加法规则(非互斥):$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
乘法规则(独立事件):$P(A \cap B) = P(A) \times P(B)$
条件概率:$P(A|B) = \frac{P(A \cap B)}{P(B)}$
正态分布(Normal Distribution)——期末核心
$$X \sim N(\mu, \sigma^2)$$
标准化(Z-score):
$$Z = \frac{X - \mu}{\sigma}$$
使用 Z 表(Standard Normal Table)计算概率:
例题:某班成绩 N(70, 100),求 P(X > 80) = ?
Z = (80 - 70) / 10 = 1.0
查 Z 表:P(Z < 1.0) = 0.8413
P(X > 80) = 1 - 0.8413 = 0.1587 ≈ 15.87%
68-95-99.7 规则(经验法则):
- $\mu \pm 1\sigma$ 覆盖约 68% 数据
- $\mu \pm 2\sigma$ 覆盖约 95% 数据
- $\mu \pm 3\sigma$ 覆盖约 99.7% 数据
二项分布(Binomial Distribution)
$$X \sim B(n, p)$$
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$
均值:$\mu = np$,方差:$\sigma^2 = np(1-p)$
第三部分:假设检验(Hypothesis Testing)——期末最难考点
五步法(澳洲大学标准流程)
Step 1:建立假设
- $H_0$(零假设):通常是"没有效应"或"没有差异"
- $H_1$(备择假设):你想验证的命题
Step 2:选择显著性水平 $\alpha$(通常 $\alpha = 0.05$)
Step 3:计算检验统计量
单样本 t 检验(总体方差未知):
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}, \quad df = n - 1$$
Step 4:计算 p-value 或与临界值比较
Step 5:得出结论
if p-value < α:拒绝 H₀(有统计显著性证据)
if p-value ≥ α:不能拒绝 H₀(证据不足)
重要区分(澳洲大学特别强调):
- "不拒绝 $H_0$" ≠ "证明 $H_0$ 为真"
- p-value 是"在 $H_0$ 为真的前提下,观测到这么极端数据的概率"
- 统计显著 ≠ 实际重要(需要结合效应量分析)
常用检验类型
| 情境 | 检验方法 |
|---|---|
| 一个样本均值 vs 已知值 | 单样本 t 检验 |
| 两个独立样本均值比较 | 两样本独立 t 检验 |
| 配对数据(前后对比) | 配对 t 检验 |
| 分类变量独立性 | 卡方检验(Chi-Square) |
| 多组均值比较 | 方差分析(ANOVA) |
第四部分:线性回归(Linear Regression)
简单线性回归
$$\hat{y} = b_0 + b_1 x$$
- $b_1$(斜率)= 自变量每增加 1 单位,因变量的平均变化量
- $b_0$(截距)= 自变量为 0 时,因变量的预测值
最小二乘法(OLS):通过最小化残差平方和来估计参数
$$b_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = r \times \frac{s_y}{s_x}$$
R² 决定系数(Coefficient of Determination)
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
解读:$R^2 = 0.75$ 表示模型解释了因变量 75% 的变异性
常见考试陷阱:$R^2$ 高不等于因果关系!相关 ≠ 因果(Correlation ≠ Causation)
第五部分:R 语言基础
澳洲大学统计学课普遍使用 R 或 R Studio,以下是高频代码:
# 基础描述统计
mean(x); median(x); sd(x); var(x)
summary(x) # 五数摘要
IQR(x)
# 正态分布
pnorm(1.96) # P(Z < 1.96)
qnorm(0.975) # 求分位点
rnorm(100, mean=0, sd=1) # 生成随机数
# t 检验
t.test(x, mu = 0) # 单样本
t.test(x, y, paired = FALSE) # 两样本
t.test(before, after, paired = TRUE) # 配对
# 线性回归
model <- lm(y ~ x, data = df)
summary(model) # 查看 R², p-value, 系数
# 绘图
hist(x, main="标题", xlab="x轴")
boxplot(x)
plot(x, y)
abline(model) # 在散点图上加回归线
期末备考策略
统计学期末的高频题型:
- 选择题:概率计算、分布识别、假设检验结论判断(约 40% 分数)
- 计算题:给数据求均值、标准差、z-score、t 统计量、置信区间
- 解读题:给出 R output,解读回归系数 / p-value / R²(这是最难得分的部分)
解读题模板:
"The coefficient of [variable] is [value], meaning that for every one unit increase in [x], [y] increases/decreases by [value] on average, holding other variables constant."
"The p-value is [value], which is [less than / greater than] the significance level of 0.05. Therefore, we [reject / fail to reject] the null hypothesis. There is [sufficient / insufficient] evidence to conclude that [...]."
相关资源:
