澳洲大学统计学完整攻略：STAT1001/DATA1001 期末备考指南

统计学是澳洲大学几乎所有专业（商科、心理、经济、生物、公共卫生、计算机）都需要修读的基础课。很多同学在高中数学上表现不错，却在大学统计学上碰壁——因为大学统计强调"如何解读结论"，而不只是计算数字。

课程对应关系：

USYD：DATA1001 Foundations of Data Science / MATH1005
UNSW：MATH1041 Statistics for Life and Social Sciences
Monash：ETC1000 Business and Economic Statistics
UQ：STAT1201 Analysis of Scientific Data
UniMelb：MAST10010 Data Analysis 1
ANU：STAT1008 Probability and Statistics

考核结构（以 USYD DATA1001 为例）

组成部分	权重
R 语言作业（4–6 次）	20–30%
期中测试	20%
期末考试	50–60%

关键：R 语言作业是稳定分源，早学早受益；期末考试以概念理解 + 计算为主，需要理解"为什么"。

第一部分：描述统计（Descriptive Statistics）

集中趋势测量

指标	计算	适用情境
均值（Mean）	$\bar{x} = \frac{\sum x_i}{n}$	正态分布，无极端值
中位数（Median）	排序后中间值	有偏分布，有极端值
众数（Mode）	出现频率最高的值	分类数据

选择原则：有极端值（outliers）→ 用中位数；正态分布 → 用均值

离散程度测量

方差（Variance）：

$$s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} \quad \text{（样本方差用 n-1）}$$

标准差（Standard Deviation）：$s = \sqrt{s^2}$

四分位距（IQR = Q3 - Q1）：对抗极端值的稳健测量

五数摘要（Five-Number Summary）：Min, Q1, Median, Q3, Max → 用于绘制箱线图（Boxplot）

异常值识别（Outlier Detection）

IQR 方法（澳洲大学标准）：

下界：$Q1 - 1.5 \times IQR$
上界：$Q3 + 1.5 \times IQR$
超过范围的数据点 = 异常值

第二部分：概率与分布

基本概率规则

加法规则（互斥事件）：$P(A \cup B) = P(A) + P(B)$

一般加法规则（非互斥）：$P(A \cup B) = P(A) + P(B) - P(A \cap B)$

乘法规则（独立事件）：$P(A \cap B) = P(A) \times P(B)$

条件概率：$P(A|B) = \frac{P(A \cap B)}{P(B)}$

正态分布（Normal Distribution）——期末核心

$$X \sim N(\mu, \sigma^2)$$

标准化（Z-score）：

$$Z = \frac{X - \mu}{\sigma}$$

使用 Z 表（Standard Normal Table）计算概率：

例题：某班成绩 N(70, 100)，求 P(X > 80) = ?

Z = (80 - 70) / 10 = 1.0
查 Z 表：P(Z < 1.0) = 0.8413
P(X > 80) = 1 - 0.8413 = 0.1587 ≈ 15.87%

68-95-99.7 规则（经验法则）：

$\mu \pm 1\sigma$ 覆盖约 68% 数据
$\mu \pm 2\sigma$ 覆盖约 95% 数据
$\mu \pm 3\sigma$ 覆盖约 99.7% 数据

二项分布（Binomial Distribution）

$$X \sim B(n, p)$$

$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$

均值：$\mu = np$，方差：$\sigma^2 = np(1-p)$

第三部分：假设检验（Hypothesis Testing）——期末最难考点

五步法（澳洲大学标准流程）

Step 1：建立假设

$H_0$（零假设）：通常是"没有效应"或"没有差异"
$H_1$（备择假设）：你想验证的命题

Step 2：选择显著性水平 $\alpha$（通常 $\alpha = 0.05$）

Step 3：计算检验统计量

单样本 t 检验（总体方差未知）：

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}, \quad df = n - 1$$

Step 4：计算 p-value 或与临界值比较

Step 5：得出结论

if p-value < α：拒绝 H₀（有统计显著性证据）
if p-value ≥ α：不能拒绝 H₀（证据不足）

重要区分（澳洲大学特别强调）：

"不拒绝 $H_0$" ≠ "证明 $H_0$ 为真"
p-value 是"在 $H_0$ 为真的前提下，观测到这么极端数据的概率"
统计显著 ≠ 实际重要（需要结合效应量分析）

常用检验类型

情境	检验方法
一个样本均值 vs 已知值	单样本 t 检验
两个独立样本均值比较	两样本独立 t 检验
配对数据（前后对比）	配对 t 检验
分类变量独立性	卡方检验（Chi-Square）
多组均值比较	方差分析（ANOVA）

第四部分：线性回归（Linear Regression）

简单线性回归

$$\hat{y} = b_0 + b_1 x$$

$b_1$（斜率）= 自变量每增加 1 单位，因变量的平均变化量
$b_0$（截距）= 自变量为 0 时，因变量的预测值

最小二乘法（OLS）：通过最小化残差平方和来估计参数

$$b_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = r \times \frac{s_y}{s_x}$$

R² 决定系数（Coefficient of Determination）

$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$

解读：$R^2 = 0.75$ 表示模型解释了因变量 75% 的变异性

常见考试陷阱：$R^2$ 高不等于因果关系！相关 ≠ 因果（Correlation ≠ Causation）

第五部分：R 语言基础

澳洲大学统计学课普遍使用 R 或 R Studio，以下是高频代码：

# 基础描述统计
mean(x); median(x); sd(x); var(x)
summary(x)  # 五数摘要
IQR(x)

# 正态分布
pnorm(1.96)       # P(Z < 1.96)
qnorm(0.975)      # 求分位点
rnorm(100, mean=0, sd=1)  # 生成随机数

# t 检验
t.test(x, mu = 0)                  # 单样本
t.test(x, y, paired = FALSE)       # 两样本
t.test(before, after, paired = TRUE)  # 配对

# 线性回归
model <- lm(y ~ x, data = df)
summary(model)  # 查看 R², p-value, 系数

# 绘图
hist(x, main="标题", xlab="x轴")
boxplot(x)
plot(x, y)
abline(model)  # 在散点图上加回归线

期末备考策略

统计学期末的高频题型：

选择题：概率计算、分布识别、假设检验结论判断（约 40% 分数）
计算题：给数据求均值、标准差、z-score、t 统计量、置信区间
解读题：给出 R output，解读回归系数 / p-value / R²（这是最难得分的部分）

解读题模板：

"The coefficient of [variable] is [value], meaning that for every one unit increase in [x], [y] increases/decreases by [value] on average, holding other variables constant."

"The p-value is [value], which is [less than / greater than] the significance level of 0.05. Therefore, we [reject / fail to reject] the null hypothesis. There is [sufficient / insufficient] evidence to conclude that [...]."

相关资源：