STA238H1(Probability, Statistics and Data Analysis I)是 University of Toronto 统计学系开设的核心课程,在 UofT 众多专业中是必修或高频选修——统计学专业必修,数学、精算科学和计算机科学学生也常选修。
这门课结合了概率理论、推断统计和 R 语言实践,对很多没有统计背景的学生来说是第一次接触严格的数学推导和编程分析双重要求。
课程概况
| 项目 | 内容 |
|---|---|
| 课程代码 | STA238H1 |
| 全称 | Probability, Statistics and Data Analysis I |
| 先修要求 | MAT135/136 或 MAT137(微积分);STA130 建议先修 |
| 学分 | 0.5(= 1 学期) |
| 评分方式(通常) | 作业 / Labs 30–40% + 期中 20–25% + 期末 35–40% |
| 工具 | R 语言 + RStudio |
核心内容模块
模块 1:概率基础
这是 STA238 的理论根基,也是期中考试的重点:
样本空间与事件:
- 样本空间 Ω,事件 A ⊆ Ω
- 公理化概率(Kolmogorov Axioms)
- 独立事件:P(A ∩ B) = P(A) × P(B)
条件概率与贝叶斯定理:
$$P(A | B) = \frac{P(A \cap B)}{P(B)}$$
$$P(A | B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
贝叶斯定理是期中期末必考点,常以医学检测(假阳性/假阴性)或分类问题为情景。
模块 2:随机变量与分布
离散分布(重点):
| 分布 | 参数 | PMF | E[X] | Var[X] |
|---|---|---|---|---|
| Bernoulli(p) | p | p^x(1-p)^(1-x) | p | p(1-p) |
| Binomial(n,p) | n, p | C(n,x)p^x(1-p)^(n-x) | np | np(1-p) |
| Poisson(λ) | λ | e^(-λ)λ^x/x! | λ | λ |
| Geometric(p) | p | (1-p)^(x-1)p | 1/p | (1-p)/p² |
连续分布(重点):
| 分布 | 参数 | E[X] | Var[X] |
|---|---|---|---|
| Uniform(a,b) | a, b | (a+b)/2 | (b-a)²/12 |
| Normal(μ,σ²) | μ, σ² | μ | σ² |
| Exponential(λ) | λ | 1/λ | 1/λ² |
| Gamma(α,β) | α, β | α/β | α/β² |
常考知识点:
- 正态分布标准化:Z = (X - μ)/σ,查 Z 表
- 中心极限定理(CLT):样本均值的分布近似正态
- 矩母函数(MGF):M_X(t) = E[e^(tX)],用于求期望和方差
模块 3:参数估计
点估计:
- 矩估计(MOM):令样本矩 = 总体矩,解出参数
- 最大似然估计(MLE):最大化似然函数 L(θ) = ∏f(xi; θ)
MLE 推导步骤:
- 写出似然函数 L(θ)
- 取对数:ℓ(θ) = log L(θ)
- 对 θ 求导并令导数 = 0
- 验证是最大值(二阶导 < 0)
常考分布的 MLE:
- Normal:μ̂ = x̄,σ̂² = (1/n)Σ(xi - x̄)²
- Exponential:λ̂ = 1/x̄
- Binomial:p̂ = x̄/n
模块 4:区间估计与假设检验
置信区间(CI):
正态分布,σ 已知: $$\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$
正态分布,σ 未知(用 t 分布): $$\bar{X} \pm t_{n-1, \alpha/2} \cdot \frac{s}{\sqrt{n}}$$
假设检验步骤:
- 建立 H₀(零假设)和 H₁(备择假设)
- 选择检验统计量(Z 统计量或 t 统计量)
- 计算 p-value
- 与显著性水平 α 比较,做决策
Type I Error 和 Type II Error:
- Type I(α):H₀ 为真时拒绝 H₀(假阳性)
- Type II(β):H₁ 为真时接受 H₀(假阴性)
- Power = 1 - β
R 语言作业指南
STA238 的 Labs 和作业需要用 R 和 RMarkdown 完成。
常用 R 代码
# 基本统计
x <- c(12, 15, 14, 20, 18)
mean(x) # 均值
var(x) # 样本方差
sd(x) # 标准差
median(x) # 中位数
# 概率计算
pnorm(1.96) # P(Z <= 1.96) 标准正态
qnorm(0.975) # Z_{0.025} = 1.96
pbinom(3, size=10, p=0.4) # P(X <= 3), X~Binomial(10, 0.4)
dpois(5, lambda=3) # P(X = 5), X~Poisson(3)
# 置信区间
t.test(x, conf.level=0.95) # 95% CI(t分布)
# 假设检验
t.test(x, mu=15, alternative="two.sided") # 双侧 t 检验
# 线性回归
model <- lm(y ~ x, data=df)
summary(model)
RMarkdown 作业提示
UofT STA238 的作业通常以 .Rmd 格式提交并 Knit 为 PDF:
---
title: "STA238 Assignment 2"
author: "Your Name (Student ID)"
date: "2026-03-15"
output: pdf_document
---
常见问题:
- 图表没有标注(Title / Axis Labels)→ 使用
labs()或main= - 代码没有注释 → 每个关键步骤写一行注释
- 结果没有文字解读 → 每个统计结果下面写 1–2 句分析
期末备考策略
高频考点(按历年规律):
- 贝叶斯定理计算(一定会考)
- MLE 推导(正态、泊松、指数分布)
- t 检验 / z 检验(判断使用哪种,计算统计量)
- 置信区间构造和解释
- 给定密度函数求期望和方差
备考顺序建议:
- 第一步:整理所有分布的 PDF/PMF、期望、方差公式(一张 Reference Sheet)
- 第二步:做 3 套以上完整 Past Quiz/Test
- 第三步:重点练 MLE 推导(这是最容易丢分的部分)
允许带 Aid Sheet 吗?STA238 期末通常允许带 1 张 Aid Sheet(双面),建议写:分布公式、MLE 推导流程、假设检验模板。
常见问题
STA238 和 STA237 有什么区别?
STA237H1(Probability, Statistics and Data Analysis II)是 STA238 的后续课程,STA238 是前导。STA237 更深入贝叶斯统计和随机过程。
R 语言零基础能上 STA238 吗?
可以,但需要额外时间熟悉 R。建议在课程开始前跑一遍 R for Data Science 的前几章(免费在线)。RStudio Cloud 可以在线使用,不需要本地安装。
这门课对精算学生重要吗?
非常重要。STA238 覆盖的概率分布和推断统计是精算考试(P/1 Exam)的直接对口内容。统计精算学生通常把这门课当 P 考试的练习。
