Friday, May 15, 20262026年5月15日(金)
| Week | Presenter | Paper |
|---|---|---|
| 4 | Shohei | Tenenbaum & Xu (2000), Word learning as Bayesian inference |
| 11 | Imai | Mikolov et al. (2013), Efficient estimation of word representations in vector space (word2vec) |
| 12 | Tenzin | Miller, Raine & Groh (2023), AI hyperrealism: why AI faces are perceived as more real than human ones |
(Adapted from Tom Griffiths. Also good for reading ANY paper in this course.)
(Tom Griffithsから。本コースで論文を読むときにも有用。)
Full rubric + tips · 完全な評価基準: hml.chibatech.dev/presentation-guidelines.html
Prior: \(\mu \sim N(500, 20^2)\)
Likelihood: observation \(D = 510\), known \(\sigma = 30\)
Posterior: \(\mu \mid D \sim N(503.3, 16.6^2)\)
Notice: prior is Gaussian → posterior is Gaussian. Same family.
事前分布: \(\mu \sim N(500, 20^2)\)
尤度: 観測 \(D = 510\)、既知 \(\sigma = 30\)
事後分布: \(\mu \mid D \sim N(503.3, 16.6^2)\)
注目: 事前がガウス → 事後もガウス。同じ族。
Conjugate = the posterior stays in the same family as the prior.
Gaussian prior + Gaussian likelihood → Gaussian posterior.
Different parameters, same shape of distribution.
We just saw it once. The next question: is this lucky, or a pattern?
共役 = 事後が事前と同じ族にとどまる。
ガウス事前 + ガウス尤度 → ガウス事後。
パラメータは異なるが、分布の形は同じ。
一度見た。次の問い: これは幸運か、パターンか?
A prior family \(\mathcal{F}\) is conjugate to a likelihood \(p(D \mid \theta)\) when the posterior stays in \(\mathcal{F}\) (same functional form, updated params):
事前分布の族 \(\mathcal{F}\) が尤度 \(p(D \mid \theta)\) に共役とは、事後が 再び \(\mathcal{F}\) に属する (同じ関数形、パラメータだけ更新) こと:
\[ p(\theta) \in \mathcal{F} \;\; \Longrightarrow \;\; p(\theta \mid D) \in \mathcal{F} \]
The likelihood typically lives in a different family — e.g. Beta prior + Binomial likelihood → Beta posterior. Conjugacy is a property of the pair (prior family, likelihood).
Last week’s Gaussian-Gaussian was the special case where both happened to be in the same family — not the general rule.
尤度は通常別の族 — 例: ベータ事前 + 二項尤度 → ベータ事後。共役性は (事前族, 尤度) の組の性質。
先週のガウス-ガウスは両者が同じ族だった特殊例 — 一般則ではない。
| Property | Why you care |
|---|---|
| Closed-form posterior | No integration, no sampling |
| Sequential updates | Today’s posterior = tomorrow’s prior |
| Interpretable hyperparameters | Prior knowledge as “pseudo-observations” |
| Fast, exact | Good pedagogy + fast enough to compute on the fly |
| 性質 | なぜ重要か |
|---|---|
| 閉形式の事後 | 積分も標本化も不要 |
| 逐次更新 | 今日の事後 = 明日の事前 |
| 解釈可能なハイパーパラメータ | 事前知識を「疑似観測」として |
| 高速・厳密 | 教育に良く、実用速度でも計算可能 |
Chibany’s prior belief about tonkatsu rate \(\theta\):
70% tonkatsu, 30% hamburger — but how confident?
This semester’s data: 27 tonkatsu out of 40 bentos.
What’s Chibany’s updated belief about \(\theta\)?
チバニーのとんかつ率 \(\theta\) に対する事前信念:
とんかつ70%、ハンバーグ30% — でもどれくらい自信を持って?
今学期のデータ: 40個中27個がとんかつ。
\(\theta\) に対するチバニーの更新後の信念は?
With rate \(\theta\) fixed, \(n\) bentos give \(k\) tonkatsus with probability:
\[ p(k \mid \theta, n) = \binom{n}{k} \, \theta^{k} (1-\theta)^{n-k} \]
Each bento is iid Bernoulli(\(\theta\)). \(\binom{n}{k}\) counts which \(k\) of the \(n\) were tonkatsu.
率 \(\theta\) を固定すると、\(n\) 個の弁当のうち \(k\) 個がとんかつである確率:
\[ p(k \mid \theta, n) = \binom{n}{k} \, \theta^{k} (1-\theta)^{n-k} \]
各弁当は iid ベルヌーイ(\(\theta\))。\(\binom{n}{k}\) は \(n\) 個中どの \(k\) 個がとんかつかの選び方の数。
What if we fix \(k\) and \(n\) (we saw them) and ask: which \(\theta\) made these data likely?
\[ \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\text{a function of } \theta} \]
Same expression — now read as a curve over \(\theta \in [0,1]\). The \(\binom{n}{k}\) drops out: it doesn’t depend on \(\theta\).
\(k\) と \(n\) を固定して(観測したから)、「どの \(\theta\) がこのデータを起こりやすくしたか?」と問うたら?
\[ \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\theta \text{ の関数}} \]
同じ式 — でも今度は \(\theta \in [0,1]\) 上の曲線として読む。\(\binom{n}{k}\) は \(\theta\) に依らないので落ちる。
Normalize \(\theta^{k}(1-\theta)^{n-k}\) over \(\theta \in [0,1]\) — it integrates to a constant. Call that constant \(B(k+1, n-k+1)\).
\[ \text{Beta}(\theta; \, \alpha, \beta) \;\propto\; \theta^{\alpha - 1}(1-\theta)^{\beta - 1} \]
Setting \(\alpha = k+1\), \(\beta = n-k+1\) recovers exactly the likelihood-as-curve. Beta is the family that generalizes that shape — any \(\alpha, \beta > 0\) allowed, including non-integer.
\(\theta^{k}(1-\theta)^{n-k}\) を \(\theta \in [0,1]\) で積分すると、ある定数になる。それを \(B(k+1, n-k+1)\) とおく。
\[ \text{Beta}(\theta; \, \alpha, \beta) \;\propto\; \theta^{\alpha - 1}(1-\theta)^{\beta - 1} \]
\(\alpha = k+1\)、\(\beta = n-k+1\) とおけば、ちょうど尤度曲線と一致。ベータはその形を一般化した族 — \(\alpha, \beta > 0\) なら何でもよく、非整数も可。
\(\text{Beta}(8, 3)\): mass concentrated above \(0.5\), peak around \(0.78\). Moderate confidence — not razor-sharp, not flat.
5 samples: \(0.755, \; 0.638, \; 0.520, \; 0.748, \; 0.647\)
\(\text{Beta}(8, 3)\): 質量は \(0.5\) より上に集中、ピークは \(0.78\) あたり。中程度の自信 — 鋭くも平坦でもない。
5サンプル: \(0.755, \; 0.638, \; 0.520, \; 0.748, \; 0.647\)
All four have mean \(0.5\) (because \(\alpha = \beta\)) — but they look completely different. The \(\alpha + \beta\) dial controls concentration, not location.
4つとも平均は \(0.5\)(\(\alpha = \beta\) だから) — でも見た目はまったく違う。\(\alpha + \beta\) ダイヤルは集中度を制御、位置ではない。
Tanaka finds bags of marbles in his parents’ attic. Each bag is mostly one color (white or black), but overall the count is ~50/50.
He wants to encode this in a Beta prior over \(\theta\) = probability of drawing white. Which \(\text{Beta}(\alpha, \beta)\)?
田中さんが実家の屋根裏でビー玉の袋を見つけた。各袋はほぼ一色(白または黒)だが、全体では約50/50。
これを \(\theta\) =(白を引く確率)に対するベータ事前として表したい。どの \(\text{Beta}(\alpha, \beta)\) ?
D. \(\text{Beta}(0.5, 0.5)\).
U-shaped: mass piles up near \(0\) and \(1\) (bag-level extremity), symmetric overall. \(\text{Beta}(2,2)\) and \(\text{Beta}(10,10)\) are unimodal at \(0.5\) — they encode “around half white” within a bag, which is the opposite of what Tanaka saw.
U字型: \(0\) と \(1\) の近くに質量が集まり(袋ごとの極端さ)、全体としては対称。\(\text{Beta}(2,2)\) と \(\text{Beta}(10,10)\) は\(0.5\) に単峰 — 「袋の中で約半分が白」を表しており、田中さんが見たものとは逆。
Prior: \(\theta \sim \text{Beta}(\alpha, \beta)\) → \(p(\theta) \propto \theta^{\alpha-1}(1-\theta)^{\beta-1}\)
Likelihood: \(k\) tonkatsus in \(n\) bentos → \(p(k \mid \theta) \propto \theta^{k}(1-\theta)^{n-k}\)
事前: \(\theta \sim \text{Beta}(\alpha, \beta)\) → \(p(\theta) \propto \theta^{\alpha-1}(1-\theta)^{\beta-1}\)
尤度: \(n\) 個中 \(k\) 個がとんかつ → \(p(k \mid \theta) \propto \theta^{k}(1-\theta)^{n-k}\)
Posterior \(\propto\) Prior \(\times\) Likelihood:
\[ p(\theta \mid k) \;\propto\; \theta^{\alpha-1}(1-\theta)^{\beta-1} \cdot \theta^{k}(1-\theta)^{n-k} \]
\[ = \; \theta^{(\alpha + k) - 1}(1-\theta)^{(\beta + n - k) - 1} \]
Recognize this: it’s \(\text{Beta}(\alpha + k, \; \beta + n - k)\).
これは: \(\text{Beta}(\alpha + k, \; \beta + n - k)\)。
Prior: \(\theta \sim \text{Beta}(\alpha, \beta)\)
Data: \(k\) successes in \(n\) trials
Posterior: \(\theta \mid k \sim \text{Beta}(\alpha + k, \; \beta + n - k)\)
Just add the counts. Successes bump \(\alpha\), failures bump \(\beta\).
事前: \(\theta \sim \text{Beta}(\alpha, \beta)\)
データ: \(n\) 試行中 \(k\) 成功
事後: \(\theta \mid k \sim \text{Beta}(\alpha + k, \; \beta + n - k)\)
回数を足すだけ。 成功は \(\alpha\) に、失敗は \(\beta\) に加算。
Prior: \(\theta \sim \text{Beta}(7, 3)\) — “70/30 with low confidence” · Data: 27 tonkatsu in 40 · Posterior: \(\text{Beta}(7+27, \; 3+13) = \text{Beta}(34, 16)\)
事前: \(\theta \sim \text{Beta}(7, 3)\) — 「70/30、自信は低め」 · データ: 40個中27個がとんかつ · 事後: \(\text{Beta}(7+27, \; 3+13) = \text{Beta}(34, 16)\)
Mean barely moved (\(0.70 \to 0.68\)) — but the posterior is much sharper. 40 observations of moderate signal added a lot of certainty.
平均はほとんど動かず(\(0.70 \to 0.68\)) — でも事後はずっと鋭くなる。40個の観測で確信が大幅に強まった。
Agenda so far: Beta-Binomial ✓
Now: what if Chibany weighs N bentos, not one?
ここまで: ベータ-二項 ✓
次は: チバニーが1個ではなくN個の弁当を測ったら?
| Symbol | What it is |
|---|---|
| \(\mu_0, \sigma_0^2\) | Prior mean and variance of \(\mu\) |
| \(\sigma^2\) | Data noise (known, fixed) |
| \(D_1, \ldots, D_N\) | \(N\) iid observations |
| \(\sum_i D_i\) | Sum over the \(N\) observations: \(D_1 + D_2 + \cdots + D_N\) |
| \(\mu_N, \sigma_N^2\) | Posterior mean and variance of \(\mu\) after seeing \(N\) data |
| 記号 | 意味 |
|---|---|
| \(\mu_0, \sigma_0^2\) | \(\mu\) の事前の平均と分散 |
| \(\sigma^2\) | データのノイズ(既知・固定) |
| \(D_1, \ldots, D_N\) | \(N\) 個の iid 観測 |
| \(\sum_i D_i\) | \(N\) 観測の和: \(D_1 + D_2 + \cdots + D_N\) |
| \(\mu_N, \sigma_N^2\) | \(N\) データを見た後の \(\mu\) の事後の平均と分散 |
Posterior precision:
事後の精度:
\[ \underbrace{\frac{1}{\sigma_N^2}}_{\text{posterior}} \;=\; \underbrace{\frac{1}{\sigma_0^2}}_{\text{prior}} \;+\; \underbrace{\frac{N}{\sigma^2}}_{N \text{ data}} \]
Precision = 1/variance. Each observation adds \(1/\sigma^2\) units. \(N\) observations add \(N/\sigma^2\).
Sanity check: at \(N = 1\), this matches Week 2’s single-observation case.
精度 = 1/分散。 各観測が \(1/\sigma^2\) 単位を加える。\(N\) 観測で \(N/\sigma^2\)。
確認: \(N = 1\) なら第2週の単一観測の式と一致。
\[ \mu_N \;=\; \sigma_N^2 \left( \underbrace{\frac{\mu_0}{\sigma_0^2}}_{\text{prior precision} \times \text{prior mean}} \;+\; \underbrace{\frac{\sum_i D_i}{\sigma^2}}_{\text{data precision} \times \text{data sum}} \right) \]
\(\mu_N\) is a precision-weighted average of the prior mean and the data sum. Whoever has more precision wins.
\(\mu_N\) は事前平均とデータ和の精度重み付き平均。精度の大きい方が勝つ。
While deriving a posterior over \(\mu\), Jamal notices the non-constant terms (w.r.t. \(\mu\)) have the form of a Gaussian. He drops everything else and concludes the posterior is Gaussian with parameters read off the surviving form. Is he correct?
\(\mu\) の事後を導出中、ジャマルは(\(\mu\) に関する)非定数項が ガウスの形をしている ことに気づいた。残りを全て落とし、残った形からパラメータを読み取って事後をガウスと結論した。正しい?
A. Yes — the dropped terms are part of the normalization constant.
A posterior is a probability density in \(\mu\). Anything not depending on \(\mu\) is a multiplicative constant — absorbed into \(Z = \int p(\mu \mid D)\, d\mu\).
Recognize the functional form → read off parameters → normalization handles itself.
事後分布は \(\mu\) についての確率密度。\(\mu\) に依存しないものは乗法的な定数で、\(Z = \int p(\mu \mid D)\, d\mu\) に吸収される。
関数形を認識 → パラメータを読み取る → 正規化は勝手に処理される。
Observations arrive one at a time. Posterior after \(k\) observations becomes prior for observation \(k+1\).
観測が1個ずつ到着。\(k\) 観測後の事後が、\(k+1\) 番目の観測の事前になる。
\[ \text{Beta}(34, 16) \xrightarrow[+1 \text{ hamb}]{\text{see 1 more}} \text{Beta}(34, 17) \]
\[ N(503.3, 16.6^2) \xrightarrow[D = 498]{\text{see 1 more}} N(502.2, 14.5^2) \]
This is why conjugacy is useful in practice: online updates, no re-fit.
これが実用上の共役性の利点: オンライン更新、再学習不要。
| Prior | Likelihood | Posterior |
|---|---|---|
| \(\text{Beta}(\alpha, \beta)\) | Binomial\((n, p)\) | \(\text{Beta}(\alpha + k, \beta + n - k)\) |
| \(\text{Dirichlet}(\vec{\alpha})\) | Multinomial\((n, \vec{p})\) | \(\text{Dirichlet}(\vec{\alpha} + \vec{k})\) |
| \(N(\mu_0, \sigma_0^2)\) | \(N(\mu, \sigma^2)\) | \(N(\mu_N, \sigma_N^2)\) |
Row 2 is the multi-category generalization: \(\vec{\alpha} = (\alpha_1, \ldots, \alpha_K)\), \(\vec{k} = (k_1, \ldots, k_K)\). Same “add the counts” rule.
| 事前 | 尤度 | 事後 |
|---|---|---|
| \(\text{Beta}(\alpha, \beta)\) | Binomial\((n, p)\) | \(\text{Beta}(\alpha + k, \beta + n - k)\) |
| \(\text{Dirichlet}(\vec{\alpha})\) | Multinomial\((n, \vec{p})\) | \(\text{Dirichlet}(\vec{\alpha} + \vec{k})\) |
| \(N(\mu_0, \sigma_0^2)\) | \(N(\mu, \sigma^2)\) | \(N(\mu_N, \sigma_N^2)\) |
2行目は多カテゴリへの一般化: \(\vec{\alpha} = (\alpha_1, \ldots, \alpha_K)\)、\(\vec{k} = (k_1, \ldots, k_K)\)。同じ「回数を足す」規則。
Three pairs all worked. But how strict is the “same family” rule?
Prior on \(\mu\): bimodal (mixture of two Gaussians)
Likelihood: Gaussian
Posterior?
3つの対はうまくいった。では「同じ族」というルールはどれくらい厳密か?
\(\mu\) の事前: 二峰性(2つのガウスの混合)
尤度: ガウス
事後は?
B and D are both defensible — depending on what “family” means.
Lesson: conjugacy is a property of the (prior family, likelihood) pair, not the prior alone.
BとDのどちらも妥当 — 「族」の意味次第。
教訓: 共役性は(事前族、尤度)の対の性質、事前単体ではない。
\[ \text{(a)} \quad \mathtt{H \; H \; T \; H \; T \; T \; T \; H} \]
\[ \text{(b)} \quad \mathtt{H \; H \; H \; H \; H \; H \; H \; H} \]
Both sequences have the same probability under a fair coin: \((1/2)^8 = 1/256\).
So why do people consistently say the first is “more random”?
Griffiths & Tenenbaum (2001): a single likelihood \(P(x \mid \text{random})\) can’t decide anything by itself — you need at least two hypotheses to compare. “Is \(x\) random?” only has an answer if you also ask “compared to what?” — e.g. “or did some regularity in the world produce \(x\)?”
両方とも公正なコインで同じ確率: \((1/2)^8 = 1/256\)。
なぜ人は一貫して前者を「よりランダム」と言うのか?
Griffiths & Tenenbaum (2001): 単一の尤度 \(P(x \mid \text{random})\) だけでは何も判断できない — 比較する仮説が少なくとも2つ必要。「\(x\) はランダムか?」に答えるには「何と比べて?」も問わなければならない — 例: 「それとも世界の何らかの規則性が \(x\) を生んだのか?」
Not \(P(x \mid \text{random})\). Instead, \(P(x \mid \text{random})\) vs. \(P(x \mid \text{regular})\).
\(P(x \mid \text{random})\) ではなく、\(P(x \mid \text{random})\) vs. \(P(x \mid \text{regular})\)。
\[ \text{subjective randomness}(x) \;=\; \log \frac{P(x \mid \text{random})}{P(x \mid \text{regular})} \]
A likelihood ratio. Uniform prior over the two hypotheses → this is the posterior odds.
尤度比。 2つの仮説に一様な事前 → これがそのまま事後オッズ。
At step \(k\), count heads \(H_i\) and tails \(T_i\) in the suffix going back \(i\) steps. Score how much choosing H vs T at step \(k\) keeps the suffixes balanced:
ステップ \(k\) で、\(i\) ステップ前まで遡る部分系列の表 \(H_i\) と裏 \(T_i\) を数える。ステップ \(k\) で H と T のどちらを選ぶと部分系列のバランスが保たれるかを採点:
\[ L_k \;=\; \sum_{i=1}^{k-1} \log \frac{P(\,H_i + 1,\; T_i \mid \text{random}\,)}{P(\,H_i,\; T_i + 1 \mid \text{random}\,)} \]
Then \(P(R_k = \text{H}) = \sigma(\lambda L_k)\), where \(\sigma(z) = \dfrac{1}{1 + e^{-z}}\) squashes any real number into \([0, 1]\).
A long run of H’s drives \(L_k\) negative (every suffix already looks H-heavy), so the model strongly prefers T next — no free “switch preference” parameter needed.
次に \(P(R_k = \text{H}) = \sigma(\lambda L_k)\)、ここで \(\sigma(z) = \dfrac{1}{1 + e^{-z}}\) は任意の実数を \([0, 1]\) に押し込む関数。
Hの連続が長いと \(L_k\) が負に振れる(どの部分系列もすでにH偏重)ので、モデルは次にTを強く好む — 自由な「切替選好」パラメータ不要。
1937 publicity stunt: Zenith broadcast 5 H/T sequences via radio, asked 20,099 listeners to “transmit” their guesses via ESP. Sequences collapsed to 16 length-5 patterns (initial choice ignored).
1937年の宣伝企画: ZenithがH/T系列5つをラジオで放送し、20,099人のリスナーにESPで「送信」してもらった。長さ5の16パターンに集約(最初の選択は無視)。


\(\lambda = 0.6\) fits with \(r = 0.95\). The bias toward sequences like 01010 falls out of the math — no free “switch preference” knob.
\(\lambda = 0.6\) で当てはまり \(r = 0.95\)。 01010 のような系列への偏りは数式から導かれる — 自由な「切替選好」パラメータなし。
Open question: is human cognition Bayesian-by-default, or just Bayesian-when-tractable?
開かれた問い: 人の認知はデフォルトでベイズ的か、それとも扱える時だけベイズ的か?
Ira leads. Hierarchical Bayes.
Chibany’s bento rate isn’t the same across every semester, but semesters aren’t totally independent either. How do we share information without collapsing?
Read T3 Ch 5 before class.
イラが進行。階層ベイズ。
チバニーの弁当率は学期ごとに同じではないが、学期同士が完全に独立でもない。 潰さずに情報をどう共有する?
授業前にT3 第5章を読むこと。