2011年9月9日金曜日

カプラン‐マイヤー推定量の手短な導出


  • カプラン‐マイヤー推定量(Kaplan-Meier estimator)の何たるかについては他のサイトをご覧ください.
  • この投稿は,Thomas R. Fleming, David P. Harrington "Counting Processes and Survival Analysis" の p.3-5 あたりを参考にしています.
  • 以下はちゃんとした厳密な導出ではないです.
  • 上記の本には「3章と6章で計数過程とマルチンゲール表現によって,カプラン‐マイヤー推定量をきちんと表現する」みたいなことが書いてある.
$T$ は非負,連続型の確率変数で故障(=死亡)時間を表すのにつかう.分布関数は $F(t)$ ,密度関数を $f(t)=\frac{d}{dt}F(t)$ ,生存関数は $S(x)=\{T>t\}=1-F(t)$ ,ハザード関数を
\begin{align*}
\lambda (t) & = \lim _{\Delta t \to 0+0} \frac{1}{\Delta t}P\{t \le T<t+\Delta t|T \ge t\} \\
 & = -[\frac{d}{dt}S(t)]/S(t) \\
& = f(t)/S(t).
\end{align*}
とする.関数 $\Lambda (t)=\int^t_0 \lambda (u) du$ は $T$ の累積ハザード関数(cumulative hazard function)と呼ばれる.

また,$S(t)=\exp\{-\Lambda (t)\}$である.なぜなら
\begin{align*}
&\frac{d}{dt}\log\{1-F(t)\}=-\frac{f(t)}{1-F(t)}\\
&\Leftrightarrow \log S(t)=-\int^t_0\Lambda (u) du \\
&\Leftrightarrow S(t)=\exp\{-\Lambda (t)\}
\end{align*}
だからである.

$0=t_0<t_1<\cdots < t_m =t$ は区間 $[0,t]$ の分割, $d_l$ を $[t_{l-1},t_l)$ の時点での故障したモノの数の合計, $y_l$ を時間 $t_{l-1}$ 以前に故障していないモノ(これから故障が起きるかもしれない集団なので『リスクセット』などと呼ばれる)の数の合計とする.

十分小さい $\Delta t$ に対して,
\begin{align*}
\Lambda (t + \Delta t)-\Lambda (t) & \approx \lambda (t) \Delta t \\
& = \lim _{\Delta t \to 0+0} \frac{1}{\Delta t}P(t \le T<t+\Delta t|T \ge t) \Delta t \\
& \approx P(t \le T<t+\Delta t|T \ge t)
\end{align*}
上式の1行目

が成り立つ.これより, $\Lambda (t_l) -\Lambda (t_{l-1}) \approx P(t_{l-1} \le T \le t_l |T \ge t_{l-1})$ の推定量は,愚直に考えると $d_l/y_l$ であり,
\[\hat \Lambda (t)=\sum_{l:t_l \le t}d_l/y_l .\]
この推定量は Nelson (1986) が最初に提案したので,ネルソン(Nelson)推定量,ネルソン‐アーラン(Nelson-Aalen)推定量などと呼ばれる.

さて, $S(t) = \exp\{-\Lambda(t)\}$ であったので $\hat S(t) = \exp\{- \hat \Lambda(t)\}$ .これより,$d_l/y_l \approx 0$ のとき,
\begin{align*}
 \hat S(t) & =\prod_{l:t_l \le t} \exp(- d_l/y_l ) \\
& \approx \prod_{l:t_l \le t}(1-d_l/ y_l)
\end{align*}
2行目は一次近似(マクローリン展開の第一項目をとること)による.最後の式がカプラン‐マイヤー推定量(Kapla-Meier (1958) product limit estimator)である.

http://aaaaushisan.blogspot.jp/2011/11/blog-post.html につづく)