打ち切り_(統計学) - 暇つぶしWikipedia

打ち切り_(統計学)

統計学では、打ち切り（うちきり、英: censoring）とは、測定や観測の値が部分的にしかわからない状態のことである。

たとえば、ある薬が死亡率に与える影響を測定する研究が行われたとする。そのような研究では、ある個人の死亡時の年齢が「少なくとも」75歳（それ以上の場合もある）であることがわかっているかもしれない。そうした状況は、その個人が75歳で研究から退いた場合や、現在75歳で生存している場合に起こりうる。

また、打ち切りは、測定器の範囲外の値が発生した場合にも起こる。たとえば、浴室の体重計は140kgまでしか測れないかもしれない。その体重計を用いて160kgの個人が体重を測った場合、観察者はその人の体重が少なくとも140kgであることしかわからない。

ある変数の観測された値が部分的にわかっている打ち切りデータの問題は、ある変数の観察値が不明な欠測データの問題と関連している。

区間打ち切りは、ある値を観測するために追跡調査や検査が必要な場合に起こる。左側打ち切りと右側打ち切りは、区間打ち切りの特別な場合で、それぞれ区間の始まりをゼロ、終わりは無限大とする。

左側打ち切りデータを用いた推定方法はさまざまであり、すべてのデータセットにすべての推定方法が適用できるとは限らず、また最も信頼できるとは限らない [1]。

時間間隔データについてよくある誤解は、開始時刻が不明な区間を左側打ち切りとして分類することである。このような場合では、「時間間隔」の下限があるので、データは「右側打ち切り」になる（タイムラインとして見たとき、欠落した開始点は既知の間隔の左側にあるにもかかわらず！）。
分析

打ち切りデータを処理するために、特別な手法が使用されることがある。特定の故障時間を持った試験は、実際の故障として符号化される。打ち切りデータは、打ち切りの種類と、既知の区間または限界値として符号化される。特別なソフトウェアプログラム（多くは信頼性指向）は、要約統計量や信頼区間などの最尤推定を行うことができる。
疫学

打ち切りデータを含む統計的問題を分析する最初の試みの1つは、1766年、ダニエル・ベルヌーイが天然痘の罹患率と死亡率のデータを分析し、ワクチン接種の有効性を実証したことである [2]。打ち切りコストの推定にカプラン＝マイヤー推定量を使った初期の論文がQuesenberryら（1989）によって著されたが [3]、すべての患者が時間とともに共通の決定論的レート関数でコストを蓄積しない限りこのアプローチは無効であることがLinらによって報告された [4]。彼らは、Lin推定量として知られる代替の推定手法を提案した [5]。
動作寿命試験 5回の反復試験（英語版）の結果、4回の故障と1回の中止時間が発生した例。

信頼性試験は、多くの場合、特定の条件下でアイテムに対して試験を行い、故障が発生するまでの時間を測定することから構成される。

オペレーターの誤り、機器の不具合、検査の異常など、故障が計画されて予期されていても発生しないことがある。その試験結果は、望ましい故障発生までの時間ではなかったが、終了までの時間として用いることができる（また、そうすべきである）。打ち切りデータの使用は意図的ではないが、必要なことである。

エンジニアが試験計画を作成する際に、ある一定の時間制限または故障回数を超えたら、残りのすべての試験を終了させることがある。これらの中断時間は、右打ち切りデータとして扱われる。その打ち切りデータの使用は意図的なものである。

反復試験のデータの分析には、故障したアイテムの故障までの時間と、故障しなかったアイテムの試験終了までの時間の両方が含まれる（図を参照）。
打ち切り回帰

打ち切り回帰（英語版）の初期のモデルであるトービン・モデル (英語版) は、1958年にジェームズ・トービンによって提案された [6]。
尤度

尤度（ゆうど）とは、観測された値の確率または確率密度のことであり、想定されるモデルのパラメータの関数として示される。生存時間 T 1 , T 2 , . . . , T n {\displaystyle T_{1},T_{2},...,T_{n}} に興味があるが、すべての i {\displaystyle i} について T i {\displaystyle T_{i}} を観測していないとしよう。その代わりに、 T i {\displaystyle T_{i}} が実際に観測されていれば、 U i = T i {\displaystyle U_{i}=T_{i}} 、 δ i = 1 {\displaystyle \delta _{i}=1} となる ( U i , δ i ) {\displaystyle (U_{i},\delta _{i})} を観測し、 T i {\displaystyle T_{i}} が U i {\displaystyle U_{i}} よりも長いということだけがわかっていれば、 U i < T i {\displaystyle U_{i}<T_{i}} 、 δ i = 0 {\displaystyle \delta _{i}=0} となる ( U i , δ i ) {\displaystyle (U_{i},\delta _{i})} を観測する。

T i > U i {\displaystyle T_{i}>U_{i}} の場合、 U i {\displaystyle U_{i}} は打ち切り時間（censoring time）と呼ばれる [7]。

打ち切り時間がすべて既知の定数である場合、尤度は、 L = ∏ i , δ i = 1 f ( u i ) ∏ i , δ i = 0 S ( u i ) {\displaystyle L=\prod _{i,\delta _{i}=1}f(u_{i})\prod _{i,\delta _{i}=0}S(u_{i})}

となり、ここに、 f ( u i ) {\displaystyle f(u_{i})} は u i {\displaystyle u_{i}} で評価した確率密度関数、 S ( u i ) {\displaystyle S(u_{i})} は T i {\displaystyle T_{i}} が u i {\displaystyle u_{i}} より大きくなる確率で、生存関数と呼ばれる。

これは、死亡率の瞬間的な死力であるハザード関数を λ ( u ) = f ( u ) / S ( u ) {\displaystyle \lambda (u)=f(u)/S(u)}

と定義することで簡略化でき、 f ( u ) = λ ( u ) S ( u ) {\displaystyle f(u)=\lambda (u)S(u)}

となる。このとき、 L = ∏ i λ ( u i ) δ i S ( u i ) {\displaystyle L=\prod _{i}\lambda (u_{i})^{\delta _{i}}S(u_{i})}

となる。

指数分布の場合は、ハザード率 λ {\displaystyle \lambda } が一定なので、 S ( u ) = exp ⁡ ( − λ u ) {\displaystyle S(u)=\exp(-\lambda u)} となり、さらに単純になる。このとき、 L ( λ ) = λ k exp ⁡ ( − λ ∑ u i ) {\displaystyle L(\lambda )=\lambda ^{k}\exp(-\lambda \sum {u_{i}})}

となり、ここに k = ∑ δ i {\displaystyle k=\sum {\delta _{i}}} である。

これから、 λ ^ {\displaystyle {\hat {\lambda }}} を簡単に計算し、 λ {\displaystyle \lambda } の最尤推定値（MLE）を次のように計算することができる。

Size:42 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef