ブート ストラップ と は。 ブート ストラップ

デザイン知識がなくてもOK!Bootstrapの使い方【入門者向け】

ブート ストラップ と は

概要 [ ] ブートストラップ法はの(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法である。 近似分布としては、測定値から求められるを用いるのが標準的である。 またに使う場合もある。 仮定される分布が疑わしい場合や、パラメトリックな仮定が不可能ないし非常に複雑な計算を必要とするような場合に、パラメトリックな仮定に基づく推計の代わりに用いられる。 ブートストラップ法の利点は解析的な手法と比べて非常に単純なことである。 母集団分布の複雑な(点、割合、、など)の複雑な推定関数に対してやを求めるために、単にブートストラップ標本を適用するだけで済む。 一方ブートストラップ法の欠点として、漸近的に一致する場合には有限標本が保証されず、楽観的になる傾向がある。 例: フィッシャーのアヤメ [ ] この手法の基本概念と価値を示すため、やや人工的な例を用いる。 による有名なの計測値(を参照)を用い、 iris-virginica ( アイリス・バージニカ ) と iris-versicolor ( アイリス・バージカラー ) の2種を判別するモデルを構築することを考える。 この2種を、の長さのみを説明変数として判別するモデルを考え、を用いると、次表のとおりパラメータの値とが得られる。 説明変数 最尤推定値 標準誤差 切片 -12. 57 2. 91 がく片長 2. 01 0. 47 モデル式 2. 57<0のとき versicolorと判別 (このモデル式では、 virginica は標本50個中37個、 versicolor は50個中36個が正しく判別されている。 ) 最尤推定値は漸近的にはすることが知られている。 今回の標本50個ずつのデータで出した最尤推定値(切片:-12. 57、がく片長の係数:2. 01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。 元データからn個の標本をする。 このときnは元データの標本数である。 最尤法でロジスティック回帰モデルに当てはめる。 こうして計算された「推定量の標本分布」は、本来の標本分布の近似になっている。 下図は10000回のブートストラップ抽出により推定された2つのパラメータのプロットである。 これらのパラメータの分布は当然のことながら正規分布ではない。 これは、標本数が有限であり、漸近的にしか正規分布にならないためである。 最尤推定値について正規分布の仮定を置かなくても、ブートストラップを用いて得た分布を使えば、最尤推定値のの推定やを行うことができるようになる。 これをブートストラップパーセンタイル区間と呼ぶ。 02, -7. 08 と 1. 26, 3. 20 となる。 96倍標準誤差で求められ、それぞれ -18. 26, -6. 87 と 1. 10, 2. 93 となる。 漸近理論を用い正規分布を仮定して求めた信頼区間は対称になっており、ブートストラップを用いた信頼区間と比較すると狭い。 によるもの、、、、、 mediation analysis などの統計的問題を取り扱うような、より複雑なブートストラップ法がある。 ブートストラップ法のいろいろ [ ] 一変量の解析では、普通は復元抽出で再標本化して構わない。 しかし標本数が少ない場合にはパラメトリックなブートストラップ法の方が適切な場合もあるし、問題によっては平滑化ブートストラップ法が適切になるだろう。 回帰問題の場合には様々な代替法がある。 平滑化ブートストラップ [ ] これは毎回の繰り返しごとにわずかな(ふつうは正規分布の)ゼロ平均ランダムノイズを加える方法である。 これはデータのカーネル密度推定量から再標本化することと等価である。 パラメトリックブートストラップ [ ] パラメトリックなモデルを(たいていは最尤法により)データに当てはめ、このモデルからランダムな個数の再標本化を行う方法である。 個別の再標本化 [ ] 回帰問題において、個々のケース(たいていはデータセットの各行)について再標本化を行う単純な方法をいう。 データセットが十分大きければ、たいていこういう単純な方法でも構わない。 しかし議論の余地はある。 はたいてい固定されているか、少なくとも従属変数よりも支配的である。 また説明変数の範囲がそこから引き出される情報を規定する。 したがって個々のケースを再標本化することは、ブートストラップ標本は何らかの情報を失っていることを意味する。 したがって他のブートストラップ法を考慮すべきである。 残余の再標本化 [ ] 回帰問題におけるブートストラップを行うもう一つの方法は、を再標本化するものである。 すなわち、• モデルを再度当てはめ、目的の量(たいていは推定したパラメータ)を記録する。 2と3のステップを B回繰り返す。 この方法は説明変数の持つ情報を保持しているという利点がある。 しかしどの残余を標本化するのかという疑問が起こる。 そのままの残余を用いる手もあるし、(線形回帰では)を用いることもできる。 スチューデント化残差を使う方が好ましいという議論はあるのだが、実際にはほとんど差がでない上、双方を用いて互いに結果を比べることは容易である。 大雑把なブートストラップ [ ] 前項と同様だがランダムに標本化した残余の符号をさらにランダムに変えるものである。 これは残余の分布が対称なことを仮定しており、元の標本数が少ない場合に利点がある。 しかしバロンとケニーの論理 やにより(もしかしたら不適切に)決定されることがいまだに多い。 平滑化ブートストラップの例 [ ] の光速のデータを用いる。 このデータセットには2つの明白なが含まれており、このため推定する場所としてはよりもが好ましい。 ブートストラップ法は中央値の信頼区間を推定するのに採用されることが多い。 しかし中央値は離散統計量であり、このことはブートストラップ標本の分布で際立って明らかになる。 ブートストラップ標本と平滑化ブートストラップ標本のヒストグラムを以下に示す。 ブートストラップ標本では中央値として取り得る値が限られているため非常にギザギザした分布になっている。 平滑化ブートストラップ標本ではこの点が克服されている。 は列挙するだけでなく、などを用いてしてください。 記事のにご協力をお願いいたします。 ( 2015年1月)• 1979. The Annals of Statistics 7 1 : 1—26. Efron, B. 1981. Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods. , 68, 589-599. Efron, B. 1982. The jackknife, the bootstrap, and other resampling plans. Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 38. Diaconis, P. 1983. Computer-intensive methods in statistics. , May, 116-130. Efron, B. 1993. An introduction to the bootstrap. Bootstrapping. A Nonparametric Approach to Statistical Inference. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-095. Newbury Park, CA: Sage• Bradley Efron; Robert Tibshirani 1994. An Introduction to the Bootstrap. Edgington, E. 1995. Randomization tests. New York: M. Dekker. Davison, A. and Hinkley, D. 1997 : Bootstrap Methods and their Applications,. Simon, J. 1997 :. Hesterberg, T. , D. Moore, S. Monaghan, A. Clipson, and R. Epstein 2005 : ,.

次の

ブートストラップ入門 (Rで学ぶデータサイエンス 4)

ブート ストラップ と は

現在ではこの領域は、いろいろなOSが自分のブートコードを自由に書く フリーな領域の如く扱われている。 元来このプログラムは DOSの起動のために作らており、 パーティションテーブルなども、このプログラムの 仕様の一部として設計されている。 つまりここには一切触れずにブートできるようにOS側を設計するべきということになっていた。 マスターブートレコードは、言わば一種の 聖域として位置付けだった訳だ。 しかし、その性質上、 パーティションテーブルは確かに他のOSと共存する上で絶対に侵すことはできなかったが、設計上、ブートストラップローダとパーティションテーブルはきっちりと分かれていた上、ブートストラップローダが マルチブートの機能を一切提供していなかったので、ここにブートストラップローダに単純にマルチブートを機能を追加した 独自のローダをインストールする試みがされた。 性質上、案の定、このプログラムを書き換えても、ブートさえしてしまえば、各OSとも全く不都合がなかったため、多くのOSがこの領域に独自のローダを置くようになった。 更に多くのサードパティのブートローダが登場し、ここに書かれるようになり、今日に至っている。 今ではプログラム領域は自由な領域、パーティションテーブル以降は侵すべからざる聖域という位置付けに事実上なっている訳だ。 ここではそれについての詳細な解説をしていきたいと思う。 よくLinuxのLILOをマスターブートレコードに書いた場合、LILOインストール前の状態に戻すために、 「LILOを消したい」という人がいる。 またSystemCommanderなどのサードパティのブートローダをインストールすると、やはりマスターブートレコードに書かれるので、元の状態に戻すのに、 「ブートローダを消して、アンインストールしたい」という人も見かける。 しかし単にLILOを消してしまったり、SystemCommanderを消してしまって、マスターブートレコードのプログラム領域に何のデータも無くしてしまっては、OSは一切起動不能になってしまう。 従って厳密には、LILOを消したり、SystemCommanderをアンインストールするというのは、マスターブートレコードのプログラム領域に、 もう一度ブートストラップローダを書くということを意味するのだ。 しかし上記のようなことを言う人が多いのは、すなわちブートストラップローダの存在を全く意識していない、知らないといった、一種の誤解をしている人が多いからだ。 そんな空気のような存在なので、これの インストールということも勿論意識している人は非常に少ないと思う。 しかしプログラムだから、決して自然発生する訳はなく、だれかがこれを書いている。 ここでは、どんな時に、誰がこのプログラムを書く(インストールする)のか説明する。 ブートストラップローダのインストールの仕方、及び無意識のうちにインストールされる場面というのは、実は結構沢山あるが、大きく分けて2種類に大別できる。 以下にそれを示す。 必ずブートストラップローダがインストールされる場合• マスターブートレコードにデータがない時のみインストールされる場合• DOSコマンド「FDISK」で領域を作成する。• このうち、1番のAと、2番の各項目が、多くの人が無意識のうちにインストールされる場合だ。 まず、1番の 「 必ずブートストラップローダがインストールされる場合」だが、Windows98などをインストールすると有無も言わさずインストールされる。 これはサードパーティのブートローダの作者からすると、 有名な迷惑仕様で、ローダの説明書は必ず注意事項として書いてある。 大抵のローダは復旧用の手段を用意している。 ブートストラップローダの復旧(インストール)に使われる最も一般的な方法だ。 FDISKコマンドは、Windows9xの起動ディスク、DOS窓、Command Prompt Onlyなどで実行可能だ。 やはりマルチブートをしている人には、Windows9xの起動ディスクは手放せないだろう。 因みに、これらの行為でブートストラップローダがインストールされるのは、その時点で 第1ハードディスクとして認識されているハードディスクのマスターブートレコードのみだ。 2番の 「 マスターブートレコードにデータがない時のみインストールされる場合」の方は、これによってブートストラップローダがインストールされることは殆ど知られてない。 無意識にうちにインストールされる最も典型的な場面だろう。 この 「マスターブートレコードにデータがない」というのは、通常は買ったばかりの まっさらなハードディスクの場合だろうが、厳密には単にマスターブートレコードの最終2バイトの ブートシグニチャが 「 0xAA55」でない場合を言う。 従って、実際にはマスターブートレコードにブートコードやパーティション情報が既に書かれていても、ブートシグニチャが例えば「0xBB55」だったりしたら、FDISKなどのパーティションツールや、OSから、そのマスターブートレコード自体が無効扱いされるので、まっさらの(全て00で埋まっている)状態と同様の扱いになる。 厳密に言うと上記のような仕様だが、通常はおかしなブートシグニチャになることはないはずなので(私のように実験のためにわざと書き換えるなどしない限り)、 「そのハードディスクではじめてパーティションを作る時」と理解してもらっても、特段不都合はないだろう。 またこちらの場合は、 第1ハードディスク以外に領域を作成した場合でも、そのハードディスクのマスターブートレコードにもインストールされる。 FDISKコマンドの実行方法は前述と同じだ。 以前の解説と重複するが、このプログラムの動作概要から書く。 パーティションテーブルの検査 4つのテーブルエントリーを先頭から順に検査し、起動可能な(起動フラグの立った)基本領域がないか探す。 見つかったら、その領域の先頭位置をテーブルから取得する。 BIOSにその位置を示して、当該先頭セクターをメモリーにロードしてもらう。 ロードした先頭セクターに制御を移す。 これを踏まえて、ここではもっと突っ込んだ動作検証をしていく。 まずこのプログラムは非常に小さいので バイナリダンプしてみよう。 以下にマスターブートレコード全体のバイナリダンプを示す。 もしバイナリダンプの意味すらわからない人は、動作解説だけ読んでみてほしい。 00000020 B3 04 80 3C 80 74 0E 80 3C 00 75 1C 83 C6 10 FE ウ.? v 0000002D. 000044 BB 0700 MOV BX,0007h ; サ.. 000047 B4 0E MOV AH,0Eh ; エ. 000054 B4 06 MOV AH,06h ; エ. 000056 3C 0E CMP AL,0Eh ; v 0000006B t. 00005A B4 0B MOV AH,0Bh ; エ. 00005C 3C 0C CMP AL,0Ch ; v 00000065 t. 0000AB 813E FE7D 55AA CMP word ptr[7DFEh],AA55h ; ・. 0000BC BE 2707 MOV SI,0727h ; セ'. 0000C2 91 XCHG AX,CX ;. 0000C3 52 PUSH DX ; R 0000C4 99 CWD ;. 0000E3 56 PUSH SI ; V 0000E4 56 PUSH SI ; V 0000E5 52 PUSH DX ; R 0000E6 50 PUSH AX ; P 0000E7 06 PUSH ES ;. 0000E8 53 PUSH BX ; S 0000E9 51 PUSH CX ; Q 0000EA BE 1000 MOV SI,0010h ; セ.. 0000ED 56 PUSH SI ; V 0000EE 8BF4 MOV SI,SP ; 偶 0000F0 50 PUSH AX ; P 0000F1 52 PUSH DX ; R 0000F2 B8 0042 MOV AX,4200h ; ク. Invalid 000117 706172746974696F DB 'p','a','r','t','i','t','i','o' ;?? partitio 00011F 6E207461626C6500 DB 'n',' ','t','a','b','l','e',00h ;?? n table. 000127 4572726F72206C6F DB 'E','r','r','o','r',' ','l','o' ;?? Error lo 00012F 6164696E67206F70 DB 'a','d','i','n','g',' ','o','p' ;?? ading op 000137 65726174696E6720 DB 'e','r','a','t','i','n','g',' ' ;?? erating 00013F 73797374656D004D DB 's','y','s','t','e','m',00h,'M' ;?? system. M 000147 697373696E67206F DB 'i','s','s','i','n','g',' ','o' ;?? issing o 00014F 7065726174696E67 DB 'p','e','r','a','t','i','n','g' ;?? perating 000157 2073797374656D00 DB ' ','s','y','s','t','e','m',00h ;?? system. 00015F 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000167 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00016F 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000177 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00017F 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000187 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00018F 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000197 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00019F 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001A7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001AF 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001B7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001BF 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001C7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001CF 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001D7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001DF 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001E7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001EF 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001F7 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001FF 00 DB 00h ;?? まず大きな違いは、 FAT32のバックアップブートセクターに対応している点だ。 FAT32ではブートセクターが破壊された場合に備えて、その バックアップを持っている。 デフォルトでは ブートセクターの6セクター後ろだが、一応ブートセクターのBPBにもその位置が書いてある。 もっともBPBに書いてあるバックアップブートセクター位置は参照されていないようで、必ず6セクター後ろを見に行く。 もし正規のブートセクター(先頭セクター)が無効であった場合(ブートシグニチャが0xAA55でない)、ベーシック版では、 「Missing operating system」というエラーメッセージを出力して停止してしまうが、FAT32対応版は、バックアップブートセクターの読み込みを試みる。 これを試みても更に有効なブートセクターが見つからない場合のみ、前述のエラーメッセージを出力して停止する。 もう一つのベーシック版との大きな違いは LBA対応だ。 ブートしようとするパーティションが FAT16X(ID 0x0C)、 FAT32X(ID 0x0E)の場合、 CHSでなく LBAモードでセクターの読み出しを行う。 従って 8GB以降にあるこれらの領域からブートセクターをロードすることが可能になっている。 ただし前述のように FAT16Xと FAT32Xの領域にしか、LBAモードを使わないので、 NTFSやLinuxの ext2fsなどが8GB以降にある場合はロードすることはできない。 最後に 完全LBA対応版の場合だ。 00000010 BF 1B 06 50 57 B9 E5 01 F3 A4 CB BD BE 07 B1 04 ソ.. 00000020 38 6E 00 7C 09 75 13 83 C5 10 E2 F4 CD 18 8B F5 8n. 愚 00000040 F0 AC 3C 00 74 FC BB 07 00 B4 0E CD 10 EB F2 88 ャ.... Uェ FAT32対応版よりも更にサイズが大きくなり、 379バイトある。 以下に逆アッセンブラしたデータを示す。 [完全LBA対応のブートストラップローダの逆アッセンブラデータ] 000000 33C0 XOR AX,AX ; 3タ 000002 8ED0 MOV SS,AX ; 社 000004 BC 007C MOV SP,7C00h ; シ. 000007 FB STI ;. 000008 50 PUSH AX ; P 000009 07 POP ES ;. 00000A 50 PUSH AX ; P 00000B 1F POP DS ;. 00000C FC CLD ;. 00000D BE 1B7C MOV SI,7C1Bh ; セ. 000010 BF 1B06 MOV DI,061Bh ; ソ.. 000013 50 PUSH AX ; P 000014 57 PUSH DI ; W 000015 B9 E501 MOV CX,01E5h ; ケ.. 000018 F3 REP ;. 000019 A4 MOVSB ; 、 00001A CB RETF ;v 0000002E. 000046 BB 0700 MOV BX,0007h ; サ.. 000049 B4 0E MOV AH,0Eh ; エ. 000066 A0 B607 MOV AL,byte ptr[07B6h] ;. 00007C A0 B607 MOV AL,byte ptr[07B6h] ;. 000097 57 PUSH DI ; W 000098 8BF5 MOV SI,BP ; 寓 00009A CB RETF ; ヘ. 0000AB 98 CBW ;. 0000B9 D2EE SHR DH,CL ; メ. 0000CD BB 007C MOV BX,7C00h ; サ. 000102 6A 00 PUSH 00h ; j. 00010A 6A 00 PUSH 00h ; j. 00010C 68 007C PUSH 7C00h ; h. 00010F 6A 01 PUSH 01h ; j. 000111 6A 10 PUSH 10h ; j. 000120 32E4 XOR AH,AH ; 2. Invalid 000134 706172746974696F DB 'p','a','r','t','i','t','i','o' ;?? partitio 00013C 6E207461626C6500 DB 'n',' ','t','a','b','l','e',00h ;?? n table. 000144 4572726F72206C6F DB 'E','r','r','o','r',' ','l','o' ;?? Error lo 00014C 6164696E67206F70 DB 'a','d','i','n','g',' ','o','p' ;?? ading op 000154 65726174696E6720 DB 'e','r','a','t','i','n','g',' ' ;?? erating 00015C 73797374656D004D DB 's','y','s','t','e','m',00h,'M' ;?? system. M 000164 697373696E67206F DB 'i','s','s','i','n','g',' ','o' ;?? issing o 00016C 7065726174696E67 DB 'p','e','r','a','t','i','n','g' ;?? perating 000174 2073797374656D00 DB ' ','s','y','s','t','e','m',00h ;?? system. 00017C 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000184 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00018C 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 000194 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 00019C 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001A4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001AC 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001B4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001BC 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001C4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001CC 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001D4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001DC 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001E4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001EC 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001F4 0000000000000000 DB 00h,00h,00h,00h,00h,00h,00h,00h ;?? 0001FC 00000000 DB 00h,00h,00h,00h ;?? FAT32対応版の機能を一通り包含した上、どの領域に対しても使用可能であれば、 LBAモードを使用するという特徴を持っている。 機能的な違いとしては、上記くらいしか確認できなかったが、次のような動作上の違いを確認した。 FAT32対応版以前では、読み込んだブートセクターが無効だった場合、 「Missing operating system」というエラーメッセージを出力ていたが、このバージョンのローダの場合、その場合でも 「Error loading operating system」というエラーメッセージを出力した。 いろいろ実験したが、「Missing operating system」というエラーメッセージを出力されることは、結局できなかった。 これは何かバッグっぽい気もするが。 このようにブートストラップローダにもバージョンがあり、インストールの仕方、インストールされる場面によって違うので、環境移行の場合や、障害復旧時には気をつける必要がある。 まあ、本格的なマルチブートを行っている人は、ブートストラップローダを使っていないだろうから、多くの場合問題ないだろうが。

次の

古典・エミッタ接地+ブートストラップ

ブート ストラップ と は

概要 [ ] ブートストラップ法はの(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法である。 近似分布としては、測定値から求められるを用いるのが標準的である。 またに使う場合もある。 仮定される分布が疑わしい場合や、パラメトリックな仮定が不可能ないし非常に複雑な計算を必要とするような場合に、パラメトリックな仮定に基づく推計の代わりに用いられる。 ブートストラップ法の利点は解析的な手法と比べて非常に単純なことである。 母集団分布の複雑な(点、割合、、など)の複雑な推定関数に対してやを求めるために、単にブートストラップ標本を適用するだけで済む。 一方ブートストラップ法の欠点として、漸近的に一致する場合には有限標本が保証されず、楽観的になる傾向がある。 例: フィッシャーのアヤメ [ ] この手法の基本概念と価値を示すため、やや人工的な例を用いる。 による有名なの計測値(を参照)を用い、 iris-virginica ( アイリス・バージニカ ) と iris-versicolor ( アイリス・バージカラー ) の2種を判別するモデルを構築することを考える。 この2種を、の長さのみを説明変数として判別するモデルを考え、を用いると、次表のとおりパラメータの値とが得られる。 説明変数 最尤推定値 標準誤差 切片 -12. 57 2. 91 がく片長 2. 01 0. 47 モデル式 2. 57<0のとき versicolorと判別 (このモデル式では、 virginica は標本50個中37個、 versicolor は50個中36個が正しく判別されている。 ) 最尤推定値は漸近的にはすることが知られている。 今回の標本50個ずつのデータで出した最尤推定値(切片:-12. 57、がく片長の係数:2. 01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。 元データからn個の標本をする。 このときnは元データの標本数である。 最尤法でロジスティック回帰モデルに当てはめる。 こうして計算された「推定量の標本分布」は、本来の標本分布の近似になっている。 下図は10000回のブートストラップ抽出により推定された2つのパラメータのプロットである。 これらのパラメータの分布は当然のことながら正規分布ではない。 これは、標本数が有限であり、漸近的にしか正規分布にならないためである。 最尤推定値について正規分布の仮定を置かなくても、ブートストラップを用いて得た分布を使えば、最尤推定値のの推定やを行うことができるようになる。 これをブートストラップパーセンタイル区間と呼ぶ。 02, -7. 08 と 1. 26, 3. 20 となる。 96倍標準誤差で求められ、それぞれ -18. 26, -6. 87 と 1. 10, 2. 93 となる。 漸近理論を用い正規分布を仮定して求めた信頼区間は対称になっており、ブートストラップを用いた信頼区間と比較すると狭い。 によるもの、、、、、 mediation analysis などの統計的問題を取り扱うような、より複雑なブートストラップ法がある。 ブートストラップ法のいろいろ [ ] 一変量の解析では、普通は復元抽出で再標本化して構わない。 しかし標本数が少ない場合にはパラメトリックなブートストラップ法の方が適切な場合もあるし、問題によっては平滑化ブートストラップ法が適切になるだろう。 回帰問題の場合には様々な代替法がある。 平滑化ブートストラップ [ ] これは毎回の繰り返しごとにわずかな(ふつうは正規分布の)ゼロ平均ランダムノイズを加える方法である。 これはデータのカーネル密度推定量から再標本化することと等価である。 パラメトリックブートストラップ [ ] パラメトリックなモデルを(たいていは最尤法により)データに当てはめ、このモデルからランダムな個数の再標本化を行う方法である。 個別の再標本化 [ ] 回帰問題において、個々のケース(たいていはデータセットの各行)について再標本化を行う単純な方法をいう。 データセットが十分大きければ、たいていこういう単純な方法でも構わない。 しかし議論の余地はある。 はたいてい固定されているか、少なくとも従属変数よりも支配的である。 また説明変数の範囲がそこから引き出される情報を規定する。 したがって個々のケースを再標本化することは、ブートストラップ標本は何らかの情報を失っていることを意味する。 したがって他のブートストラップ法を考慮すべきである。 残余の再標本化 [ ] 回帰問題におけるブートストラップを行うもう一つの方法は、を再標本化するものである。 すなわち、• モデルを再度当てはめ、目的の量(たいていは推定したパラメータ)を記録する。 2と3のステップを B回繰り返す。 この方法は説明変数の持つ情報を保持しているという利点がある。 しかしどの残余を標本化するのかという疑問が起こる。 そのままの残余を用いる手もあるし、(線形回帰では)を用いることもできる。 スチューデント化残差を使う方が好ましいという議論はあるのだが、実際にはほとんど差がでない上、双方を用いて互いに結果を比べることは容易である。 大雑把なブートストラップ [ ] 前項と同様だがランダムに標本化した残余の符号をさらにランダムに変えるものである。 これは残余の分布が対称なことを仮定しており、元の標本数が少ない場合に利点がある。 しかしバロンとケニーの論理 やにより(もしかしたら不適切に)決定されることがいまだに多い。 平滑化ブートストラップの例 [ ] の光速のデータを用いる。 このデータセットには2つの明白なが含まれており、このため推定する場所としてはよりもが好ましい。 ブートストラップ法は中央値の信頼区間を推定するのに採用されることが多い。 しかし中央値は離散統計量であり、このことはブートストラップ標本の分布で際立って明らかになる。 ブートストラップ標本と平滑化ブートストラップ標本のヒストグラムを以下に示す。 ブートストラップ標本では中央値として取り得る値が限られているため非常にギザギザした分布になっている。 平滑化ブートストラップ標本ではこの点が克服されている。 は列挙するだけでなく、などを用いてしてください。 記事のにご協力をお願いいたします。 ( 2015年1月)• 1979. The Annals of Statistics 7 1 : 1—26. Efron, B. 1981. Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods. , 68, 589-599. Efron, B. 1982. The jackknife, the bootstrap, and other resampling plans. Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 38. Diaconis, P. 1983. Computer-intensive methods in statistics. , May, 116-130. Efron, B. 1993. An introduction to the bootstrap. Bootstrapping. A Nonparametric Approach to Statistical Inference. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-095. Newbury Park, CA: Sage• Bradley Efron; Robert Tibshirani 1994. An Introduction to the Bootstrap. Edgington, E. 1995. Randomization tests. New York: M. Dekker. Davison, A. and Hinkley, D. 1997 : Bootstrap Methods and their Applications,. Simon, J. 1997 :. Hesterberg, T. , D. Moore, S. Monaghan, A. Clipson, and R. Epstein 2005 : ,.

次の