ダメな統計学: 悲惨なほど完全なる手引書

2016年3月、アメリカ統計学会からp値に関する声明がだされた(日本語の要約は下記)。Nature誌に取り上げられ、日本でもいくつかのネットメディアでニュースになった。

Baker, M. (2016). Statisticians issue warning over misuse of P values. Nature 531, 151–151.

でも、p値ってなんだっけ? つぎのクイズを試してみよう(本書より抜粋、一部改変)。

二群の平均値の検定をしたらp=0.01との結果になった。これは統計的有意差があることを示す。このとき、正しいのはどれか? (正解は文末)

  1. 帰無仮説(「平均に差がない」)が誤りであることを完全に示した。
  2. 帰無仮説が真である確率が1%ある。
  3. 対立仮説(「平均に差がある」)が正しいことを完全に示した。
  4. 対立仮説が正しい確率を導き出すことは可能である。
  5. 帰無仮説の棄却を決めた場合、その判断が間違っている確率がわかる。
  6. もし何度も実験を繰り返した場合、繰り返された実験の99%で有意な結果が得られるという意味で、信頼のおける実験結果が得られた。

正解がわからなかったら、本書を読んだ方がよい。

本書の前半では、p値、信頼区間、検定力、多重検定などの注意すべき点が述べられ、理解が正されたり深まったりする。実例や実際に近い例が多く使われていて、身につまされる思いをする読者もいるだろう。後半から、研究上の錯誤や詐称の話が多くなる。製薬に関連する統計の「ごまかし」など、最近の事件も思い起こさせる。各章末には実践上の要点が「ヒント」としてまとめられている。

章末のヒント

本書はもともと、訳者がブログ上に公開していた文章を増補し、書籍化したものだ。ウエブ版を試し読みしてもいい。本書にでてくる用語がよくわからなかったら、なにか適当な入門書に戻ろう。

p値を厳しく扱おうとしたり、さらには拒絶するような動きは、この時に始まったわけではない。統計学が専門的に扱われる領域では、代わりに信頼区間を使うとか、スッパリそういうのをやめてベイズ理論に変えようとか、動きはあったらしい。

統計学的に危うい研究は、著明な科学誌に発表されているものにも少なくなく、医学の分野は特に怪しいという。これからの研究には、p値、信頼区間、検定力などが適切に取り扱われているか、より厳正に求められるようになるのだろう。


アメリカ統計学会の声明は次のようなもの(データサイエンスフォーラム「アメリカ統計学会から出されたp値に関する声明」から抜粋):

  1. p値によって、データとある特定の統計モデルがどれくらい適合しないか示すことができる。
  2. p値では研究仮説が真である確率を計測できない。また、そのデータがランダムな偶然だけによって生成された確率を計測することもできない。
  3. 科学的結論とビジネスもしくは政策上の意思決定は、p値が特定の閾値を切ったか否かだけに依存すべきではない。
  4. 適切な推論においては、完全な報告と透明性が必要である。
  5. p値もしくは統計的有意性は、その結果の効果もしくは重要性の大きさを計測するものではない。
  6. p値自体は、モデルもしくは仮説に関してエビデンスとなる良い尺度を提供するものではない。

訳者は、ブログで本書の後に読む11冊の本を紹介している出版社のサイトにリストがある

(正解:すべて誤り)