実験で使うとこだけ生物統計 1・2

以下に該当したら、たぶん読んだ方がいい。

  • SDとSEの意義を説明できない
  • ExcelのSTDEVが不偏標準偏差だと知らなかった(または不偏標準偏差がよく分からない)
  • 3つ以上の群にt-検定を使っていた

統計学がわからなくて、途中でうっちゃった統計学の本が積んであったり、「マンガでわかる」という本に救いを求めたことがあるなら、本書が役立つだろう。

筆者は農学者で、統計学の専門家ではない。まえがきによると、あなたと同様に何度も統計学に挫折したという(こういうまえがきは、統計学の入門書には少なからずみられるのだが)。

第1巻初版のまえがき。「何度も挫折した」

本書は2巻に分かれている。しかし、合わせても普通の統計学の本よりずっと小さい。

数学的な込み入った議論はほとんどなく、「専門家には既知の事実」として端折られる。また、特定のプログラム(R、SPSS、Excelなど)の説明はなく、概念のみで説明が進む。インストールやらメニューやらの説明で話がぶれないのがいい。

統計の知識がまったくゼロの人には、端折られすぎてわかりにくいかも知れない。たとえば、例の奇妙な統計学的仮定についての説明は丁寧にはなされない。しかし、統計学の授業や他の本を勉強して何度か諦めた経験があると、ああそうだったのかと、よくわかる。

第1巻「キホンのキ」は、必要なnの大きさ、SDとSEのちがいからt-検定への導入、パラメトリック検定とノンパラメトリック検定。

実験の計画は、あとで統計を使うことを前提に考えないといけない。でないと、統計手法に複雑なのが必要になったり、結論が怪しくなったりする。

たとえば、統計の計算がなりたつのには一定以上のnが求められる。これよりnが小さいと、計算自体ができない。本書にある「1群6匹」がこれだ。

ただし実際には、この最低数では検定力が小さすぎる。ここは予備実験で差やSDの見込みを得て、検定力解析を使って本実験でのnを決める、というストラテジーですっきり決めておきたかったところだ。

統計の計算を使える最低のn

本書の基幹が、SEとSDはとても違うことと、SDに異なる3種類があることの説明だ。ややこしいが、ここをじっくり読むと、t-検定がわかるようになる。

理解が難しいところ、肝心なところは、注意して読むように指示がある。

SEとSDの違い
SDに3種類あり、使うのは「不偏」のほう

第2巻「キホンのホン」では、生物実験で必要な検定手法のいろいろが紹介される。特に重要なのが多重検定だ。

多くの統計学の入門書では、プログラムのインストールに始まり、t-検定あたりまでくるのがやっとだ。たとえその先まで書かれていたとしても、だいたいそのあたりで読者は挫折する。

医学や生物学の研究では3群以上を比較することが少なくない。この場合、t-検定では役に立たない。さらに、正規分布から外れていることもある。

こういうとき、分散分析とか、多重検定とか、ノンパラメトリック検定とかが必要になる。これだけで個別の本になっていることが多いが、本書にあるだけで実験には十分役立つ。むしろ一般的な統計学の入門書より役立つことが多いはずだ。たとえば、Rの入門書としてよく使われる『Rによるやさしい統計学』では、多重検定はさわり程度だ。

多重検定が必要な理由

なお、本書は、統計学としては古典的な手順に倣っているようだ。最近の動向は他書などで注意しておこう。

たとえば、本書には、等分散かどうかでスチューデントかウエルチかを使い分ける、との指示がある。現在では、等分散かどうか調べる必要はなく、最初からウエルチを使うのが、ベストプラクティスだ。また、最近は、p値の取り扱いや検定力を気にする方向になっているが、そのあたりも素朴になっている。また、グラフの正しい描き方の指南も、どこか他でみつけておこう。下のようなことが書いてあれば大丈夫:

  • 円グラフを避ける
  • 3Dグラフはダメ、絶対
  • 座標軸を端折ったりズームしない(たとえばパーセンタイルなら0%から100%まで正直に描く)