超入門! すべての医療従事者のためのRstudioではじめる医療統計

医療統計のテキスト。類書は数多いけれど、本書の特徴は:

  • コンパクト:グレイ解剖学第4版の紙面の総面積(78.5 m2)を1とすると、0.07
  • いま主流になっているRのツール(RStudio、tidyverse)が使われている
  • コードとデータをダウンロードして自分ですぐに試せる
  • 統計学自体の解説は最少限(もともと全く知らない状況だとキツい)

執筆者たちはいずれも、医師や歯科医師で、同じ研究室で統計を学んだ。本書はその体験をもとに書かれている。統計学の入門書の前書きには筆者自身が難しくて苦労したという趣旨のが多いが、本書も例にもれないようだ。

 

まえがき

 

全体がストーリー仕立てになっている。主人公は後期研修医の「Aくん」。上司の「S先生」から学会発表を命じられ、新しい治療法の効果を統計解析することにした。Aくんはだいたいはネットで調べて、事を進めていく。ときどきS先生がでてきて、方向修正をしてくれたり、統計手法を選んでくれたりする。教授が後のほうで登場し、教授手持ちのデータの解析を命ずる。医療統計をやる羽目になったヒトにありがちな状況だ。最後に論文を書き上げると、教授からデータの追加を指示される。しかしスクリプトが残っているので、更新したデータで同じスクリプトを走らせて難を逃れる。

 

ストーリー仕立て

 

再現性を活かして難を逃れる

 

本書で使われるRの環境は、RStudiotidyverseだ。いずれも現在のRで主流になっているツール。RStudioは、Rの統合環境で、Rのスクリプト(プログラム)を記述して統計解析を進めるようになっている。処理課程がスクリプトとして記録に残るので、再現性を問われる科学研究に有用だ。tidyverseはデータ解析を統一的に進められるようにイチから設計されたパッケージ(単機能のプログラムを複数集めたもの)。強力なデータ整理ツールのdplyrや、美しいグラフを作れるggplot2などが含まれている。

ただし、これらは医療統計専用ではなく汎用のツールなので、医療統計で一般的な手法の選択は手伝ってくれない。また、日本語のメニューやヘルプはない。そこで、医療統計に特化した本書のようなガイドブックが必要になってくる。

本書では、RやRStudioの基本的な使い方から、これを使って主要な医療統計手法をこなすまでが、具体的に順序よく説明されていく。スクリプトとデータをダウンロードすれば、本の通りに自分で試せる。Rを少しやったことがあるなら、四則演算など簡単なところは、本を読まずにスクリプトを実行していくだけでいいかもしれない。

取り上げられている統計手法は、データの可視化、群間比較(2群と多群)、回帰分析、生存曲線、相関、ROC曲線。治療の効果を調べるような研究ならとりあえず困らない。

 

本書に準拠するスクリプトとデータを使ってみる

 

本書は、RとRStudioのインストールと基本的な使い方から始まる。説明は具体的だ。いずれバージョンアップなどで実際と差違が生じてくるだろうが、とりあえず今は大丈夫。

ネットを調べるとインストールの方法はいくつか別法がみつかる。たとえば、macOSでもともとHomebrewを使っていたなら、Homebrewを使ってインストールする方法もある。オリジナルのRのインストーラーのインストール先がHomebrewのインストール先と重複していて、それによる不具合(軽微だが)が生じるらしい。

 

インストール

 

RStudioの基本操作

 

続いて、tidyverseの使い方。これに慣れると、大きなデータの整理が簡単になる。

 

tidyverseの使い方

 

本書でうまく使われている別のツールがtableoneだ。開発したのは米国在住のKazuki Yoshida氏。群のまとめの表を一発でつくってくれる。比較の検定にも対応している。

 

 

データの可視化に使われているツールはggplot2だ。R組み込みのツールに比べていろいろなタイプのグラフを扱え、できあがりが美しい。

本書ではグラフのファイルへの書き出しを手作業でやるように指示されている。ここもファイル書き出し用のggsave()をつかってスクリプトに記述したほうが、再現性に関して利点がある。

 

ggplot2

 

続いて、群間比較や回帰分析など、主要な統計手法がサンプルデータに従って具体的に試されていく。統計手法の選択の表がそれぞれの手法の章の冒頭にあって、自分が今何をしているのかがわかりやすい。

 

統計手法の選択

 

多重比較

 

データやスクリプトはサポートページでダウンロードできる。

 

本書のサポートページ

 

本書では、統計手法自体の原理や意味づけについての説明はごくわずかだ。でてくる用語や説明がわからなかったら、一旦他の本で勉強しよう。取り上げられた手法に自分のデータを当てはめるだけでもいいけれど、思い違いをしているかもしれない。

生命科学で使われる統計手法をRStudioとtidyverseで実地に学ぶテキスト。筆者らがRStudioのワークショップの講師をしているせいか、解説が巧妙だ。読者がはて?と疑問に思いそうなタイミングで的確にその説明がでてくるし、間違いがちなポイントも教えてくれる。

統計手法の説明が丁寧でわかりやすい。標準偏差と標準誤差の違いを説明できなかったり、多重比較の手法に困ったりしたら、読んだ方がいい。

ggplot2で美しいグラフを描くのに役立つ。日本語版の追補で日本語対応が解説される。

統計学のいろいろな手法の辞典。

R自体のテキスト。

もと本学教員によるRのハードコアなテキスト。t検定のところで「等分散の場合であっても常にウェルチの方法を採用すればよい」とベストプラクティスを明言してあるテキストは他に少ない。

医療統計に特化するならEZRも選択肢に入ってくる。自治医科大学で開発されたRのGUIフロントエンド。医療統計の手法をメニューから選べるようになっている。プログラム自体には再現性のサポートはないので、紙のノートへの記録は必須。