バイオインフォマティクス入門の「2-20 交差検証」について勉強しよう。
評価指標に関して、G検定のテキストとはかなり大きな違いがあったので、交差検証についても何か違いがないか調べてみよう。
交差検証は、機械学習分野では、k分割交差検証と呼ばれている。それが、ここでは、n分割となっている。分割数を表すだけだからkでもnでもいいのだが、・・・。
さらに、機械学習では、k分割交差検証の前に、もっと基本的な、ホールドアウト検証というのがある。これはちゃんと記述しておいてほしい。これは、全データを、訓練用とテスト用、もしくは、訓練用と評価用とテスト用に分けることである。これは、誰でも最初にやることなので、あえて説明することはないとの判断だろうか。区別して説明したほうが良いと思う。
データ数が十分多ければ、あえて、k分割交差検証を使う必要はない。最近は、データ数が十分多くてもk分割交差検証を使う場合がある。それは、複数のモデルで学習させることによって予測性能を向上させたい場合である。
交差検証の模式図中のデータ数が、見やすくするためとはいえ、12個というのはいただけない。1個抜き交差検証があるのだから、12個でも違和感はないかもしれないが、なんとも理解しがたい。
機械学習の説明があまりにも少ないなかで、交差検証の説明をしても、ピンと来る人はほとんどいないだろうし、その意味を理解するのは難しいように思う。早急に改訂して、ディープラーニングをはじめとする機械学習の内容を充実させてはどうだろうか。
また、自分がCやC++を勉強していないので、余計にそう思うのかもしれないが、いつまでもCやC++のプログラムコードを示さないで、機械学習では今最もよく使われているPythonに切り替えてほしいと思う。