KaggleのAPTOS2019 Blindness Detection、締め切りまであと1か月となった。
学習済みのCNNを使って特徴量抽出やファインチューニングを行うことを検討してきたが、犬と猫の分類のようにはいかなかった。
まだまだ修行が足りなくて、大きな間違いをしでかしているかもしれないと思っていた。ところが、ネットで見つけた論文で、まさに、このテーマを扱っているものを見つけ、学習済みのCNNを使っても、眼底写真の分類は容易でないとの結果が報告されていた。imagenetで訓練した種々のCNNを試した結果、VGG-19によるファインチューニングが最もよく、それでも正解率で80%弱、Quadratic Weighted Kappaで0.6弱という結果が報告されていた。
Kaggleのリーダーボードの現在の首位がKappaで0.849となっている。50位でも0.806なんだから、とんでもない人たちが参加してるんだと思うとともに、CNNに加えて、様々な機械学習の手法が併用されているのだろうと推測される。
5クラスの画像の総数が3700枚弱で最小のクラスの画像は200枚弱であるから、普通に、CNNだけで分類しようとしても難しく、画像の前処理に関しては、上記の論文の中で、4年前のKaggleの眼底写真の分類コンペで用いられた画像処理方法を用いると、パフォーマンスは改善されたが、数%程度であると書かれている。
ということで、機械学習の様々な手法との組み合わせを検討する必要がありそうだ。