Deep learning in bioinformatics: introduction, application, and perspective in big data eraこの論文の、最初の事例について調べてみよう。
1.Enzyme function prediction(酵素の機能の予測)
この事例は、次のフルペーパーの要約である。
DEEPre: sequence-based enzyme EC number prediction by deep learning
Yu Li1, Sheng Wang1, Ramzan Umarov1, Bingqing Xie2, Ming Fan3, Lihua Li3 and Xin Gao1,*
タイトル和訳:深層学習によるシークエンスベースの酵素EC番号の予測
*酵素EC番号とは何か
ウイキペディアによれば、EC番号(酵素番号、Enzyme Commission numbers)は酵素を整理すべく反応形式に従ってECに続く4組の数で表したもの。国際生化学連合(現在の国際生化学分子生物学連合)の酵素委員会によって1961年に作られた。
*酵素EC番号のデータベース
この論文では、SWISS-PROTというデータベースを使っている。
データベース本体はUniProtKBで、それが2つのセクションに分かれており、Swiss-Protは手動で値付けしているとのことである。
*以下は、UniProtのホームページからの引用で、Google翻訳である。
TrEMBLセクションは、ゲノムプロジェクトによるデータフローの増加に対応して1996年に導入されました。その時点で、Swiss-Protの特徴である時間と労力を要する従来の手動キュレーションプロセスを、利用可能なすべてのタンパク質配列にまで拡大することはできないことがすでに認識されていました。TrEMBLには、自動注釈と分類で強化された高品質の計算分析レコードが含まれています。
*以下に、主にGoogle翻訳を使って論文の内容を紹介するが、用語も論理も自信がないので、参考程度にとどめていただきたい。
動機:酵素の機能を特定することは、メタゲノム、バイオテクノロジー産業、酵素欠損症の診断などにおいて、幅広い用途がある。しかしながら、すべての酵素の機能を実験的に決定するのは、時間とリソースが必要なため、非常に高価になる。そのため、計算機を用いて酵素の機能を予測することが重要になる。この論文では、酵素のEC番号を予測することによって、酵素の機能を決定する方法を開発する。
結果:酵素機能予測の分野で、エンドツーエンドの特徴量選択と分類モデルのトレーニング、および自動かつ堅牢な特徴量の統一化手法であるDEEPreを提案する。 酵素シーケンスから手動で特徴量を抽出するのではなく、我々のモデルは、入力として生のシーケンスエンコードを使用し、予測結果を改善するために、分類結果に基づいて、生のエンコードから、畳み込み特徴量およびシーケンシャル特徴量を抽出する。 2つの大規模なデータセットで行われた徹底的な交差検証実験は、DEEPreが、以前の最先端の方法よりも予測性能を改善できることを示している。 さらに、我々のサーバーは、別の相同性が低いデータセットによる主要な酵素クラスの決定において、他の5つのサーバーよりも優れていた。さらに、2つのケーススタディによって、酵素アイソフォームの機能的な違いを捉えるDEEPreの能力を実証した。
*ディープラーニングの特徴は、単純に言えば、手作業の自動化と高精度化だが、それを可能にしているのは、学習によって特徴量が自動的に抽出され、最適化されるというDNNがもっている機能である。
*この論文では、先人たちが実験と試行錯誤と理論構成に基づいて作成し築き上げてきた酵素のデータベースを使っていることから、当該分野における寄与は、自動化と最適化のように思われ、研究者の視点からはそれほど大きな寄与ではないかもしれないと感じた。データベース構築の段階においてもDNNの活用の余地は大きいのではないかと思うので、当該分野へのDNNのさらなる浸透が望まれる。
* Kaggleコンペの「Recursion Cellular Image Classification CellSignal: Disentangling biological signal from experimental noise in cellular images」は、時間と労力を要するデータ解析の自動化と高精度化を目指したものであり、バイオインフォマティクス分野における重要な課題への取り組みだと思う。