AI_ML_DL’s diary

人工知能、機械学習、ディープラーニングの日記

「表面と真空」の特集「データ駆動科学による表面・真空科学研究の新展開」を読む(9月18-20日)

特集「データ駆動科学による表面・真空科学研究の新展開」を読む

 

さまざまな用語が飛び交っていて、それぞれの定義と相互の関係性が気になるのだが、これは、たぶん、時間とともに変化しているように思うので、追求しないでおこう。

特集のタイトルにある「データ駆動科学」が意味するものが何であるかは、具体的にイメージできるようにしておくことが必要だと思うので、どのように定義されているのかを、調べてみよう。

表面科学会のデータ駆動表面科学研究部会のHPでは、次のような定義が掲載されている。

データ駆動科学とは、科学技術分野におけるビックデータの中から本質的に重要な要素を抜き出し、そこから法則や機能を抽出する学術領域です。

残念なことに、当該研究会のHPは、2018年1月のセミナー開催案内を最後に、更新されていない。

 

藤田大介表面科学における計測インフォマティクス~歴史的展開と将来展望~

総合報告ということで俯瞰的な記述が多い。具体例はオージェスペクトルの解析であるが、そこには「データ駆動科学」の構成要素の主体であるビッグデータの要素が含まれていないように思われる。具体例を学びたいと思っているので、これ以上言及しないことにする。

 

清原慎, 溝口照康:機械学習を用いた物質界面構造の高速決定

著者らが2016年から2018年にかけて発表した6件の論文を解説したもののようである。

最初のパラグラフを転載すれば、物質界面構造の意味が少し明確になると思う。

 実用材料の多くは単結晶の集合体である多結晶体であり、その内部には点欠陥(空孔)、線欠陥(転移)、面欠陥(界面、表面)といった格子欠陥を無数に内包している。格子欠陥はバルクとは異なる元素や原子配列で構成されるため、機械的・機能的物性に大きな影響を与えることが知られている。本研究の対象である粒界は結晶粒の相対的な方位差から生じる面欠陥であり、多結晶体の破壊挙動やイオン伝導に多大な影響を与える。このような格子欠陥における機能発現メカニズムを理解するためには、格子欠陥の原子構造を明らかにし、その特異的な構造と物性との相関性を理解する必要がある。

(白金ナノ粒子の触媒特性も、これらの欠陥の種類と構造によって、大きく異なるのかもしれないと思うと、こういう分野を理解しておくことは非常に重要ではないかと思う。ナノ粒子の調製の方法や条件によって生じる触媒特性の違いは、ナノ粒子表面の欠陥だけでなく、内部に存在する欠陥も関与しているかもしれない。ナノ粒子の3次元原子配列が、ナノ粒子の製造方法によってどう違うのかを知りたいものだ。計算機の中で合成し、3次元構造を出力し、触媒特性も出力できるようにしたいものだ。)

2.仮想スクリーニングによる界面構造決定

 仮想スクリーニングでは、まず手元にあるデータベースから機械学習により予測モデルを構築し、その予測モデルをもとに探索空間全体の数値や物性を予測する。観測データがない領域に関しても予測モデルをもとに「仮想的」に物性値や性能を知ることができる。つまりすべての計算や実験等を行わなくとも所望の値をもつ点(条件)を予測することが可能となる。我々はこの手法を粒界構造決定に利用した。

(仮想スクリーニング:バーチャルスクリーニング:virtual screening:2014年の人工知能学会論文誌において岡田正人らが、「機械学習による創薬支援のための高精度バーチャルスクリーニング法の開発」を発表している。)

次のパラグラフも転載しておこう。

 本手法の模式図をFig. 3に示す。予測モデルを構築するために、いくつかの粒界(Fig. 3のΣGB1, ΣGB2)に関しはɤ-sueface法により構造緩和計算を行う。続いて計算前の構造情報(原子間距離や密度など)と界面エネルギー(Fig. 3のE1,1~E2,j)の関係を機械学習によりモデル化して予測モデルを構築する。一度この予測モデルが得られれば、計算前の構造情報のみから粒界エネルギーを予測することができ、第一原理計算やMD計算を大幅に省略することができる。最後に、最小のエネルギーを与える候補構造のみに関して第一原理計算やMD計算等を行うことで正確な粒界構造を得ることができる。

f:id:AI_ML_DL:20210918164617p:plain

このへんにしておこう。論旨明快で、非常に参考になる。

 

田原寛之、ルドルフ ジェイソン クアリア、林智弘:データ駆動的抗タンパク質吸着・抗細胞接着表面設計:情報科学を用いたバイオマテリアルデザインへの挑戦

4.1 タンパク質吸着・細胞接着のプラットフォームとしての自己組織化単分子膜(SAMs)

 自己組織化単分子膜(Self-assembled monolayers : SAMs)(Fig. 2)は非常に高秩序な構造を固体表面上で形成し、真空中のみならず、空気中、水中でもその構造を安定して保持する。さらに、SAMsを構成する分子の末端基を選択することにより、表面の電荷、極性を改変でき、水への濡れ性などの物性を簡便に制御可能である。そのため、1990年代からSAMsはタンパク質・細胞接着実験のプラットフォームとして用いられ、タンパク質吸着・細胞接着に関する論文は300報以上にのぼる。我々はこれらの論文の中から、SAMへの fibrinogen(血液凝固に関わる血中タンパク質、様々な材料表面に吸着しやすい性質をもつ)について解析した150報程度の論文のデータを基に、約200種類のSAMsに関して、SAMsを構成する分子構造、水の静的接触角、fibrinogen の吸着量を含むデータベースを作成した。

4.2 SAMsを構成する分子の記述、機械学習の詳細

 有機分子の構造記述、枝分かれ構造などを記述する記述方法が存在するが、SAMsを構成する分子は直鎖構造をもつことから、ここでは単純に分子構造を元素数(水素、炭素、窒素、硫黄(酸素?))、総原子数、化学結合数(C-C, C-0, C-H, O-H, C=O, C-N, N-H)という記述子でパラメータ化した。

 本研究では人工ニューラルネットワークモデル(Artificial neural network : ANN)による機械学習を用いて、SAMsを構成する分子の構造と水の接触角などの基礎材料物性、さらにはタンパク質吸着、細胞接着との相関に関しても解析した(Fig. 3)。ここでは入力層、隠れ層、出力層の要素が、異なる強度(重み・バイアス)で結合し、入力信号から出力信号を計算するシステムである。また、化学構造(入力データ)と材料特性(出力データ)を含むデータベースを用いて機械学習を行った。本研究ではWEKA, Matlab, Python,プラットフォームでのscikit-learnライブラリなどを用いて行った。

f:id:AI_ML_DL:20210918210218p:plain

(著者らの機械学習の導入は、自然な流れのように見える。先に解くべき課題があって、その課題を解決するための研究成果・知識の蓄積(ビッグデータの元)があった。そこに、研究を推し進めるための道具として、新たに機械学習が加わった。数ある機械学習の手法をどれだけ試したのか、この論文に書かれていないのでわからないが、ANNを、最もシンプルな形で用いたことが、課題にマッチしたように見える。課題にマッチするようにANNを選び、デザインしたということかもしれない。)

4.3 効率的にビッグデータを取得するためのプラットフォーム

 前述のように、一般的なバイオマテリアルの評価項目である、水の接触角、タンパク質吸着、細胞接着に関しては、計算科学の手法を応用することは難しいことから、研究者が自ら、データを作成する必要がある。本研究では、効率的に表面の元素組成・分子組成と生体分子・細胞応答のデータを取得するために、基板の場所によって、SAMsを構成する分子の比率が連続的に変化する基板(傾斜基板)(Fig. 4)を用いた。傾斜基板をを構成する分子としてメチル基、ヒドロキシル基、アミノ基、カルボキシル基、オリゴエチレングリコール基のうち2種類を組み合わせて(総組み合わせ数は10)、それぞれに対し、水の静的接触角、fibrinogen吸着実験、血小板接着実験を行った。

 本研究では過去の文献データを用いて作成したデータベース、筆者らの実験データのみによるデータベースの2種類のデータベースを機械学習に用いた。

4.4 分子の化学構造からの様々な物性、生体分子・細胞との相互作用の予測

(吸着したibrinogenの量の予測精度が最も高く、その次が接触角で、最後に血小板接着密度となっている。吸着したfibrinogenの量と接触角は、文献から作成したデータベースよりも著者らの実験により作成したデータベースの方が圧倒的に精度が高い。文献ごとに実験条件が異なることが原因だろうと述べられている。血小板接着密度は著者らの測定データのみであるが、それでもばらつきは大きいように見える。データ量が少ないために十分学習できていないのか、考慮できていない要因があるのかは不明だが、入力した分子構造情報のみからでも、ある程度予測できている事が重要であって、可能性を感じさせる結果だということであろう。学習には80%のデータを用い、残りの20%のデータを予測に用いている。

(電気陰性度、双極子モーメント、分極率などの物性値を入力データに用いたらどんな結果になるのだろう。いずれにしても非常に興味深い結果である。)

5.生体分子・細胞応答の予測から求める機能を発現する材料の設計へ

ここでは、機械学習による逆問題解法的な材料設計、つまり、求める細胞応答を誘起するような材料設計が可能であるかどうかを議論する。我々はFig. 8に示すように、入力・出力パラメータの一部を交換したANNを構築した。このANNでは入力データに求める細胞応答を記述するパラメータ、出力に構造パラメータ(求めたい化学構造)を設定し、先ほどまでと同じデータベースを用いて機械学習を行った。学習後にANNの入力データとして望まれる材料機能、その他の化学構造パラメータを入力すると、求めたい構造パラメータを得ることができる。筆者らはこの方法で、抗タンパク吸着特性、あるいはタンパク吸着特性を有する単分子膜の設計が可能であることを報告している。つまりこの結果は、適切なデータベースを用いた機械学習によって、逆問題解法的な材料設計が可能であることを示している。

f:id:AI_ML_DL:20210920121846p:plain

分子構造情報から血小板の吸着濃度を予測するモデルを作ることができる。それは、血小板の吸着濃度は、SAMsを構成する分子の構造によって、血小板の吸着濃度が決まるから、その関係を分子構造と吸着濃度のデータセットから学ばせる。
(逆問題とは、たとえば、血小板の吸着濃度から分子構造を予測(提案)するモデルを作ることである。SAMsの分子構造が、血小板の吸着濃度によって決まるのであれば、その関係を、吸着濃度と分子構造のデータセットから学ばせればよい。訓練されたモデルに、吸着濃度を入力すれば、対応する分子構造が出力される。因果関係とか、分子構造とか、吸着性が何であるかは、ANNモデルが感知するところではない。吸着濃度が小さいときの組成と分子構造、吸着濃度が中くらいのときの組成と分子構造、吸着濃度が大きいときの組成と分子構造は異なっている筈で、それは、データセットとして与えて残差が最小になるまでANNモデルを訓練すれば、その関係をANNモデルは、最終的な重みとバイアスの組み合わせとして保持する。そのモデルに所望の吸着濃度を入力すれば、対応する組成と分子構造のセットが出力されるように設計しているのであろう。順方向と逆方向(逆問題に相当)とでは、逆方向は予測精度は下がると思うが、予測精度は、ANNの層数、ノード数、活性化価数、損失関数などの、いわゆるハイパーパラメータによって変わってくる。さらに、著者らが「逆問題解法的」と称しているFig. 8のモデルでは、入力データとしてchemicalparameter, material property, cell responce, が列挙されており、入力側と出力側の両方に化学構造情報が与えられているようにみえるので、これだけでは、何をやっているのかを正確に把握することはできない。)

 

この特集にはあと3件の論文があり、なかでも、「パーシステントホモロジーを用いた迷路状磁区構造におけるトポロジカル欠陥の可視化」が面白そうなのだが、今回はここまでにしておく。

 

f:id:AI_ML_DL:20210917000417p:plain

style=173 iteration=500