AI_ML_DL’s diary

人工知能、機械学習、ディープラーニングの日記

Predicting Molecular Properties-8

Predicting Molecular Properties-8

*1週間程度の予定で、過去のKaggleコンペ、Predicting Molecular Properties、に取り組む。(1週間を超えた!)

*目的は、DNNがどのような課題に対して、どのように貢献できるのかを、実例を通して学ぶこと。

 *今回は、まず、グラフネットワークを理解し、次に、GilmerのMPNNを理解し、その後で、コードの理解に進むという流れにしようと思う。

 

*本日の課題:お手本プログラムコード(1つはTF2.0とsklearnによるMPNNモデル、もう1つはkerasとsklearnによるベーシックな5層の全結合NNモデル)の理解(手本と論文を対比させながら)

 

*課題を確認しよう。

・This competition is hosted by members of the CHemistry and Mathematics in Phase Space (CHAMPS).

・In this competition, you will develope an algorithm that can predict the magnetic interaction between two atoms in a molecule (i.e., the scalar coupling constant.

・CHAMPSは、2017年から6年間の大学間共同研究プログラムのようである。

・CHAMPSの目的:数学者と化学者とデータサイエンティストが集まって、環境科学、製薬業、エネルギー産業などに資する化学変化、化学変換の理解に大変革を起こすような、新しいモデルを作り上げること。

・原文:This unprecedented partnership between mathematicians, chemista, and data scientists aims to provide new models that revolutionise our understanding of chemical transformation, with impacts on all industries that rely on understanding chemical change: spanning environmental science, the pharmaceutical industries, and energy sectors. 

・CHAMPSが2017年9月22日に開催した勉強会:"Introduction to the python data science pipeline", "learning to classify handwritten digits", learning potential energy surfaces", learning boby coordinates in VR"

・CHAMPSが2020年3月5日に開催するシンポジウム:"Cloud-sourcing Machine Learning in NMR"

・Abstractより:Recentry, we worked with Kaggle to design a competition which encouraged data scientists around the world to develope ML models for predicting pairwise nuclear magnetic resonance (NMR) properties for synthetically relevant chemical compounds. Over 3 months, we received 47,800 ML model submission from 2700 teams in 84 countries, with the top models outperforming our own previously published methods. The success this strategy has cultivated highlights the potential of crowd-sourced ML approaches across a range of scientific domeins.

This symposium will introduce the background and main finding of the competition, including the context of computational NMR, the Kaggle platform and presentations from the top performing teams of the competition.

*赤文字にした、CHAMPSチームの方法は、私が最初に引用した文献だった。

<再掲> 

*関連文献調査-1

IMPRESSION – prediction of NMR parameters for 3-dimensional chemical structures using machine learning with near quantum chemical accuracy†
Will Gerrard, a Lars A. Bratholm, a Martin J. Packer,b Adrian J. Mulholland, a
David R. Glowacki *a and Craig P. Butts *a

Chem. Sci., 2020, 11, 508

・タイトルからは判断できないが、本文に次の記述があり、ニューラルネットワークを使うメリットはなく、KRRという手法をベースにした、IMPRESSIONというプログラムを開発したとのことである。

IMPRESSION uses a Kernel Ridge Regression37 (KRR) framework to learn the 1JCH scalar couplings and 13C and 1H chemical shifts of molecular structures. KRR was successfully used by Paruzzo et al. to develop SHIFTML.22 Neural networks have also been used to predict chemical shifts in small molecules from experimental data,6,38,39 however we found no clear advantages in using feed forward neural networks in this work as the accuracy was comparable to KRR for the datasets used, with the kernel methods being much faster to train with the given training set size.

・しかしながら、この記述にあるように、ニューラルネットは、小さな分子の実験データに適用したということであって、DFTなどの第一原理計算結果に対して適用したものではない。

・さらに、ニューラルネットを適用した例として引用されている論文は、2002年から2007年にかけて発表されたもので、DNNの夜明け前のことである。

・最近のDNNの動向に触れられていないので、この論文をしっかり読むかどうかは、もっと調べてから判断しようと思う。

*CHAMPSチームの "Cloud-sourcing Machine Learning in NMR"は大成功だったということだ。

*大成功の源は、MPNN、DTNN、SchNetなどが開発されていたこと、優秀なKagglerが存在していること、それに加えて、CHAMPSチームが高品質なデータベースを作り上げたことだろうな。

 

*データの詳細検討

 

*明日は、データの詳細を検討する。(停滞気味・要注意)

 

 つづく 

 

f:id:AI_ML_DL:20200203085837p:plain

style=094 iteration=1

f:id:AI_ML_DL:20200203085942p:plain

style=094 iteration=20

f:id:AI_ML_DL:20200203090039p:plain

style=094 iteration=500