Quantum-chemical insights from DTNN -1
*KaggleのテーマPredicting Molecular Propertiesと類似した内容であるが、Kaggleとは離れて、DTNNの本質に迫る。
*データベース
・データベースとしては、GDB-13のサブセットであるGDB-7とGDB-9を用いている。
・GDBの後ろの数字は、水素を除いた構成元素の数をあらわしている。
・そもそも、このデータベースは、誰が、何のために作成したのか。
・ベルン大学のReymond先生の研究グループが、低分子医薬品の探索のために作成したようである。
・最初にGDB-11で、26.4 Million、次にGDB-13で、977.5 Million、さらに、GDB-17 で、166.4 billionの分子数からなるデータベースを作りあげられたようである。
・安定に存在することや、合成可能であること、ヘテロ原子の割合を自然有機物における割合を参考にして決めるなど、さまざまな合理的制約条件を課して、計算機で作り出しているとのことである。
・したがって、医薬品候補化合物の探索に適しているとのことである。
・Reymond先生のサイトからダウンロードできる。http://gdb.unibe.ch/downloads/
*GDB-17に関する論文Enumeration of 166 Billion Organic Small Molecules in the Chemical Universe Database GDB-17を眺めていると、Chemical Universeという言葉が大袈裟でないなと感じられる。
・GDB-17は、医薬品開発において非常に重要な役割を果たしそうだなと思って、ダウンロードサイトを確認したところ、GDB-13はフルサイズまでダウンロード可能だが、GDB-17は、ほんの一部だけがダウンロード可能となっている。
・当然だろうな。大手製薬会社が買い占めてしまいそうな感じだな。
・2015年に発表された論文The Chemical Space Projectでは、GDB-11やGDB-13でも、医薬品開発に役に立っているようなことが書かれている。
・さらに、Beyond 17 atomsは、現在進行形であり、大きな飛躍が期待され、クリエイティブな合成経路のデザインへの期待も述べられている。
*このGDBデータベースの構築は、バーチャルの分子空間を作り出したが、そこには、現実世界が求める宝物が含まれていたということか。
・既存の手法の組合せのようだが、丁寧に、規模を大きくすると、大きな価値が生まれる、ということか。
・それにしても、すごいものを見てしまったような気がする。
*DTNNのデータベースを知ろうと思っただけなのだが、DTNNとの関係が少ないところにはまり込んでしまったようだ。
<余談>
*論文を読むときには、引用文献は、できるだけ見ておきたいと思うのだが(集めるだけ集めて、大半は読まないことが多い)、人工知能、機械学習、ディープラーニング関係の文献の大半が、無償で手に入る。
・有償の画面が出てきても、論文タイトルをコピペして、再度Google Scholarで検索すると、無償のarXiveとして出版されていることが多い。
・NatureやJACSは、無償で入手するのが難しいイメージだったが、この分野の論文だと、無償で入手できることが多いように感じる。
*明日も、DTNNの勉強だ!
つづく