AI_ML_DL’s diary

人工知能、機械学習、ディープラーニングの日記

今日からMacBook Pro/Anacondaを使おう(2021.12.11-12)

2021年12月11日

今日から、MacBook Pro「2020 Apple MacBook Pro Apple M1 Chip (13インチPro, 8GB RAM, 512GB SSD)」を使う。今(午前7時25分)は配送中で、午前中に届くことになっている。

MACは、20年以上前にディスプレイ一体型のデスクトップタイプを購入して使ったことがあるが、それっきりで、以後はWindowsマシンしか使っていない。

なぜ今Mac/Anacondaなのか。

それは、"DiffPy-CMI"というソフトを使いたいためである。

これは、X線を用いて計測したデータを解析するためのソフトで、version 3.0 DiffPy-CMIは、デフォルトでは、LinuxMacに対応しているだけである。

GitHubには、コロンビア大学の大学院生がWindows 10で動かすためのツールを公開している(st3107/diffpy_talk)ので、それを使う手もあるようだ。

もうMacを入手したので、Macで進めるが、Windows 10も、これを機会にリフレッシュしたいとも思っている。特に、Anaconda3は、TF2のインストールでトラブったのが尾を引いていて、TF2はまだ使えない状態が続いている。

 

DiffPy-CMIは、PDF(pair distribution function)スペクトルの解析、シミュレーション、フィッティング等を行うことができるものである。PDFguiを使えばPDFについては、同等のことはできて、PDFguiはWindows 10で問題なく使える。

DiffPy-CMIを使う目的は、"CMI(complex modeling infrastructure)"にあって、このCMIを用いると、TEM, EXAFS, Raman, NMRなどのデータとシンクロさせて解析することや、DFT計算結果を反映させることもできるらしい。それに加えて、ASE(Atomic Simulation Environment)を用いて作成した元素構造モデルも、シンクロさせて解析することができるようである。

 

今(午前10時45分)、MacBook Proが届いて梱包を解いた。

DiffPy-MSIとASEを、よく理解してからMacProを動かそう。

 

DiffPy-CMIを表す図

f:id:AI_ML_DL:20211211152033p:plain

夜になって、MacにAnacondaをダウンロードしはじめたのだが、読み込み中にエラーが出て、Webページの再読み込みの繰り返し。途中でいやになってMacを再起動して、Anacondaをダウンロードしようとしたら、登録済みメルアドが使われていると警告が出て、それ以上進まない。仕方なく履歴を見て、エラーしているところまで戻ったら、ダウンロードは再開されたが、症状は同じ。ダウンロード中に問題が起きたからWebページを再読み込みしろ、というのが繰り返されるだけ。困ったもんだ。
このおかしな現象は何時間続いたかわからない。さらに、なけなしのお金、約17万5千円が無駄になったと思った。

 

あきらめて、リセットしてMacを立ち上げてみると、なにかがダウンロードされていることがわかった。調べてみると、Anacondaが、ダウンロードされていた。何が起きたのかよくわからないのだが、Anacondaのダウンロード中に、Anaconda Nucleusというのが勝手に立ち上がってエラーを起していたのではなかろうか。要するに、ダウンロードは数秒くらいで終わっていて、Anaconda Nucleusというソフトが勝手に立ち上がって動き始め、それが、エラーを引き起こしていたようだ。

 

なにはともあれ、ダウンロードしたAnacondaのファイルは、ダブルクリックすることによってインストールできた。

 

以上で本日終了。

 

明日は、DiffPy-CMIを使えるところまでいきたいね。もう午前1時20分になった!

 

12月12日(日)

Anaconda3をインストールすることができたので、DiffPy-CMIをインストールすれば、使えるようになる。

 

ふつうは、Anacondaのサイトにアクセスすれば、パソコンのシステムを自動検出し、ダウンロードボタンを押せば、感知した環境に応じてWindows, Linux, Macのどれかに対応したAnacondaパッケージがダウンロードされ、ダウンロードしたファイルを探して、ダブルクリックすればインストールが始まるので、あとは、指示に従って作業すれば、Anaconda3をベースにしたPython環境が整う。

 

Anacondaのインストールは、これが2度目である。

最初は、2018年4月頃で、ディープラーニングの勉強を始めた頃である。Windows 10を使っていたのだが、Anaconda3をダウンロードし、インストールすると、Anaconda3のホルダー内に、コマンド入力用画面(ターミナル、コマンドプロンプト)やSpyderやjupyter notebookなどのアイコンが表示されていて、すぐに使い始めることができた。

2度目に相当するトライは何度かやってみた。Windowsでは使えないモジュール/パッケージを使うために、Linux(Ubuntu)の環境にして、Anacondaをダウンロードし、インストールしようとしたのだが、うまくいったことがない。ダウンロードしたファイル/ホルダーの場所がわからず、途中で右往左往して終わるのだ。今回も、Windowsがだめだというので、Linux環境(Ubuntu)にしてAnaconda3のダウンロード/インストールにトライしたが、デスクトップの表示すらままならず、手も足も出なかった。

 

ということでMacに戻ろう。Macの場合は、インストールの後に、Anaconda-Navigatorというアプリのアイコンが現れた。そのアイコンをクリックしてみると、見慣れたSpyder, Jupyter Notebookなどいくつかのアプリが並んでいる。ということで、Macでも簡単にPython使用環境が整うということである。(Anaconda Nucleusに起因すると思われる異常動作さえなければ・・・。)

 

さて、Anaconda3にDiffPy-CMIのパッケージを追加するには、コマンドプロンプト "terminal" が必要なのだが見当たらない。Windows 10では、Anaconda Prompt (Anaconda3)というのがあった。これがないと始まらないのだが、どうしたものかと思いながら、一方で"JupyteLab"は使ったことがなくて気になっていたので、試しにLaunchタブをクリックしてみたらJupyterLabが立ち上がり、JupyterLabの初期画面の左下に鎮座していた。

"Terminal"は、JupyterLabの中から起動できるようになっていた。

 

Anaconda.NavigatorのEnvironmentsから、Anaconda3にインストールされたパッケージを確認することができる。

python 3.9, scikit-learn 0.24.2, scipy 1.7.1, pandas 1.3.4, numpy 1.20.3, matplotlib 3.4.3, などがインストールされているのが確認できた。

初期状態(デフォルト)では、tensorflow, pytorch, kerasなどの、ディープラーニングで常用されているオープンソースプラットフォームがインストールされていないことがわかった。

 

それでは、JupyterLabの"Terminal"から、DiffPy-CMIをHPのマニュアル通りにインストールしてみよう。

インストールは無事完了した。

Anaconda.NabigatorのEnvironmentsには、base(root)とは別に、py37というEnvironmentが新たに作られていて、diffpy-cmiを含む147のパッケージがインストールされていることが確認できた。

 

マニュアルに従って入力していったらできた。というのでは、ここに書く意味が無いので、何をやったか、どうなったかを記しておこう。

terminal画面(表示名を*****で示す)

(base) *****@*****noMacBook-Pro -$ conda create --name=py37 python=3.7

これによって、py37というenvironmentができて、そこには、python 3.7.11と関連パッケージがインストールされる。(base)から(py37)という環境に変わる。(base)にはpythonでよく使われるpandas, matplotlib, scipy, scikit-learnなどがインストールされるが、(py37)には付加的なパッケージは含まれない(python 3.7環境を作っただけ)。

(base) *****@*****noMacBook-Pro -$ conda activate py37

これによって、作業場所(environment)が、(py37)に移る。

(py37) *****@*****noMacBook-Pro -$

(py37)の環境に、diffpy-cmiをインストールするのだが、それが可能なのは、Anacondaが、diffpyに関連するパッケージを保有/管理しているからであり、次のように入力することによって、その保管場所にアクセス可能になるようである。

(py37) *****@*****noMacBook-Pro -$ conda config --add channels diffpy

そのうえで、次のように入力することによって、diffpy-cmiとその関連パッケージ、さらには、それらのパッケージが使う、scipy, matplotlib, scipy, numpyなどもインストールされる。

(py37) *****@*****noMacBook-Pro -$ conda install diffpy-cmi

 

以上で、基礎工事完了!

次の週末には、diffpy-cmiのチュートリアルに取り組もう。

 

おっと、重要なことを忘れていた。DiffPy-CMIを使う最大の目的は、ASE(Atomic Simulation Environment)で作った原子構造モデル(全原子の位置座標)をDiffPy-CMIに読み込んでPDFスペクトルのシミュレーションと実験データへのフィッティングであった。

よって、同じ環境(py37)に、ASEをインストールしなければならない。土台はまだ半分しかできていないのだ。

 

早速、ASEのインストールに取り掛かった。

Mac OSX (Homebrew)の題目で始まる手順書の通りにやればよいと思ったが、「$ brew install python」は、py37の環境を使うから不要と判断して次に進んだ。

「$ pip install --upgrade --user ase」これで全てうまくいくと思ったら、なぜか、(py37)の環境にインストールされない。

ただし、(py37)の中のパッケージ数は147から166に増えていた。

 

ASE(Atomic Simulation Environment)のインストールはうまくいかなかった。

来週の週末は、ASEのインストールから始めよう!

 

12/17-19にやる予定だったが、別件(NMRが面白くなってきた)が入って、できなくなった。

 

2022年1月3日(月)

必要なものは2つある。

1つは、DiffPy-CMI

もう1つはASE(Atomic Simulation Environment)

今日、ようやくLinux(Ubuntu)を立ち上げることができたので、WinとMacLinuxを比べることができた。Anacondaを普通に使った場合、

DiffPy-CMIは、Windowsになく、MacLinuxにある。

ASEは、Windowsにあり、MacLinuxにはない。

ということがわかった。

PDFgui/fit2は、単一金属のナノ粒子の粒径を球体近似で見積もるのには十分かなと思う。ASEと組み合わせるDiffPy-CMIがどのようなものかを知る必要があるのだが、どうしたものか。

 

まずは、DiffPy-CMIがどのように使われているのか、GitHubで調べてみよう。

 

 

f:id:AI_ML_DL:20211204191305p:plain

style=178 iteration=500

基礎からの燃料電池触媒:2021年10月3日~中断

基礎からの燃料電池触媒:2021年10月3日~

山梨大学燃料電池ナノ材料研究センターのパンフレットによれば、1978年4月に工学部付属燃料電池実験施設を設置しており、1989年4月には学内特別施設電気化学エネルギー変換研究室を設置、2001年4月にはクリーンエネルギー研究センターを設置、そして、2008年4月に当該センターが設置されている。ということで、目に見える形で燃料電池にフォーカスしてからでもすでに40年以上の歴史を有している。

当該センターとNEDOとの関係:「本学では、2008年度から2014年度にNEDOのHi-PerFCプロジェクト(※1)を受託し、2015年度から2019年度にNEDOのSPer-FCプロジェクト(※2)を受託し、燃料電池の高出力化、高耐久化、高効率化に資する触媒や電解質材料およびそれらの性能を極限まで発揮させる触媒層の研究に取り組み、世界でも注目される多くの成果を挙げてまいりました。」

2020年度からは、「この度、新たにNEDOからECCEED’30-FCプロジェクト(※3) ECCEED’40-FCプロジェクト(※4)を受託しました。2020年度からこれまでの成果を活かしながら新たな発想を取り入れることにより、NEDO技術マップ等で定められるシナリオに基づき、高効率、高耐久、低コストの燃料電池システムを実現するための技術を開発します。」

ということで、燃料電池の研究開発の現状と展望を知るためには、当該センターに出かけて行ってお話を聞くのが良さそうである。できるだけ早い機会に訪問したいと思う。

 

今日のテーマは過電圧:

燃料電池のカソードにおける酸素還元反応に対する過電圧の起源に関する論文を読んでみよう。2004年の有名な論文のようだ。

J. K. Nørskov et al., Origin of the Overpotential for Oxygen Reduction at a Fuel-Cell Cathode, J. Phys. Chem. B, 108, 17886 (2004)

水素と酸素から水を生じる電気化学変換反応を利用する低温燃料電池において、酸素を還元するカソード反応が遅いということは、大きな問題点の1つである。それは、水素を酸化するアノード反応よりも遅いのだが、なぜそうなのかについてはコンセンサスが得られていない。

In the following, we use density functional theory (DFT) calculations to gain some insight into the cathode reactions.

DFT calculations can provide information about the stability of surface intermediates in the reactions, which cannot be easily obtained by other means.

We start by considering the simplest possible reaction mechanism over a Pt(111) surface.

We introduce a method for calculating the free energy of all intermediates as a function of the electrode potential directly from density functional theory calculations of adsorption energies for the surface intermediates.

On this basis, we establish an overview of the thermodynamics of the cathode reaction as a function of voltage, and we show that the overpotential of the reaction can be linked directly to the proton and electron transfer to adsorbed oxygen or hydroxide being strongly bonded to the surface at the electrode potential where the overall cathode reaction is at equilibrium.

We introduce a database of density functional theory calculations of energies of the surface intermediates for a number of metals and show that, on this basis, we can establish trends in the thermodynamic limitations for all the metals in question.

The model predicts a volcano-shaped relationship between the rate of the cathode reaction and the oxygen adsorption energy.

The model explains why Pt is the best elemental cathode material and why alloying can be used to improve its performance.

 

f:id:AI_ML_DL:20211005210813p:plain

 

***残念だが、ブログを中断する***

 

f:id:AI_ML_DL:20211003072204p:plain

style=176 iteration=500

 

 

 

物理化学(燃料電池を意識して):2021年9月29日~中断

ムーアの物理化学:藤代亮一訳 を眺めている。

17章 液体状態

3節 液体のX線回折

液体のX線回折について説明されている。液体水銀のX線回折図形と、その回折図形を解析することによって得られた動径分布関数g(r)が図示されている。

4節 液体構造の研究結果

液体構造の研究結果として水のX線回折が紹介されている。J. MorganとB. E. WarrenがJournal of Chemical Physics, 6, 666 (1938)に発表したものである。それによると第一隣接距離は、1.5℃で2.88Å、83℃では3.00Åより少し大きいところまで変化する。

(原子間力顕微鏡で固体表面の水の水和層を検出した画像を初めて見たときは驚いたものだが、X線回折でも水和層を検出できるかもしれない。と思って調べてみたら、X線回折X線CTR)による測定結果が2004年に報告されている。あらためて原子間力顕微鏡と表面X線CTRを比較すると、後者は測定精度が高く(観測している分子数は10^12~15レベル)、前者は局所情報(観測している分子数は10^2~3レベル)がわかるという違いがある。AFMの測定精度の向上が望まれるところである。とはいえ、第一原理計算や分子動力学(第一原理計算を含む)による計算精度が上がっており、かつ、機械学習の導入によって計算時間も短縮されているので、測定精度を追及することの意味について考える必要があるように思われる。とはいえ、やはり、科学することの根本は観測することにあるので、さらなる空間分解能の向上とノイズの低減が進むことによる新たな発見に期待したいと思う。タンパク質の水和構造についてもX線回折による重要な研究があるが、計算でどこまで明らかになっているのだろうか。ちょっと調べてみた。分子動力学によるシミュレーションは不可欠であるが、計測においても、X線テラヘルツ、NMRなど種々の計測技術を駆使しているようである。シミュレーション技術が進むとスペクトルの小さな差異についても解析可能になり、計算と計測の相乗効果でさらに前進しているように見える。現在活発に研究されている領域のようである。)

11章 原子構造と放射能

7節 放射能

マリ・キュリーがピエール・キュリーの論文集の序文に書いた文章が紹介されている。その一部を以下に示す。

ピエール・キュリーにとって、科学は必要欠くべからざるものであり、かれは科学こそ純粋かつ高尚なものと考えていた。経歴とか成功とか名誉とか栄光とかいうような、仕事に無関係なものはなんでもかれの考えに混ざり込んでくることを承知しなかった。かれは一つの問題を考え、時間と労力を惜しまずその解を追求し、少しずつそれを孵化し、ついで精密に育てあげ、最後に正確な結果の仕事に実らせて問題を実際に進めて行くことで一杯だったのである。かれはたえず広い範囲の科学的考えで頭が占められていたけれども、どの仕事をするに当っても同じように良心的な注意をし、どんな実際的なことがらも努力するに値しないとは考えなかったし、また結果の華麗さや生ずる影響を目的とはしなかった。

(科学的知識の不足あるいは欠如は科学的検討や考察が不十分になる原因であり、研究を推進することを妨げる要因となっているが、たいていは、不十分なままで放置されている。物理化学の教科書を前にすると、自分の知識がどれくらい不十分であるかがよくわかる。今、十分に理解できていることなどほとんどないことに気付かされて落ち込んでいる。少しずつ、知識を増やし、理解できる範囲を拡げていこう。)

1章 物理化学的な系の記述

実験とは物理的世界の計画的な観測である。

理論とは観測されるものを理想的なものに関係づけようとすることである。

この宇宙の究極の性質についての研究を掘り下げてゆくと、”説明”とか”理解”といったことばに付随する意味が次第に変わってくる。もともとこれらのことばは奇妙なことをありふれたことで表現しようとすることであるが、現在のところ科学的説明は比較的耳慣れたことを目新しいことばで記述しようとする傾向の方が強い。たとえば光を光子で、物質を波動で、といった具合である。それでも、理解しようと努める際には、理論の数学的背後に、過程の”物理的な像を描いてみる”ことは重要であると考えられる。

6節 物質の熱的性質

純粋の気体または液体状態を規定するためには、まず物質の質量mを規定すればよい。それからさらに三つの変数があるが、そのうち任意の二つが規定されればよい。これらの三つの変数は圧力P、容積V、および温度θであり、このうち任意の二つを指定すると第三の変数は規定される。これら変数の間には互いに関係があるからである。

温度θを物理的量として用いる前に、温度が定量的にどのようにして測定されるかを考える必要がある。温度という概念は暑さ、寒さの感覚から発展したものである。これらの知覚は液体の容積変化をもとにした温度計(thermometer)の読みに関連づけられることがわかったのである。

1631年にフランスの医者 Jean Rey は患者の熱病の進行を調べるためガラス球とガラス管の一部に水を入れたものを用いた。・・・。2個の定点を用いて目盛をつけることは、1688年 Dalenceによって行われた。かれは雪の融点を-10°、バターの融点を+10°と選んだのである。1694年、Renaldiは上の方の定点として水の沸点を下の定点として氷の融点をとった。これらの定点を正確に規定するためには、圧力は1気圧に保たれ氷と平衡にある水は空気で飽和しているという条件をつけ加えねばならない。これら2点へ0°と100°という数値を与えることを初めて提案したのは1710年スウエーデン人の Elviusであった。この2つの温度は百分度の目盛を定義するもので、同じような系を用いたスウエーデンの天文学者の名をとって公式には Cellcius(摂氏)温度目盛りと呼ばれる。

(温度の話題になると、最初に思うのは絶対零度-273.15℃であり、Heike Kamerlingh Onnesが発見した超電導現象である。Wikipediaによると、「1882年、ライデン大学実験物理学教授に就任。1894年、酸素、窒素、空気の液化装置を備えた低温物理学研究所を同大学に設立した。1908年、ヘリウムの液化に初めて成功。カール・フォン・リンデらが開発した冷却機と3重構造の魔法瓶を用い、外側から順に液体空気、液体水素を入れて温度を下げ、最終段階はジュール=トムソン効果によって0.9Kという低温を達成し、ヘリウムの液化を実現した。これが、当時の世界一の低温となった。オリジナルの装置はライデンの Boerhaave Museum にある。1911年に純金属(水銀、スズ、鉛)を冷却し、超低温での電気的性質の分析を行った。ウィリアム・トムソン(ケルビン卿)らは、絶対零度では電気伝導体の電子が流れなくなる、つまり金属の比抵抗が無限大になると信じていた。一方オネスらは温度が低くなるに従って電気抵抗が小さくなり、絶対零度では0になると考えていた。これはイギリスのマーティセン (en) が温度が低くなると金属の伝導率が高まり、抵抗値が小さくなると示したことに基づいている[1]。4.2Kで、水銀の電気抵抗が突然消滅した。当初オネスは試料の電極がショートしたと思ったが、その後で現実に電気抵抗がゼロになったのだと気づいた[2]。これが超伝導現象を発見した瞬間だった。オネスは「水銀は新たな状態へと遷移した。この状態の特異な電気的特性から、これを超伝導状態 (superconductive state) とでも呼ぼう」と記している。その後、スズ、鉛などでも超伝導現象が起こることを発見した。また、超伝導状態の物質に磁場を加えると、超伝導が消失することを発見した。なお、オネスは元々 "superconductivity" ではなく "supraconductivity" という語を使っていた。低温物理学への貢献により、1912年にランフォード・メダル、1913年にはノーベル物理学賞が授与された。」273.15℃は絶対零度と呼ばれているがどのような状態なのか。と思っていたら、教科書に書かれていることがわかった。)

6章 熱力学と化学平衡

13節 絶対零度への接近

低温をつくり出したり用いたりする科学を低温科学(crypgenics)とよぶ。絶対零度に数度以内といった温度で初めてある著しい物質の性質が現われてくる。すなわち、金属の超電導とか超流体ヘリウムへの転移などがそうである。Tが0°Kに近づく際の物質のエントロピー極限値は(6・22)式の定数S0(下付き0)である。まず極低温を実現するのに用いられる方法を考察し、それからこの温度領域でエントロピーがどうなるか調べてみよう。・・・。

(ジュール・トムソン効果とLinde法により、0.84°Kに到達した。さらに温度を下げるためには、断熱消磁法(adiabatic demagnetization method)が必要であった。断熱消磁法は、1926年にWilliam GiauqueとPeter Debyeによって独立に提案されたとのこと。)

(今読むと、この教科書は、非常に良く書かれていて、示唆に富み、刺激に満ち溢れているように思うのだが、当時の自分は、おそらく、無感動で試験勉強のために目を通していただけだったのだろうと思ってしまう。試験勉強=短時間に試験に出る事項のみ記憶しようとしていた。言い訳に過ぎないが、時間はあっても、わからないところを調べる手段が限られ、図書館で調べ物をすると非常に長い時間がかかった。文献検索するのがたいへんだったし、文献が見つかってもコピーが制限されていた。そんなこと言うと、コピー機すらなかった時代の学生に笑われるかな。)

(10月1日から、仕事に復帰する。半年か1年ごとの契約なので、いつまで続けられるかわからないし、どのような仕事が待っているのかもまだわからないが、研究者を志していた頃の自分を取り戻して、研鑽を積んで、良い仕事をしたいなと思っている。)

8章 化学反応速度論

1節 化学変化の速度

最初の明確な定量的研究は1850年にL. Wilhelmyによってなされた。かれは酸の水溶液中におけるショ糖の転化について、偏光計を用いて研究した。

H2O + C12H22O11(ショ糖) → C6H12O6(ブドウ糖) + C6H12O6(果糖)

(酸が反応式に現れない:酸はそれ自身消費されずに反応速度を増大する触媒として作用する)

2節 反応速度の測定法

・・・。したがって最良の分析法は、事実上連続的で、しかも反応混合物から次々と試料を取り出さなくてよい方法である。それにはそれぞれの場合に応じた物理的性質が利用される。Wilhelmyが用いた旋光能の測定は一つの適切な例である。他の物理的方法として次のようなものがある。

1) 吸収スペクトルおよび比色分析

2) 誘電率の測定

3) 屈折率の測定

4) 反応による容積変化を測定する膨張計(dilatometer)法

(化学反応をリアルタイムで追跡している。in sutu, operandですな。)

3節 反応の次数

反応の次数は速度式における濃度のべき乗の和として定義される。たとえば、五酸化窒素の分解、2N2O5 ---> 4NO2 + O2は速度式 -d[N2O5]/dt = k1[N2O5]に従うことがわかっているから、これは1次反応(first-order reaction)である。二酸化窒素の分解、2NO2 ---> 2NO + O2は式 -d[NO2]/dt = k2[NO2]^2に従う。これは2次反応(second-order reaction)である。・・・。化学量論的な反応式の形と反応次数との間には必然的な関係は無い。

4節 反応の分子数

10章 電池

22節 濃淡分極

電池が不可逆的な条件のもとで働く際そのemfは当然平衡値からずれたものになる。電池が蓄電池すなわち電源として用いられる場合、電圧は平衡値以下に降下する。また電池内で電解を起こす場合に加えられるべき電圧はこの電池の平衡値以上のものでなければならない。

この電圧の平衡値との差は一部電池内の抵抗に打ち勝つためにも必要であって、これは積 IR に等しくなる。したがって電気エネルギーRI^2が熱として散逸する。これは不可逆的力学過程における摩擦損失に類似のものである。

このほか、電圧の差を生ずる原因はなお二つのものが普通考えられる。その一つは電池の電解質に起因するものであり、他の一つは電極における速度過程に関連するものである。前者は濃淡分極(concentration polarization)、後者は過電圧(over potential)とよばれる。

濃淡分極とは、その名称が示すように、働いている電池の電解質中に現れる濃度勾配によって生ずる。たとえば、銅陽極と白金陰極を硫酸銅溶液に浸した電極を考えよう。この電池に電流が流れると銅は陽極から溶出し陰極に析出する。電流がいくらか流れると電極付近の溶液中にはいくぶん銅イオンが減少することになり、電池内に濃度勾配ができる。このような濃度勾配ができれば10章16節で議論した濃淡電池と同じことになり、この濃淡電池が外部からの電圧に対抗する逆emfを与えるものと考えられる。この種の濃淡分極は、電解質をはげしくかきまぜて電解質によってつくられる濃度勾配をなくしてやれば実際に除去できることが多い。また温度を上昇させて電池内の電解質イオンの拡散を促進してもこの分極を減少させることができる。

(ここまでは定性的説明であり、文章を読めば分かったような気になるが、電池を組み上げて性能を出すためには定量的な取り扱いができるようにしておく必要がある。そのためには、9章の電気化学:電気伝導度とイオン反応、の知識が必要になる。濃淡電池の電位差であればFickの法則、・・・。)

23節 過電圧

過電圧(overvoltage)の現象の原因は、電極における平衡の達成の遅いこと、すなわち、電極と溶液内イオンとの電子の授受のいずれかが遅いことにある。すなわち反応が進行するには活性化自由エネルギーが必要で、外部から加えた余分の電圧がこの自由エネルギーを供給するのである。この現象はたいていの電極反応に見られるが、金属電極で金属の析出または熔解が起こる場合は通常小さいものである。特に気体の水素または酸素を発生させる場合に必要な過電圧はきわめて大きく、1V、またはある金属ではそれ以上にも達することがある。

 

***毎日、継続する予定***

***時間のある時に、ほんの少しずつ***

 

10月16日(土)

14章 分子構造と分子スペクトル

14節 核磁気共鳴

核スピン I をもつ核を磁場におけば空間量子化が起こる。すなわち磁場のまわりを磁気モーメントベクトルが歳差運動をして、磁場の方向の成分は次の値しかとることはできない。µ mngnβn ここでmn = I, I-1, I-2, …-I である。磁場におくと、異なったmnの値の状態が少しづつ異なったエネルギーをもつことになる。

・・・・・・・・・・。

この振動数は磁場の方向のまわりの磁気モーメントの古典的 Larmor の歳差運動のものと同じである。磁場においた種々の核スピン成分のエネルギー準位間の遷移を検出しようとした初期の試みは不成功に終わったが、1946年 E. M. Purcell と Felix Bloch は独立に核磁気共鳴(nuclear magnetic resonance, NMR)の方法を発展させた。

(テキストには、l = 4 の場合の空間量子化の模式図と、基本的な核磁気共鳴実験に用いる簡単な装置の模式図が描かれている。ここに書いている断片的な文字情報からでは、とても理解できるものではないと思う。)

磁石の磁場 H0 は0から10000 gaussまで変えられる。この磁場は空間量子化の結果、核エネルギー準位の等間隔の分離を引き起こす。そこへたとえば60 Mcの低出力のラジオ波を送信器から発信させる。すると小さな振動磁場ができて試料に作用する。この振動磁場の振動数が2準位間の遷移の振動数に等しいときには、共鳴してエネルギー準位間の遷移を生ずる。そのような遷移が試料中で起これば、磁場中の合成振動は受信コイルに電圧振動を引き起こし、この振動が増幅され検出される。図に示した装置では大きな磁石の磁場と送信器のラジオ周波数を固定し、大きな磁石の場に小さな可変場を連続的に加えていって共鳴を起こさせるようになっている。

(ここでテキストにはエタノールの低分解能NMRスペクトルと高分解能NMRスペクトルが示されている。)

・・・・・・・・・・。

送信器の振動場の振動数が、強い外部場のもとにある核磁石の歳差運動の自然の振動数に等しいときには、振動場からエネルギーが吸収される。いいかえるとマイクロ波の量子が吸収され核磁気量子数 mn が1単位増すのである。しかし振動場から連続吸収するには、核磁石がこのエネルギーを失って励起状態から基底状態へ帰り、またエネルギー吸収して他の量子飛躍に参加するというある有効な機構がなくてはならない。

ここで共鳴効果はエネルギーの正味の吸収を測るものであることを言っておく必要がある(すなわち低い状態から高い状態に移る際吸収するエネルギーと高い状態から低い状態に移る際放出するエネルギーとの差)。低い状態には多くの系があり(ボルツマン因子に従って)、正味のエネルギー吸収が起こるのである。

系が低い状態に戻るのは、スペクトルを放出することによるだけではなく、緩和過程とよばれるいろいろな無放射機構によっても起こる。このような緩和過程が存在しないと、下の状態にいる方が上の状態にいるより少ないような熱平衡を維持する方法がないから、核磁気共鳴は実際には不可能になるだろう。

緩和機構には次の2種類のものがある。その一つは外部場の方向の核磁化がその平衡値に達しようとする緩和であって、縦の緩和(longitudinal relaxiation)とよばれる。これは緩和速度が上の状態にある核の数の(平衡値からの)ずれの1乗に比例するから、1次反応式に従う。ここで速度定数の逆数は縦緩和時間 T1 とよばれる。この過程はまたスピン-格子緩和ともよばれ、配向した核のまわりの物体中のいろいろな変動する局所場によるものである。多くの機構の一例として、常磁性イオンが水に付着すると、イオンの不対電子の強い磁場のため陽子の緩和時間 T1 が非常に減少することが見出されている。

第2番目の緩和過程は横の緩和(transverse relaxation)( T2 )とよばれる。場の方向のまわりを歳差運動している核が互いに同一位相にあると、磁場の軸 Z に垂直な XY 面に磁気モーメントの正味の成分が残ることになる。したがってこの位相を破壊するような何らかの場があると、磁気モーメントの XY 成分の緩和を起こすことになろう。このような過程の1つはスピン-スピン緩和であって、スピンの高い状態の核がスピンを交換して隣の原子核へエネルギーを移すのである。

 

10月17日(日)

NMRの感度が気になって調べている。

化学と教育61巻6号(2013年)296-299:田代 充, NMRの基礎:観測できる原子核とできない原子核、観測しやすい原子核としにくい原子核

共鳴周波数が大きいほどNMR観測における測定感度が高い。実際の試料では天然存在比も感度に影響する。と書かれている。

相対感度は、炭素13を1.00とすると、プロトンは5.7x10^3となっている。フッ素19は、4.7x10^3、リン31は3.8x10^2、窒素14は、5.7である。

(感度は、共鳴周波数の3乗に比例する。)

 

 

 

f:id:AI_ML_DL:20210929195111p:plain

style=175 iteration=500

 

「Biological network analysis with deep learning」を読む

Biological network analysis with deep learning, G. Muzio et al., Briefings in Bioinformatics, 22(2),1515–1530 (2021)

この論文を読んでみよう。

Abstract Recent advancements in experimental high-throughput technologies have expanded the availability and quantity of molecular data in biology. Given the importance of interactions in biological processes, such as the interactions between proteins or the bonds within a chemical compound,this data is often represented in the form of a biological network. The rise of this data has created a need for new computational tools to analyze networks. One major trend in the field is to use deep learning for this goal and, more specifically, to use methods that work with networks, the so-called graph neural networks (GNNs). In this article, we describe biological networks and review the principles and underlying algorithms of GNNs.Wethen discuss domains in bioinformatics in which graph neural networks are frequently being applied at the moment,such as protein function prediction, protein–protein interaction prediction and in silico drug discovery and development. Finally, we highlight application areas such as gene regulatory networks and disease diagnosis where deep learning is emerging as a new tool to answer classic questions like gene interaction prediction and automatic disease prediction from data.

実験的なハイスループット技術の最近の進歩により、生物学における分子データの利用可能性と量が拡大しました。タンパク質間の相互作用や化合物内の結合など、生物学的プロセスにおける相互作用の重要性を考えると、このデータは生物学的ネットワークの形で表されることがよくあります。このデータの台頭により、ネットワークを分析するための新しい計算ツールが必要になりました。この分野の主要な傾向の1つは、この目標にディープラーニングを使用することです。具体的には、ネットワークで機能する方法、いわゆるグラフニューラルネットワーク(GNN)を使用することです。この記事では、生物学的ネットワークについて説明し、GNNの原理と基礎となるアルゴリズムを確認します。次に、タンパク質機能予測、タンパク質間相互作用予測、インシリコなど、グラフニューラルネットワークが現在頻繁に適用されているバイオインフォマティクスドメインについて説明します。創薬と開発。最後に、遺伝子調節ネットワークや疾患診断など、遺伝子相互作用の予測やデータからの自動疾患予測などの古典的な質問に答えるための新しいツールとしてディープラーニングが登場しているアプリケーション分野に焦点を当てます。by Google翻訳

f:id:AI_ML_DL:20210921155803p:plain

f:id:AI_ML_DL:20210921155853p:plain

難しいな、とりあえず、保留!

 

f:id:AI_ML_DL:20210920231436p:plain

style=174 iteration=500

 

「表面と真空」の特集「データ駆動科学による表面・真空科学研究の新展開」を読む(9月18-20日)

特集「データ駆動科学による表面・真空科学研究の新展開」を読む

 

さまざまな用語が飛び交っていて、それぞれの定義と相互の関係性が気になるのだが、これは、たぶん、時間とともに変化しているように思うので、追求しないでおこう。

特集のタイトルにある「データ駆動科学」が意味するものが何であるかは、具体的にイメージできるようにしておくことが必要だと思うので、どのように定義されているのかを、調べてみよう。

表面科学会のデータ駆動表面科学研究部会のHPでは、次のような定義が掲載されている。

データ駆動科学とは、科学技術分野におけるビックデータの中から本質的に重要な要素を抜き出し、そこから法則や機能を抽出する学術領域です。

残念なことに、当該研究会のHPは、2018年1月のセミナー開催案内を最後に、更新されていない。

 

藤田大介表面科学における計測インフォマティクス~歴史的展開と将来展望~

総合報告ということで俯瞰的な記述が多い。具体例はオージェスペクトルの解析であるが、そこには「データ駆動科学」の構成要素の主体であるビッグデータの要素が含まれていないように思われる。具体例を学びたいと思っているので、これ以上言及しないことにする。

 

清原慎, 溝口照康:機械学習を用いた物質界面構造の高速決定

著者らが2016年から2018年にかけて発表した6件の論文を解説したもののようである。

最初のパラグラフを転載すれば、物質界面構造の意味が少し明確になると思う。

 実用材料の多くは単結晶の集合体である多結晶体であり、その内部には点欠陥(空孔)、線欠陥(転移)、面欠陥(界面、表面)といった格子欠陥を無数に内包している。格子欠陥はバルクとは異なる元素や原子配列で構成されるため、機械的・機能的物性に大きな影響を与えることが知られている。本研究の対象である粒界は結晶粒の相対的な方位差から生じる面欠陥であり、多結晶体の破壊挙動やイオン伝導に多大な影響を与える。このような格子欠陥における機能発現メカニズムを理解するためには、格子欠陥の原子構造を明らかにし、その特異的な構造と物性との相関性を理解する必要がある。

(白金ナノ粒子の触媒特性も、これらの欠陥の種類と構造によって、大きく異なるのかもしれないと思うと、こういう分野を理解しておくことは非常に重要ではないかと思う。ナノ粒子の調製の方法や条件によって生じる触媒特性の違いは、ナノ粒子表面の欠陥だけでなく、内部に存在する欠陥も関与しているかもしれない。ナノ粒子の3次元原子配列が、ナノ粒子の製造方法によってどう違うのかを知りたいものだ。計算機の中で合成し、3次元構造を出力し、触媒特性も出力できるようにしたいものだ。)

2.仮想スクリーニングによる界面構造決定

 仮想スクリーニングでは、まず手元にあるデータベースから機械学習により予測モデルを構築し、その予測モデルをもとに探索空間全体の数値や物性を予測する。観測データがない領域に関しても予測モデルをもとに「仮想的」に物性値や性能を知ることができる。つまりすべての計算や実験等を行わなくとも所望の値をもつ点(条件)を予測することが可能となる。我々はこの手法を粒界構造決定に利用した。

(仮想スクリーニング:バーチャルスクリーニング:virtual screening:2014年の人工知能学会論文誌において岡田正人らが、「機械学習による創薬支援のための高精度バーチャルスクリーニング法の開発」を発表している。)

次のパラグラフも転載しておこう。

 本手法の模式図をFig. 3に示す。予測モデルを構築するために、いくつかの粒界(Fig. 3のΣGB1, ΣGB2)に関しはɤ-sueface法により構造緩和計算を行う。続いて計算前の構造情報(原子間距離や密度など)と界面エネルギー(Fig. 3のE1,1~E2,j)の関係を機械学習によりモデル化して予測モデルを構築する。一度この予測モデルが得られれば、計算前の構造情報のみから粒界エネルギーを予測することができ、第一原理計算やMD計算を大幅に省略することができる。最後に、最小のエネルギーを与える候補構造のみに関して第一原理計算やMD計算等を行うことで正確な粒界構造を得ることができる。

f:id:AI_ML_DL:20210918164617p:plain

このへんにしておこう。論旨明快で、非常に参考になる。

 

田原寛之、ルドルフ ジェイソン クアリア、林智弘:データ駆動的抗タンパク質吸着・抗細胞接着表面設計:情報科学を用いたバイオマテリアルデザインへの挑戦

4.1 タンパク質吸着・細胞接着のプラットフォームとしての自己組織化単分子膜(SAMs)

 自己組織化単分子膜(Self-assembled monolayers : SAMs)(Fig. 2)は非常に高秩序な構造を固体表面上で形成し、真空中のみならず、空気中、水中でもその構造を安定して保持する。さらに、SAMsを構成する分子の末端基を選択することにより、表面の電荷、極性を改変でき、水への濡れ性などの物性を簡便に制御可能である。そのため、1990年代からSAMsはタンパク質・細胞接着実験のプラットフォームとして用いられ、タンパク質吸着・細胞接着に関する論文は300報以上にのぼる。我々はこれらの論文の中から、SAMへの fibrinogen(血液凝固に関わる血中タンパク質、様々な材料表面に吸着しやすい性質をもつ)について解析した150報程度の論文のデータを基に、約200種類のSAMsに関して、SAMsを構成する分子構造、水の静的接触角、fibrinogen の吸着量を含むデータベースを作成した。

4.2 SAMsを構成する分子の記述、機械学習の詳細

 有機分子の構造記述、枝分かれ構造などを記述する記述方法が存在するが、SAMsを構成する分子は直鎖構造をもつことから、ここでは単純に分子構造を元素数(水素、炭素、窒素、硫黄(酸素?))、総原子数、化学結合数(C-C, C-0, C-H, O-H, C=O, C-N, N-H)という記述子でパラメータ化した。

 本研究では人工ニューラルネットワークモデル(Artificial neural network : ANN)による機械学習を用いて、SAMsを構成する分子の構造と水の接触角などの基礎材料物性、さらにはタンパク質吸着、細胞接着との相関に関しても解析した(Fig. 3)。ここでは入力層、隠れ層、出力層の要素が、異なる強度(重み・バイアス)で結合し、入力信号から出力信号を計算するシステムである。また、化学構造(入力データ)と材料特性(出力データ)を含むデータベースを用いて機械学習を行った。本研究ではWEKA, Matlab, Python,プラットフォームでのscikit-learnライブラリなどを用いて行った。

f:id:AI_ML_DL:20210918210218p:plain

(著者らの機械学習の導入は、自然な流れのように見える。先に解くべき課題があって、その課題を解決するための研究成果・知識の蓄積(ビッグデータの元)があった。そこに、研究を推し進めるための道具として、新たに機械学習が加わった。数ある機械学習の手法をどれだけ試したのか、この論文に書かれていないのでわからないが、ANNを、最もシンプルな形で用いたことが、課題にマッチしたように見える。課題にマッチするようにANNを選び、デザインしたということかもしれない。)

4.3 効率的にビッグデータを取得するためのプラットフォーム

 前述のように、一般的なバイオマテリアルの評価項目である、水の接触角、タンパク質吸着、細胞接着に関しては、計算科学の手法を応用することは難しいことから、研究者が自ら、データを作成する必要がある。本研究では、効率的に表面の元素組成・分子組成と生体分子・細胞応答のデータを取得するために、基板の場所によって、SAMsを構成する分子の比率が連続的に変化する基板(傾斜基板)(Fig. 4)を用いた。傾斜基板をを構成する分子としてメチル基、ヒドロキシル基、アミノ基、カルボキシル基、オリゴエチレングリコール基のうち2種類を組み合わせて(総組み合わせ数は10)、それぞれに対し、水の静的接触角、fibrinogen吸着実験、血小板接着実験を行った。

 本研究では過去の文献データを用いて作成したデータベース、筆者らの実験データのみによるデータベースの2種類のデータベースを機械学習に用いた。

4.4 分子の化学構造からの様々な物性、生体分子・細胞との相互作用の予測

(吸着したibrinogenの量の予測精度が最も高く、その次が接触角で、最後に血小板接着密度となっている。吸着したfibrinogenの量と接触角は、文献から作成したデータベースよりも著者らの実験により作成したデータベースの方が圧倒的に精度が高い。文献ごとに実験条件が異なることが原因だろうと述べられている。血小板接着密度は著者らの測定データのみであるが、それでもばらつきは大きいように見える。データ量が少ないために十分学習できていないのか、考慮できていない要因があるのかは不明だが、入力した分子構造情報のみからでも、ある程度予測できている事が重要であって、可能性を感じさせる結果だということであろう。学習には80%のデータを用い、残りの20%のデータを予測に用いている。

(電気陰性度、双極子モーメント、分極率などの物性値を入力データに用いたらどんな結果になるのだろう。いずれにしても非常に興味深い結果である。)

5.生体分子・細胞応答の予測から求める機能を発現する材料の設計へ

ここでは、機械学習による逆問題解法的な材料設計、つまり、求める細胞応答を誘起するような材料設計が可能であるかどうかを議論する。我々はFig. 8に示すように、入力・出力パラメータの一部を交換したANNを構築した。このANNでは入力データに求める細胞応答を記述するパラメータ、出力に構造パラメータ(求めたい化学構造)を設定し、先ほどまでと同じデータベースを用いて機械学習を行った。学習後にANNの入力データとして望まれる材料機能、その他の化学構造パラメータを入力すると、求めたい構造パラメータを得ることができる。筆者らはこの方法で、抗タンパク吸着特性、あるいはタンパク吸着特性を有する単分子膜の設計が可能であることを報告している。つまりこの結果は、適切なデータベースを用いた機械学習によって、逆問題解法的な材料設計が可能であることを示している。

f:id:AI_ML_DL:20210920121846p:plain

分子構造情報から血小板の吸着濃度を予測するモデルを作ることができる。それは、血小板の吸着濃度は、SAMsを構成する分子の構造によって、血小板の吸着濃度が決まるから、その関係を分子構造と吸着濃度のデータセットから学ばせる。
(逆問題とは、たとえば、血小板の吸着濃度から分子構造を予測(提案)するモデルを作ることである。SAMsの分子構造が、血小板の吸着濃度によって決まるのであれば、その関係を、吸着濃度と分子構造のデータセットから学ばせればよい。訓練されたモデルに、吸着濃度を入力すれば、対応する分子構造が出力される。因果関係とか、分子構造とか、吸着性が何であるかは、ANNモデルが感知するところではない。吸着濃度が小さいときの組成と分子構造、吸着濃度が中くらいのときの組成と分子構造、吸着濃度が大きいときの組成と分子構造は異なっている筈で、それは、データセットとして与えて残差が最小になるまでANNモデルを訓練すれば、その関係をANNモデルは、最終的な重みとバイアスの組み合わせとして保持する。そのモデルに所望の吸着濃度を入力すれば、対応する組成と分子構造のセットが出力されるように設計しているのであろう。順方向と逆方向(逆問題に相当)とでは、逆方向は予測精度は下がると思うが、予測精度は、ANNの層数、ノード数、活性化価数、損失関数などの、いわゆるハイパーパラメータによって変わってくる。さらに、著者らが「逆問題解法的」と称しているFig. 8のモデルでは、入力データとしてchemicalparameter, material property, cell responce, が列挙されており、入力側と出力側の両方に化学構造情報が与えられているようにみえるので、これだけでは、何をやっているのかを正確に把握することはできない。)

 

この特集にはあと3件の論文があり、なかでも、「パーシステントホモロジーを用いた迷路状磁区構造におけるトポロジカル欠陥の可視化」が面白そうなのだが、今回はここまでにしておく。

 

f:id:AI_ML_DL:20210917000417p:plain

style=173 iteration=500

 

グラファイト系材料とナノ粒子のXPSスペクトル(2021年9月14-16日)

Pt/CのXPSによる分析・評価・解析の記事を読んでいて、気になったことがある。

1.グラファイト系材料のXPSスペクトルの正しい解析方法がわからない。(解析方法が間違っているのではないかと思われる論文が複数認められた。)

2.ナノ粒子のXPSスペクトルは、粒径によってピーク位置が高エネルギーシフトすることと、基板との相互作用によってもピークシフトする可能性があるために、両者を切り分けて解析しなければならないが、どうすれば良いのか。

 

グラファイト系材料のXPSスペクトルの解析における問題点

XPSスペクトルに含まれる情報を正しく把握することによって、材料の特性との関係をより正しく把握することができる。燃料電池の酸素還元触媒の性能に大きく関与している炭素材料であるが、動作中には電子輸送経路としての役割があり、電子密度や電子伝導性はC 1sスペクトルの高エネルギー側のテールの大きさと相関があるので、触媒の初期状態だけでなく、C 1sスペクトルの高エネルギー側のテールが、信頼性試験の評価指標の1つとして使えるのではないかと考えている。

導電性が高いグラファイト系材料は、1sの結合エネルギーが284.2 eV付近にあり、スペクトルの形状は非対称で、高エネルギー側にテールがある。(テールは伝導電子のシェイクオフやプラズモンやπ電子のシェイクアップによって生じている:個人的見解)

グラファイト系材料と言わずに、個々の物質名を示してみよう。これらを正しく識別できることから始めなければならないくらい、複雑に絡み合っているところがある。触媒粒子を担持することによってこれらの材料はなんらかの変化をしているはずであり、触媒として動作させればさらに変化するはずである。

高配向熱分解グラファイトHOPG、炭素繊維グラファイト黒鉛)、ケッチェンブラック、グラッシーカーボン、グラフェン、多層グラフェン(薄膜グラファイト)、粉末グラフェンナノチューブ、多層ナノチューブフラーレン、ダイヤモンドライクカーボン(無定形炭素)、・・・。

ナノチューブは導電性の程度によってテールが異なる。フラーレンは集合状態によってシェイクアップサテライトが異なる。電子密度やプラズモン密度等が異なれば、テールの形状は異なる。

以下に、グラファイト系物質のC 1sスペクトルの例を示す。最初に示す文献では、サテライトを正しく解析評価するための方法が詳細に説明されている。

以下のスペクトルは、炭素100%の材料である。あくまでもスタート時点の材料の特性がC 1sスペクトルに反映されたものである。

触媒を担持すればどう変化するか、触媒として作用させればどう変化するか、耐久性試験中にどう変化するか、調べることができれば、正しく解析すれば有用な情報が得られると思われるが、酸素やフッ素など様々な元素が共存することになるので、サテライトピークに、ケミカルシフトが重なって、解析は困難を極めることになるかもしれないが、少なくとも正しく解析する方法を知らないことによって、誤った解釈につながってしまうことだけは避けたいものである。サーベイ(ワイド)スペクトルは必須であり、ナロースペクトルはサテライトを含むこととバックグラウンドを正しく差し引くに十分な領域を含むことが重要である。

 

Practical guides for x-ray photoelectron spectroscopy (XPS): Interpreting the carbon 1s spectrum, T. R. Gengenbach et al., J. Vac. Sci. Technol. A 39, 013204 (2021)

f:id:AI_ML_DL:20210914233003p:plain

f:id:AI_ML_DL:20210914233052p:plain

f:id:AI_ML_DL:20210914234128p:plain


C ore-level XPS spectra of fullerene, highly oriented pyrolitic graphite, and glassy carbon
J.A. Leiroa et al., Journal of Electron Spectroscopy and Related Phenomena 128 (2003) 205–213

f:id:AI_ML_DL:20210914233708p:plain


次は、ナノ粒子のXPSスペクトルの例

まず、粒径によって光電子スペクトルのエネルギーが変化することを知らなかった。(忘れてしまっていただけかもしれない。)

Size dependence of core and valence binding energies in Pd nanoparticles: Interplay of quantum confinement and coordination reduction, I. Aruna et al., JOURNAL OF APPLIED PHYSICS 104, 064308 2008

TEMによる形状観察:カーボンコートした300メッシュのTEM用グリッドに直接蒸着により形成:

f:id:AI_ML_DL:20210915121738p:plain

このTEM像から、Pdの平均粒径は、6 nm, 11 nm, 20 nmと見積もられた。Pd粒子が孤立しておらず、下地が殆ど見えなくなるくらいまで隙間なく埋め尽くされているのは、著者らが意図的に行ったことである。

XRDによる結晶性・原子間距離・粒径の評価:ガラス基板上に形成

f:id:AI_ML_DL:20210915122134p:plain

回折角2θが粒径が小さいほど大きくなっていることに着目し、格子パラメータが計算されている、大きい方の粒子からそれぞれ3.906, 3.900, 3.894となっている。同様の現象はAu, Ni, Sn, Biなどのナノ粒子でも認められているとのことである。

Auのナノ粒子では、バルクの格子定数に対して、4 nmでは0.7%, 1.6 nmでは1.4%、格子定数が小さくなっていることが報告されている。
格子の有効ひずみ η をWilliamson Hallの式を用いて評価すると(上に示したFig.2(b))試料N1の有効ひずみが最も大きいことがわかった。

この格子ひずみは、光電子ピークのエネルギーシフトの原因となっている可能性がある(引用文献9)。

XPSスペクトルによる結合エネルギーの評価:ドープしたSiウエハを基板に用いることでチャージアップを抑制:エネルギーシフトと粒径の関係を調査:

f:id:AI_ML_DL:20210915135230p:plain

このN1, N2, N3に対するサーベイスペクトルには、Pdに起因するスペクトルしか検出されていない。基板に用いたSiも検出されていない。Siが全く検出されていないのは検証が必要だが、N1は平均粒径が6 nmということなので、粒子の境界付近はもっと薄いはずで、そうすると、非弾性散乱を受けずに透過してくるSi 2s, Si 2pなどの光電子が、検出されてもよさそうに思うのだが、・・・。

ようやく、Pd 3dとPd 4dのナロースペクトル:

f:id:AI_ML_DL:20210915145123p:plain

粒径が20 nm, 11 nm, 6 nmと小さくなるほど、結合エネルギーは高エネルギー側にシフトしている。同様な現象は、Au, Ag, Ni, Cuナノ粒子についても報告されている。

さらに、そのシフト量は、粒径の20 nm, 11 nm, 6 nmに対して、Pd 3dでは、0.1 eV, 0.3 eV, 0.6 eVであるのに対し、Pd 4dでは、0.4 eV, 0.6 eV, 0.7 eVとなっており、内殻の3dよりも価電子の4dの方がシフト量が大きいことがわかった。

他の軌道に対しても調べた結果:

f:id:AI_ML_DL:20210915162319p:plain

これらの結果をlog-logプロットした結果:

f:id:AI_ML_DL:20210915162503p:plain

この結合エネルギーの粒径依存性を、粒径が小さくなり、ひずみが増え、格子定数が小さくなることに対して正の相関がある、量子閉じ込め効果と配位数減少効果の2つの効果に分けて考える。量子閉じ込め効果は粒径の2乗分の1に比例し、配位数減少効果は粒径の逆数に比例することから、粒径がさらに小さくなると、結合エネルギーの変化量は価電子よりも内殻電子の結合エネルギーの方が大きくなる。その逆転が起きる粒径が上に示したFig. 6の縦の点線で示すlog(4.4)=0.64すなわち4.4 nmの粒径である。

それを示したのが次のFig. 7である。

f:id:AI_ML_DL:20210915164308p:plain

図の左側に価電子準位4dのピークのエネルギーシフト、右側に内殻準位3d3/2のピークのエネルギーシフトがプロットされている。

6 nmと4 nmの粒径の間を境にして、4 nmより小さい粒径では、量子閉じ込め効果が優勢になることによって、内殻準位3d3/2のエネルギーシフトの方が、価電子準位4dのエネルギーシフトよりも大きくなっている。

(量子閉じ込め効果と配位数減少効果によって、結合エネルギーがシフトするとのことだが、理解できない。あとで調べてみよう。)

結合エネルギーが高エネルギー側にシフトすることの他に、Pdの価電子と内殻電子スペクトルのFWHMの変化が観測されている。4d価電子帯と4p, 4sの外殻電子のスペクトルのFWHMは減少し、3s, 3p, 3dなどの内殻電子のスペクトルのFWHMは大きくなっている。前者は、粒径が小さくなると配位数が減少することが原因となっている。さらに前者のスペクトルはFWHMの減少とともに、ピーク近傍の形状が丸くなっており、その原因は、長距離秩序の減少によるものと考えられている。内殻電子のスペクトルのFWHMが粒径減少によって大きくなるのは、表面原子の割合の増加によって、フェルミレベル近傍における局在非占有d状態の増加が関係しているようである。

それぞれの原因について正しく理解するには、現論文にあたる必要がある。

ナノ粒子のサイズ効果でスペクトルのエネルギーもFWHMも変化するということだけは覚えておこう。

 

量子閉じ込め効果と配位数減少の物理化学的意味を理解しよう。

An extended ‘quantum confinement’ theory: surface-coordination imperfection modifies the entire band structure of a nanosolid, Chang Q Sun et al., J. Phys. D: Appl. Phys. 34 (2001) 3470–3479

次の図は、配位数CNと結合距離Ciとの関係:原子の配位数CNが12の場合、最表面原子層の真空側の結合手の4つに対しては相手原子が存在しないので配位数CNは8となり、配位数の減少によって、結合距離(最表面層との距離)が約3%収縮する、ということになる。ナノ粒子のサイズが小さくなるほど表面原子の割合が増加するので、配位数の減少の割合が大きくなり、平均結合距離は短くなる。この現象は低エネルギー電子回折や低エネルギーイオン散乱、さらには収差補正電子顕微鏡観察などによって定量的に観察されている。

f:id:AI_ML_DL:20210916231105p:plain

XPSについても原理的なところをもっと深く理解する必要がある。

The interpretation of XPS spectra: Insights into materials properties
P. S.Bagus et al., Surface ScienceReports68(2013)273–304

30ページくらいあることと、内容が深くて、わかりやすく表現するには時間が足りないので、これで終了する。

 

f:id:AI_ML_DL:20210914094200p:plain

style=172 iteration=500



 

燃料電池と機械学習(Ⅱ)(fuel cell and machine learning part 2):2021年9月

燃料電池機械学習(Ⅱ)(fuel cell and machine learning part 2):2021年9月

"deep learning fuel cell"で検索した文献をランダムに読んでみる。⇒ 白金電極上の酸素の還元反応のメカニズムを原子レベルで解明するために必要な、反応中間体の吸着エネルギーや自由エネルギーの計算精度を上げるために、吸着物化学環境ベースグラフコンボリューションニューラルネットワークが考え出され、その計算結果を基に反応機構を解明しようとしている論文を読む。

 

9月1日(水)

Physics-constrained deep learning for data assimilation of subsurface transport
Haiyi Wu and Rui Qiao,  Energy and AI 3 (2021) 100044

a b s t r a c t Data assimilation of subsurface transport is important in many energy and environmental applications, but its solution is typically challenging. In this work, we build physics-constrained deep learning models to predict the full-scale hydraulic conductivity, hydraulic head, and concentration fields in porous media from sparse measure- ment of these observables. The model is developed based on convolutional neural networks with the encoding- decoding process. The model is trained by minimizing a loss function that incorporates residuals of governing equations of subsurface transport instead of using labeled data. Once trained, the model predicts the unknown conductivity, hydraulic head, and concentration fields with an average relative error < 10% when the data of these observables is available at 12.2% of the grid points in the porous media. The model has a robust predictive performance for porous media with different conductivities and transport under different Péclet number (0.5 < Pe < 500). We also quantify the predictive uncertainty of the model and evaluate the reliability of its prediction by incorporating a variational parameter into the model.

データ同化(Data assimilation)は、理論(通常は数値モデルの形式)と観測値を最適に組み合わせようとする数学的分野です。たとえば、システムの最適な状態推定を決定する、数値予測モデルの初期条件を決定する、観測されているシステムの(物理的な)知識を使用してまばらな観測データを補間するなど、さまざまな目標が求められる場合があります。観測データに基づいて数値モデルパラメータをトレーニングします。目標に応じて、さまざまな解決方法を使用できます。データ同化は、分析対象のシステムの動的モデルを利用するという点で、他の形式の機械学習、画像分析、統計的手法とは異なります。by ウイキペディア

ペクレ数(ペクレすう、英: Péclet number、Pe)は、連続体の輸送現象に関する無次元数。この名はフランスの物理学者Jean Claude Eugène Pécletにちなむ。流れによる物理量の移流速度の、適切な勾配により駆動される同じ量の拡散速度に対する比率と定義される。物質移動の文脈では、ペクレ数はレイノルズ数とシュミット数の積である。熱流体の文脈では、熱ペクレ数はレイノルズ数とプラントル数の積に相当する。by ウイキペディア 

 1. Introduction
Heterogeneous porous media are ubiquitous in natural and engineering systems. Determining their transport properties and the transport of fluids and solutes in them are important in many energy applications. For example, in PEM fuel cells, the flow in the gas diffusion layers and mass transfer in the proton-conducting membrane play a key role in controlling their performance and thus must be predicted accurately in cell design [ 1 , 2 ]. In oil recovery, the distribution of permeability in highly heterogeneous oil reservoirs governs oil recovery and predicting oil transport in them is essential for designing oil recovery strategies [ 3 , 4 ]. This is especially true when CO 2 injection is used to enhance oil recovery [ 4 , 5 ]. Classical methods for solving transport in porous media require full knowledge of transport properties of porous media (e.g., hydraulic conductivity) as well as the initial and boundary conditions [6] . It is, however, challenging to obtain highly resolved transport properties of porous media, especially in the presence of high spatial heterogeneity [ 7 , 8 ]. Without such highly resolved data, predicting the transport in porous media is challenging.

Enhanced oil recovery (abbreviated EOR), also called tertiary recovery, is the extraction of crude oil from an oil field that cannot be extracted otherwise. EOR can extract 30% to 60% or more of a reservoir's oil,[1] compared to 20% to 40% using primary and secondary recovery.[2][3] According to the US Department of Energy, carbon dioxide and water are injected along with one of three EOR techniques: thermal injection, gas injection, and chemical injection.[1] More advanced, speculative EOR techniques are sometimes called quaternary recovery.

ナノレベルの空孔中の物質輸送に対して、油田における二酸化炭素注入による油の回収というマクロレベルにおける物質輸送と対比させているとことが面白い。

Data assimilation can be an effective method for predicting full-scale data (e.g., transport properties of porous media and transport behavior in them) from sparse measurements.

Data assimilation is a process that seeks to combine physical theory and observed data to estimate the state of a system or to interpolate sparse observation data using physical theories.

Data assimilation has been used to reconstruct the observed history of atmosphere data [9] and to resolve difficulties of parameter estimation and system identification in hydrologic modeling [10].

However, traditional data assimilation methods for solving the transport in porous media can be computationally expensive because of the high heterogeneity in many porous media and the highly nonlinear equations governing the transport behavior.

ここでDeep Learningの登場!

Deep learning-based methods can potentially tackle the above challenges. They have shown promise in solving forward and inverse transport problems in complex systems [11-15]. For instance, deep convolutional encoder-decoder networks have been used to predict the distribution of thermal conductivity in composites using sparse temperature measurements [15]. Surrogate models based on physics-constrained deep learning has been used for uncertainty quantification of flow in stochastic media [ 16 , 17 ]. Recently, physics-informed neural networks (PINNs) were developed to solve partial differential equations with sparse measurement data as input [ 18 , 19 ]. PINNs-derived models have been used for data assimilation in subsurface transport and the accuracy of these models working with different input measurements has been carefully studied [20] . These pioneering studies point to exciting opportunities of using deep learning in data assimilation.

In this work, we build physics-constrained deep learning models to solve a data assimilation problem in porous media. Specifically, we focus on subsurface fluid and solute transport in the presence of heterogeneity in hydraulic conductivity. Deep learning models are developed to predict full-scale hydraulic conductivity, hydraulic head, and solute concentration from sparse measurements of these observables. While we focus on data assimilation of subsurface transport in the presence of heterogeneity in hydraulic conductivity, which is similar to the subject in Ref. [20], the machine learning models we used are very different. The DNN model in Ref. [20] is mainly based on physics-informed neural networks (PINNs), which were developed to solve partial differential equations with sparse measurement data as input [ 18 , 19 ]. It is useful to note that PINNs-based models are built with several fully connected neural layers that involve a large set of learning parameters, and some models do not yet provide information on the uncertainty and reliability of their predictions. In this work, instead of using fully connected neural layers, we adopt convolutional neural networks, which often result in a smaller number of learning parameters easier for training than the fully connected neural networks. We also explore the possibility of gauging the uncertainty and reliability of the model prediction by introducing a variational parameter into the deep learning model. The developed models are trained using sparse measurement data by minimizing the residuals of governing transport equations and the loss due to mismatch between predicted and measured data at measurement points. The performance of the models is investigated under different conductivity fields, nature of solute transport, and the noise level of input measurement.

2. Problem definition

これをフォローするのは、まだ、難しい。

Without losing generality, we consider the subsurface transport in a two-dimensional (2D) square-shaped porous domain Ω∈[ 0 , 1 ] ×[ 0 , 1 ] at steady state. Fluid flow is described by the Darcy model:

ダルシーの法則は、多孔質媒体を通る流体の流れを表す方程式です。この法則は、地球科学の一分野である水文地質学の基礎を形成する、砂床を通る水の流れに関する実験[1]の結果に基づいて、ヘンリー・ダルシーによって策定されました。byウイキペディア

3. Physics-constrained deep learning model

We use deterministic and probabilistic deep learning models to solve the data assimilation problem defined above. All the reference data in this work are numerical data. The deterministic model is based on physics-constrained convolutional encoder-decoder networks (PC-CED). There are three main parts in a PC-CED model: an encoder network, a latent space, and a decoder network. The encoder network takes the sparse measurement data ℎ 𝑖𝑛 , 𝑘 𝑖𝑛 , 𝐶 𝑖𝑛 as input and is trained to compress and extract important features and correlations from the input data. The extracted features have a much lower dimension than the input features and are stored in the latent space. The decoder network then projects the low-dimensional features in the latent space to high-dimensional space to predict the full-scale data k ( x,y ) , h ( x,y ) , C ( x,y ).

f:id:AI_ML_DL:20210901210246p:plain

 

9月2日(木)

Fundamentals, materials, and machine learning of polymer electrolyte membrane cell technology、の表12に掲載されている機械学習関連のツールや種々のデータベースを紹介しているウェブサイトについて調べてみる。

Table 12 : Publicly accessible professional machine-learning tools for chemistry and material, and structure and property databases for molecules and solids. The table is developed following format of that in Ref.[224] by adding additional information.

Machine learning tools for chemistry and material:Amp, ANI, COMBO, DeepChem, GAP, MatMiner, NOMAD, PROPhet, TensorMol,  

Computed structure and property databases:AFLOWLIB, Computational Materials Repository, GDB, Harvard Clean Energy Project, NOMAD, Open Quantum Materials Database, NREL Materials Database, TEDesignLab, ZINC 

Experimental structure and property databases:ChEMBL, ChemSpider, Citrination, Crystallography Open Database, CSD, ICSD, MatNavi, MatWeb, NIST Chemistry WebBook, NIST Materials Data Repository, PubChem  

ANI:Works only under Ubuntu variants of Linux with a NVIDIA GPUと書かれていて、Ubuntuを使うことが前提となっている。Windowsでは動かないので、現時点では、少しハードルが高い。

REQUIREMENTS: Python 3.6 (we recommend Anaconda distribution), Modern NVIDIA GPU, compute capability 5.0 of newer. CUDA 9.2, ASE( Atomic Simulation Environment)

GPUは、RTX 3090が搭載されたデスクトップパソコンがあれば、試験運用には、十分使えるのではないだろうか。

COMBO:東京大学が関係しているのだが、残念なのは少し古いことで、Python 2.7.xが使われている。

DeepChem:これは、オープンソースコードで、商用利用の制限も少なく、GitHubで管理されている。

DeepChem aims to provide a high quality open-source toolchain that democratizes the use of deep-learning in drug discovery, materials science, quantum chemistry, and biology.

DeepChem currently supports Python 3.7 through 3.8 and requires these packages on any condition. joblib, NumPy, pandas, scikit-learn, SciPy, TensorFlow, deepchem>=2.4.0 depends on TensorFlow v2, deepchem<2.4.0 depends on TensorFlow v1, Tensorflow Addons for Tensorflow v2 if you want to use advanced optimizers such as AdamW and Sparse Adam. (Optional)

チュートリアルも充実しているようである。

The DeepChem project maintains an extensive collection of tutorials. All tutorials are designed to be run on Google colab (or locally if you prefer). Tutorials are arranged in a suggested learning sequence which will take you from beginner to proficient at molecular machine learning and computational biology more broadly.

After working through the tutorials, you can also go through other examples. To apply deepchem to a new problem, try starting from one of the existing examples or tutorials and modifying it step by step to work with your new use-case. If you have questions or comments you can raise them on our gitter.

ある程度使ってみなければわからない。一見するとバイオ系のように思うが、筋道は同じようなものだろうと思うので、ある程度理解できるところまでは、チュートリアルに倣って足を踏み込んでみるのがよいかもしれない。

DeepChemのコードやツールはGitHubに置かれていて、GitHub機械学習系の有用なコードやツールが膨大に蓄積されているので、適当に検索すれば、有用なツールやコードが容易に見つかる。重要なことは、目的を定めて、1つのサイトで良いから、チュートリアルや手順に従ってインストールし、自分で使えるところまで持っていくことである。ちょっとしたことで躓いて前に進まなくなることがあると思うが、簡単なコードで良いので、とにかく、jupyter notebook上でコードを走らせて結果を得るところまでやることが重要である。

9月4日(土)には、このDeepChemにチャレンジしてみよう。

MatMiner:Table 12には、Python library for assisting machine learning in materials scienceと書かれている。MatMinerのホームページには、matminer is a Python library for data mining the properties of materials.と書かれていて、machine learningという言葉が含まれていない。下の方に次のように書かれている。

Matminer does not contain machine learning routines itself, but works with the pandas data format in order to make various downstream machine learning libraries and tools available to materials science applications.

MatMinerは、machine learningを含んでおらず、その出力がPandasのデータ形式なので、machine learningに容易に接続できるということのようである。次の図に、その関係が示されている。

Flow chart of matminer features

9月4日(土)

DeepChemにチャレンジしよう!

チュートリアルが充実しているようだが、その紹介文を見ると、DeepChemはライフサイエンスの方を見ており、材料科学は付け足しのように見える。

このチュートリアルシリーズでは、DeepChemを使用して、ライフサイエンスの面白くてやりがいのある問題を解決する方法を学習します。このチュートリアルは、DeepChemの概要として、また分子機械学習量子化学バイオインフォマティクス、材料科学などのドメインにわたるさまざまな問題へのDeepChemの適用として機能します。このチュートリアルシリーズは、実装された新しいDeepChem機能とモデルで継続的に更新され、初心者がアクセスできるように設計されています。

次の説明では、創薬に最適なツールであると宣伝している。

1)キャリアアップ:ライフサイエンスにAIを適用することは、現在活況を呈している業界です。AIを中心とした大手製薬会社やバイオテクノロジー企業には、新たに資金提供を受けたスタートアップやイニシアチブが数多くあります。DeepChemを学び、習得することで、この分野の最前線に立ち、この分野でのキャリアに入る準備が整います。

2)人道上の考慮事項:病気は人間の苦しみの最も古い原因です。人類の文明の黎明期から、人類は病原体、癌、および神経学的状態に苦しんでいます。過去数世紀の最大の成果の1つは、多くの病気の効果的な治療法の開発でした。このチュートリアルのスキルを習得することで、過去の巨人の肩の上に立って新薬の開発を支援できるようになります。

3)薬のコストを下げる:新しい薬を開発する技術は、現在、専門家の小さなコアによってのみ実践できるエリートスキルです。創薬のためのオープンソースツールの成長を可能にすることで、これらのスキルを民主化し、創薬をより多くの競争に開放することができます。競争の激化は、薬のコストを下げるのに役立ちます。

チュートリアルには30以上の項目があって、大半はバイオ~タンパク質分子間相互作用~創薬だが、1つだけ、材料科学の項目がある。

Introduction To Material Science

One of the most exciting applications of machine learning in the recent time is it's application to material science domain. DeepChem helps in development and application of machine learning to solid-state systems. As a starting point of applying machine learning to material science domain, DeepChem provides material science datasets as part of the MoleculeNet suite of datasets, data featurizers and implementation of popular machine learning algorithms specific to material science domain. This tutorial serves as an introduction of using DeepChem for machine learning related tasks in material science domain.

最近の機械学習の最もエキサイティングなアプリケーションの1つは、材料科学分野へのアプリケーションです。 DeepChemは、機械学習の開発とソリッドステートシステムへの適用を支援します。機械学習を材料科学ドメインに適用する出発点として、DeepChemは、MoleculeNetデータセットスイートの一部として材料科学データセット、データ機能化ツール、および材料科学ドメインに固有の一般的な機械学習アルゴリズムの実装を提供します。このチュートリアルは、材料科学分野の機械学習関連タスクにDeepChemを使用する方法の概要として役立ちます。by Google翻訳

MoleculeNet is a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem open source library). MoleculeNet benchmarks demonstrate that learnable representations are powerful tools for molecular machine learning and broadly offer the best performance.)

Traditionally, experimental research were used to find and characterize new materials. But traditional methods have high limitations by constraints of required resources and equipments. Material science is one of the booming areas where machine learning is making new in-roads. The discovery of new material properties holds key to lot of problems like climate change, development of new semi-conducting materials etc. DeepChem acts as a toolbox for using machine learning in material science.

伝統的に、実験的研究は、新しい材料を見つけて特徴づけるために使用されていました。しかし、従来の方法には、必要なリソースと機器の制約によって高い制限があります。材料科学は、機械学習が新たな道を切り開いている活況を呈している分野の1つです。新しい材料特性の発見は、気候変動、新しい半導体材料の開発など、多くの問題の鍵を握っています。DeepChemは、材料科学で機械学習を使用するためのツールボックスとして機能します。by Google翻訳

事例の1つは次の文献の内容である。

Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties, Tian Xie and Je rey C. Grossman, arXiv:1710.10324v3 [cond-mat.mtrl-sci] 6 Apr 2018

Abstract :

The use of machine learning methods for accelerating the design of crystalline materials usually requires manually constructed feature vectors or complex transformation of atom coordinates to input the crystal structure, which either constrains the model to certain crystal types or makes it difficult to provide chemical insights. Here, we develop a crystal graph convolutional neural networks (CGCNN) framework to directly learn material properties from the connection of atoms in the crystal, providing a universal and interpretable representation of crystalline materials. Our method provides a highly accurate prediction of DFT calculated properties for 8 different properties of crystals with various structure types and compositions after trained with 10,000 data points. Further,
our framework is interpretable because one can extract the contributions from local chemical environments to global properties. Using an example of perovskites, we show how this information can be utilized to discover empirical rules for materials design.

Machine learning (ML) methods are becoming increasingly popular in accelerating the design of new materials by predicting material properties with accuracy close to ab-initio calculations, but with computational speeds orders of magnitude faster[1-3]. The arbitrary size of crystal systems poses a challenge as they need to be represented as a fixed length vector in order to be compatible with most ML algorithms. This problem is usually resolved by manually constructing fixed-length feature vectors using simple material properties[1, 3-6] or designing symmetry-invariant transformations of atom
coordinates[7-9]. However, the former requires case-by-case design for predicting different properties and the latter makes it hard to interpret the models as a result of the complex transformations.

In this letter, we present a generalized crystal graph convolutional neural networks (CGCNN) framework for representing periodic crystal systems that provides both
material property prediction with DFT accuracy and atomic level chemical insights.

f:id:AI_ML_DL:20210905230308p:plain

f:id:AI_ML_DL:20210905230413p:plain

We summarize the performance in Table I and the corresponding 2D histograms in Figure
S4. As we can see, the MAE of our model are close to or higher than DFT accuracy relative to experiments for most properties when 10,000 training data is used.

In summary :

The crystal graph convolutional neural networks (CGCNN) presents a  flexible machine learning framework for material property prediction and design knowledge extraction. The framework provides a reliable estimation of DFT calculations using around 10,000
training data for 8 properties of inorganic crystals with diverse structure types and compositions. As an example of knowledge extraction, we apply this approach to the design of new perovskite materials and show that information extracted from the model is consistent with common chemical insights and significantly reduces the search space for high throughput screening.

DeepChemの中に、CGCNNFeaturizerが含まれているので、importで呼び出して使うことができる。

 

9月7日(火)

CGCNNをもっとよく理解しよう。

DFT (density functional theory) : 密度汎関数理論と同程度の正確さで計算できる理由:

過去に、膨大な量の理論計算が進められてきたという背景がある。リチウムイオン電池の組成の最適化もその1例である。膨大な量の候補材料(候補になるかどうかを考えるよりも、できるだけ多くの種類の元素の組み合わせを計算機上で試してみることが重要であった)に対する徹底的な理論計算と特性値の計算結果を多数の研究者が計算結果を共有しながら進めてきたことによって、良い候補材料(単に性能が高いということだけでなく、信頼性、コスト、寿命などの種々の要因も並行して計算機上で理論計算をによって検討することも併せて行われることによって)が見つかった。

次の論文にそのことが正確に解説されている。

Commentary: The Materials Project: A materials genome approach to accelerating materials innovation, A. Jain et al., APL Materials 1, 011002 (2013)

Accelerating the discovery of advanced materials is essential for human welfare and sustainable, clean energy. In this paper, we introduce the Materials Project (www.materialsproject.org), a core program of the Materials Genome Initiative that uses high-throughput computing to uncover the properties of all known inorganic materials. This open dataset can be accessed through multiple channels for both interactive exploration and data mining. The Materials Project also seeks to create open-source platforms for developing robust, sophisticated materials analyses. Future efforts will enable users to perform ‘‘rapid-prototyping’’ of new materials in silico, and provide researchers with new avenues for cost-effective, data-driven materials design. © 2013 Author(s). All article content, except where otherwise noted, is licensed under a Creative Commons Attribution 3.0 Unported License. http://dx.doi.org/10.1063/1.4812323

I. INTRODUCTION

II. DATA GENERATION AND VALIDATION

III. DISSEMINATION: PROVIDING OPEN, MULTI-CHANNEL ACCESS TO MATERIALS INFORMATION

IV. ANALYSIS: OPEN-SOURCE LIBRARY

V. DESIGN: A VIRTUAL LABORATORY FOR NEW MATERIALS DISCOVERY

VI. CONCLUSION AND FUTURE

It is our belief that deployment of large-scale accurate information to the materials development community will significantly accelerate and enable the discovery of improved materials for our future clean energy systems, green building components, cutting-edge electronics, and improved societal health and welfare.
deep learningがものすごい勢いで発展し始めたのが2012年であり、この解説が書かれた2013年の時点では、このmaterials genome approachがdeep learningによってさらに加速されるだろうということまでは予測されていなかったようである。2018年になって、materials genome approachによって蓄積されたDFT計算結果等は、CGCNNの学習のために活用され、次のレベルに進むことが可能になったということである。)

The SineCoulombMatrix featurizer a crystal by calculating sine coulomb matrix for the crystals. It can be called using dc.featurizers.SineCoulombMatrix function. [1]
The CGCNNFeaturizer calculates structure graph features of crystals. It can be called using dc.featurizers.CGCNNFeaturizer function. [2]
The LCNNFeaturizer calculates the 2-D Surface graph features in 6 different permutations. It can be used using the utility dc.feat.LCNNFeaturizer. [3]

 

SineCoulombMatrix featurizerとは何かを理解しておく必要がありそうなのでその論文を眺めてみよう。

Crystal Structure Representations for Machine Learning Models of Formation Energies,  F. Faber et al., arXiv:1503.07406v1 [physics.chem-ph] 25 Mar 2015

We introduce and evaluate a set of feature vector representations of crystal structures for machine learning (ML) models of formation energies of solids. ML models of atomization energies of organic molecules have been successful using a Coulomb matrix representation of the molecule. We consider three ways to generalize such representations to periodic systems: (i) a matrix where each element is related to the Ewald sum of the electrostatic interaction between two different atoms in the unit cell
repeated over the lattice; (ii) an extended Coulomb-like matrix that takes into account a number of neighboring unit cells; and (iii) an ansatz that mimics the periodicity and the basic features of the elements in the Ewald sum matrix by using a sine function of the crystal coordinates of the atoms. The representations are compared for a Laplacian kernel with Manhattan norm, trained to reproduce formation energies using a data set of 3938 crystal structures obtained from the Materials Project. For training sets consisting of 3000 crystals, the generalization error in predicting formation energies of new structures corresponds to (i) 0.49, (ii) 0.64, and (iii) 0.37 eV/atom for the respective representations.

Materials Projectからのデータセットを用いて学習させているとのこと。

 

9月8日(水)

LCNNについての論文:

Lattice Convolutional Neural Network Modeling of Adsorbate Coverage Effects
Jonathan Lym et al., J. Phys. Chem. C 2019, 123, 31, 18951–18959

Abstract:

Coverage effects, known also as lateral interactions, are often important in surface processes, but their study via exhaustive density functional theory (DFT) is impractical because of the large configurational degrees of freedom. The cluster expansion (CE) is the most popular surrogate model accounting for coverage effects but suffers from slow convergence, its linear form, and its tendency to be biased toward the selection of smaller clusters. We develop a novel lattice convolutional neural network (LCNN) that improves upon some of CE’s limitations and exhibits better performance (test RMSE of 4.4 meV/site) compared to state-of-the-art methods, such as the CE assisted by a genetic algorithm and the convolution operation of the crystal graph convolutional neural network (CGCNN) (test RMSE of 5.5 and 6.8 meV/site, respectively) by 20–30%. Furthermore, LCNN can outperform other methods with less training data, implying accuracy with less DFT calculations. We analyze the van der Waals interaction via visualization of the hidden representation of the adsorbate lattice system in terms of individual site formation energies.

f:id:AI_ML_DL:20210908164122p:plain

この論文は有料なので、残念だが、本文は読めないので、紹介できない。この図はAbstractに張り付けられているもので、説明はない。

著者らによる2ページ程度の要約版(講演要旨かもしれない)らしきものがあるのでそれを見てみよう。

Lattice Convolutional Neural Network for Modelling Adsorbate Coverage Effects
Jonathan Lym, Geun Ho Gu, Yousung Jung and Dionisios G. Vlachos

Introduction
Density Functional Theory (DFT) has revolutionized the field of catalysis by giving
researchers the ability to predict system properties at the quantum level at reasonable accuracy and computational cost. However, DFT still has its limitations and performs poorly for some systems, such as studying coverage effects due to the large size of systems and the vast configurational degrees of freedom. To overcome these limitations, surrogate models are trained using DFT calculations to reduce the computational cost further without significantly sacrificing accuracy. The most popular model to study coverage effects is the cluster expansion (CE), which is a linear lattice-based model that models long and short-range interactions. While it has been used widely in the literature, the CE suffers from slow convergence due to adsorbates moving from ideal lattice positions, lateral interactions having nonlinear forms, and the CE’s heuristics’ tendency to prefer small clusters with short-range interactions that may not be sufficient to fully capture the local environment.

In this work, we develop a novel lattice graph convolutional neural network (LGCNN) and
compare it to the cluster expansion trained using three different cluster selection techniques (heuristics, the least absolute shrinkage and selection operator (LASSO), and the genetic algorithm (GA)) and the crystal graph convolutional neural network (CGCNN) implemented by Xie and Grossman for a multi-adsorbate system (O and NO on Pt(111)).

Materials and Methods

The configurations and DFT data used to train, validate, and test the machine learning
models of the system were provided by Bajpai et al. The configurations were reoptimized with the Vienna Ab initio Simulation Package (VASP) using the PBE+D3 functional to observe the effect of van der Waals forces on formation energies. The heuristic and LASSO regression models were implemented with in-house Python code using the Scikit-learn library. The Alloy-Theoretic Automated Tookit (ATAT) was used as the GA model.
The CGCNN and the LGCNN models were created using Tensorflow. To evaluate each
model, 10% of the data was withheld for testing. The remaining 90% was used to optimize hyperparameters and train the models using 10-fold cross validation.

Results and Discussion

Figure 1 shows the training and test error of each method as a function of the fraction of data used for training. When all the training data is used, the LGCNN has a test root mean squared error (RMSE) of 2.14 meV/site and outperforms the other methods. The
LGCNN has a lower test RMSE than the other methods when using only 40% of the training data. This superior performance is attributed to the nonlinear convolution operator learning the local environment around each site effectively.

f:id:AI_ML_DL:20210910095728p:plain

吸着状態の構造最適化の重要性を示しているのだろうと思う。反応中間体のエネルギー状態が、より現実に近い値として計算できていると推測される。

The configurations and DFT data used to train, validate, and test the machine learning
models of the system were provided by Bajpai et al.

吸着分子の吸着配置構造データとDFTデータはBaipaiらによって提供しているとのことなので、引用されているBaipaiらの論文をチェックする。有料なのでアブストラクト(図面付き)だけだが、みてみよう。

Binary Approach to Ternary Cluster Expansions: NO–O–Vacancy System on Pt(111)
A. Bajpai, K. Frey and W. F. Schneider, J. Phys. Chem. C 121, 13, 7344 (2017) 

Abstract
Cluster expansions (CEs) provide an exact framework for representing the configurational energy of interacting adsorbates at a surface. Coupled with Monte Carlo methods, they can be used to predict both equilibrium and dynamic processes at surfaces. In this work, we propose a three-binary-to-single-ternary (TBST) fitting procedure, in which a ternary CE is approximated as a linear combination of the three binary CEs (O–vac, NO–vac, and NO–O) obtained by fitting to the three binary legs. We first construct a full ternary CE by fitting to a database of density functional theory (DFT) computed energies of configurations across a full range of adsorbate configurations and then construct a second ternary using the TBST approach. We compare two approaches for the NO–O–vacancy system on the (111) surface of Pt, a system of relevance to the catalytic oxidation of NO. We find that the TBST model matches the ternary CE to within 0.018 eV/site across a wide range of configurations. Further, surface coverages and NO oxidation rates extracted from Monte Carlo simulations show that the two models are qualitatively consistent over the range of conditions of practical interest.

f:id:AI_ML_DL:20210910115005p:plain

同一の系について計算しているようなので、J. Lymらは、新たに開発したLGCNNを用いることによって(それだけではないようだが)誤差を1/10くらいにまで減少させることができたということのようである。

 

LCNNと同様に、吸着(不均一系触媒表面における物理化学現象)を扱っているACE-GCN)というのが2021年に発表されたようである。

Adsorbate chemical environment-based machine learning framework for heterogeneous catalysis, P. G. Ghanekar et al., 10.33774/chemrxiv-2021-8fcxm 

Heterogeneous catalytic reactions are influenced by a subtle interplay of atomic-scale factors, ranging from the catalysts’ local morphology to the presence of high adsorbate coverages. Describing such phenomena via computational models requires generation and analysis of a large space of surface atomic configurations. To address this challenge, we present the Adsorbate Chemical Environment-based Graph Convolution Neural Network (ACE-GCN), a screening workflow that can account for atomistic configurations comprising diverse adsorbates, binding locations, coordination environments, and substrate morphologies. Using this workflow, we develop catalyst surface models for two illustrative systems: (i) NO adsorbed on a Pt3Sn(111) alloy surface, of interest for nitrate electroreduction processes, where high adsorbate coverages combine with the low symmetry of the alloy substrate to produce a large configurational space, and (ii) OH* adsorbed on a stepped Pt(221) facet, of relevance to the Oxygen Reduction Reaction, wherein the presence of irregular crystal surfaces, high adsorbate coverages, and directionally-dependent adsorbate-adsorbate interactions result in the configurational complexity. In both cases, the ACE-GCN model, having trained on a fraction (~10%) of the total DFT-relaxed configurations, successfully ranks the relative stabilities of unrelaxed atomic configurations sampled from a large configurational space. This approach is expected to accelerate development of rigorous descriptions of catalyst surfaces under in-situ conditions.

2番目の事例は、白金触媒表面における酸素の還元反応、すなわち、燃料電池のカソード電極における酸素還元反応(ORR)の原子・分子レベルでの反応機能の解明のためのDFT・機械学習モデルの研究開発成果であり、高性能触媒開発につながるものである。ACE-GCNモデルを使いこなせるようになるために学ぼう。

f:id:AI_ML_DL:20210908164822p:plain

Workflow and ACE-GCN Framework (Adsorbate Chemical Environment-based Graph Convolution Neural Network)

Figure 1(A) summarizes the proposed screening framework. The cyclic workflow is divided into four parts:

(i) systematic enumeration of unique atomic configurations,

(ii) (re)training the surrogate model with data of incremental complexity,

(iii) accelerated screening using the surrogate model to identify the most relevant configurations amongst possible geometries, and

(iv) electronic structure relaxation of selected structures, which can be used for in-depth mechanistic analysis, or to improve the surrogate model.

 

 

f:id:AI_ML_DL:20210908170746p:plain

f:id:AI_ML_DL:20210908170852p:plain

f:id:AI_ML_DL:20210908170932p:plain

f:id:AI_ML_DL:20210908171019p:plain

約600行の文章と5枚の図面および55件の文献を今月中に理解しよう。
Introduction 38行~51行:

不均一系触媒の複雑な分子レベルの詳細を解明するためには、理論的な計算モデルが、不可欠になってきている。スケーリングやブレンステッド-エヴァン-ポランニー (Brønsted-Evan-Polanyi) 関係などの記述子ベースの相関関係と組み合わせたハイスループット材料スクリーニング戦略[1–4]は、重要な酸素、窒素、および炭素ベースの化学物質の有望な候補を特定する上で中心的な役割を果たしてきた。

1. Greeley, J. et al. Alloys of platinum and early transition metals as oxygen reduction electrocatalysts. Nature Chemistry 1, 552–556 (2009).

2. Bligaard, T. et al. The Brønsted–Evans–Polanyi relation and the volcano curve in heterogeneous catalysis. Journal of Catalysis 224, 206–217 (2004).

3. Nørskov, J. K. et al. Origin of the Overpotential for Oxygen Reduction at a Fuel-Cell Cathode. The Journal of Physical Chemistry B 108, 17886–17892 (2004).

4. Lansford, J. L., Mironenko, A. V. & Vlachos, D. G. Scaling relationships and theory for vibrational frequencies of adsorbates on transition metal surfaces. Nature Communications 8, 016105 (2017). 

 

122行~

First, adsorbate configurations are generated by enumerating adsorbate binding  locations on the catalyst surface using the SurfGraph algorithm. 

This algorithm utilizes  graph-based representations to identify and create unique surface adsorbate configurations, systematically accelerating the task of generating complex catalytic model motifs.

触媒表面において吸着物質がどのように配置しているかを決める必要がある。触媒表面には面方位によって固有の原子配列があり、吸着物質が触媒表面の原子配列のどこにどのように配置するのかを決める。吸着物質は複数存在しそれらの配置の仕方も決めなければならない。研究者の経験や勘、直観だけでは可能性のある配置を網羅することは不可能であり、その代わりをするアルゴリズムとしてSurfGraphがある。

23. Deshpande, S., Maxson, T. & Greeley, J. Graph theory approach to determine configurations of multidentate and high coverage adsorbates for heterogeneous catalysis. npj Computational Materials 6, 79 (2020).

24. Boes, J. R., Mamun, O., Winther, K. & Bligaard, T. Graph Theory Approach to High-Throughput Surface Adsorption Structure Generation. The Journal of Physical Chemistry A 123, 2281–2285 (2019). 

 

***中断***

 

f:id:AI_ML_DL:20210831113920p:plain

style=171 iteration=500