AI_ML_DL’s diary

人工知能、機械学習、ディープラーニングの日記

The Measure of Intelligence

The Measure of Intelligence 

François Chollet

引用文献数102、全64ページ。大作だな。内容において。*google翻訳を参考に和訳してみる。年内に終えたい!そのうえで、プログラミング技術に習熟し、有用なプログラムを開発したい!

Abstract
よりインテリジェントで、より人間に似た人工システムに向けて慎重に前進するには、適切なフィードバック信号に従う必要がある:人間との比較だけでなく、2つのシステム間の比較を可能にする方法でインテリジェンスを定義および評価できる必要がある。

過去100年にわたり、心理学とAIの両方の分野で、知能を定義および測定する試みが豊富にあった。

これらの定義と評価アプローチを要約し、批判的に評価すると同時に、それらを暗黙のうちに導いた知性の2つの歴史的概念を明らかにする。

実際には、現代のAIコミュニティは、ボードゲームビデオゲームなどの特定のタスクでAIと人間が示すスキルを比較することで、知能を評価している。

最近の人工知能のコミュニティーは、ボードゲームビデオゲームなどの特定の領域においてヒトと人工知能が示している技量を比較することによって知能を評価している。

スキルは事前の知識と経験によって大きく調整されているため、特定のタスクでスキルを測定するだけではインテリジェンスを測定できない。

無制限の事前データまたは無制限のトレーニングデータにより、実験者はシステムの任意のレベルのスキルを「購入」して、システム自体の一般化能力を隠すことになる。

次に、アルゴリズム情報理論に基づいてインテリジェンスの新しい正式な定義を明確にし、インテリジェンスをスキル習得効率として説明し、範囲、一般化の難易度、事前、および経験の概念を、インテリジェントシステムを特徴付ける際に考慮すべき重要な部分として強調する。

この定義を使用して、一般的なAIベンチマークがどのように見えるかについての一連のガイドラインを提案する。

最後に、これらのガイドラインに近い新しいベンチマーク、抽象化および推論コーパス(ARC)を提示する。

これは、生得的な人間の事前確率にできるだけ近いように設計された明示的な事前確率のセットに基づいている。

私たちは、ARCを使用して一般的な流動的インテリジェンスの人間に似た形を測定し、AIシステムと人間の間の一般的なインテリジェンスの公正な比較を可能にすることを主張する。

 

Ⅰ Context and histry

背景と歴史

1.1  Need for an actionable definition and measure of intelligence 

実用的な定義と知性の尺度の必要性

AIの分野の約束は、1950年代の開始時に明確に綴られ、それ以来数え切れないほど繰り返されてきたのは、人間に匹敵する知能を備えた機械を開発することです。

しかし、AIはその後理想に達していない:特定のタスクで非常に優れたパフォーマンスを発揮するシステムを設計することはできるが、まだ厳しい制限があり、脆く、データを大量に消費し、トレーニングデータや作成者の想定からわずかに逸脱した状況を理解できず、 人間の研究者の大きな関与なしには、新しいタスクに対処するためにAI自身で目的を変更することができない。

もし、AIの成功が、狭い、タスク固有のシステムの開発だけだとしたら、それはおそらく、非常に狭く、基礎的な範囲内での目標を設定しており、可能な範囲でのみ進展を測定しているからであろう。

目標の定義と評価基準は、科学的進歩の最も強力な推進力の1つである。

私たちの分野の約束に向けて前進するには、正確な定量的定義と知性、特に人間に似た一般的な知性の測定が必要である。

これらは、単に知性を説明または特徴付けることを意味する定義と手段ではなく、北極星のような、明確な目標に向かって道を示す客観的機能、正確な説明的定義であり、私たちの進歩の信頼できる尺度として、すぐには適用されない可能性のある価値のある新しいアプローチを特定し、強調する方法として、機能することができる。

 たとえば、知性の常識的な辞書の定義は、同じ概念について話していることを確認するのに役立つ場合がありますが、実用的ではなく、説明的または測定可能ではないため、我々の目的には役に立たない。

同様に、チューリングテストおよびその多くの変形(例:トータルチューリングテストおよびローブナー賞)は、進歩を促進するものとしては役に立たない(実際、赤いニシン1として機能している)。なぜなら、インテリジェンスを客観的に定義および測定する代わりに、明確な定義または評価プロトコルを持っていない、信頼できない人間に評価をまかせているから。

インテリジェンスについて話すとき、私たちが何を意味するのかという質問にはまだ満足のいく答えがないということは、私たちの分野の未熟さの証です。

さらに悪いことに、それを厳密に定義したり、それに対する進捗を評価したりすることにほとんど注意が払われていない。

Legg and Hutterは、2007年のインテリジェンスの定義と評価方法の調査[53]で次のように述べています。「我々の知る限り、テストと定義の一般的な調査は公開されていない」。

10年後の2017年、Hern´andez-Oralloは、評価方法に関する広範な調査[36]とAI評価に関する包括的な本[37]を発表した。

これらの両方の取り組みの結果と推奨事項は、その後コミュニティによってほとんど無視されている。

広く受け入れられている明示的な定義がないことは、数十年前にさかのぼる暗黙の定義とバイアスに置き換えられているため、この注意の欠如は間違いであると考えている。

目に見えないものの、これらのバイアスは、ボードゲームビデオゲームで人間よりも優れているという私たちの分野の継続的な魅力によって示されているように、今日でも多くの研究努力を構成している(I.3.5およびII.1で議論する傾向)。

このドキュメントの目標は、私たちの分野の暗黙の仮定を指摘し、その最も顕著なバイアスのいくつかを修正し、人間のような一般的な知能のための実用的な形式定義と測定基準を提供し、発達認知心理学からの現代の洞察を活用することである。

 

I.2 Defining intelligence: two divergent visions

I.2インテリジェンスの定義:2つの異なるビジョン

インテリジェンスの多くの公式および非公式の定義が過去数十年にわたって提案されてきましたが、単一の定義に関する既存の科学的コンセンサスはありません。

SternbergとDettermanは1986 [87]に、2ダースの著名な心理学者が知性を定義するように求められたとき、それらはすべて多少異なる答えを与えた、と指摘した。

AI研究の文脈において、レッグとハッター[53]は、2007年に、文献からの70以上の定義を1つのステートメントに要約した。「インテリジェンスは、エージェントが幅広い環境で目標を達成する能力を測定する。」

この要約は、知性の定義に見られる、ほぼ普遍的であるが多くの場合別々にある2つの特性化を指す。1つはタスク固有のスキル(「目標の達成」)に重点を置いており、もう1つは一般性と適応(「広範囲の環境」)に焦点を当てている。

この見方では、インテリジェントエージェントは多くの異なるタスクで高いスキルを達成する(たとえば、多くの異なるビデオゲームで高いスコアを達成する)。

タスクは必ずしも事前に知られているとは限りません。真の一般性を実現するために、エージェントは新しいタスクを処理することを学ぶ必要がある(スキル獲得)

これらの2つの特性化は、1971年のCatellの流動性と結晶化知能の理論(Gf-Gc)[13]にマップされる。これは、人間の認知能力の支配的な理論であるCattell-Horn-Caroll理論(CHC)[62]の柱の1つになった。

それらはまた、認知科学に深く影響を与えてきた人間の心の性質に関する2つの相反する見解と密接に関係している[85]。

心が進化によって開発された特定の目的のメカニズムの比較的静的な集合体であり、獲得するようにプログラムされたもののみを学習できるという見解と、心は任意の経験を知識とスキルに変えることができる汎用の「白紙」であり、それはどんな問題にも向けられる可能性があるという別の見解である。

このドキュメントの中心的なポイントは、AI研究のコンテキストで、インテリジェンスを概念化および評価する方法の基礎に暗黙的に含まれているこの二重の定義を、明示的かつ批判的に評価することである。一方は、結晶化したスキル、他方は、スキル獲得能力である。この知的文脈とその継続的な影響を理解することは、現代の観点から知性の正式な定義を提案する前に必要なステップである。

I.2.1 Intelligence as a collection of task-specific skills

I.2.1タスク固有のスキルの集合としての知能

人間の本性に関する進化心理学の見方では、人間の認知機能の多くは、進化を通じて人間が遭遇する特定の問題を解決するために生じた特殊な適応の結果であるということである(例[19、74]を参照)ダーウィン[21]に由来し、1960年代と1970年代に合体したアイデアである。これらのアイデア認知心理学で目立つようになったのとほぼ同時期に、初期のAI研究者は、おそらく電子コンピューターに心の類似物を見て、主に、論理演算子に大きく依存し、学習した知識をデータベースのようなメモリに保存し、論理に大きく依存する静的プログラムのようなルーチンのセットとして、知能をとらえることに引き寄せられた。

「インテリジェンス」を集合的に実装する垂直で比較的静的なプログラムの幅広いコレクションとしての心のこのビジョンは、影響力のあるAIの先駆者であるマービンミンスキーによって最も顕著に支持された(例えば、マインドオブソサエティ、1986 [63]を参照)。

この見解は、タスク固有のパフォーマンスに焦点を当てたインテリジェンスの定義とインテリジェンスの評価プロトコルを生み出した。

これはおそらく、ミンスキーの1968年のAIの定義によって最もよく説明されている。「AIは、人間が行うと知性を必要とするタスクを実行できるマシンを作成する科学である」。

その後、人間のスキルを正式なルールにエンコードし、人間の知識を明示的なデータベースにエンコードできれば、「知性の問題」が解決されることがAIコミュニティで広く受け入れられた。

知性のこの見解はかつて非常に支配的であったため、1980年代半ばまでAI教科書で「学習」(純粋な暗記として割引かれた)に言及されることはなかった。

AIの一般性の珍しい支持者であるMcCarthyでさえ、一般性を達成する鍵はより良い知識ベースであると信じていた[60]。

2017年の調査でHern´andez-Orallo [36]が指摘したように、人間が通常処理する狭いタスクのスキルのみに焦点を当てたこの定義と評価の哲学は、顕著なパラドックスにつながった。人工知能の分野は、知能を備えずにこれらのタスクを実行する人工システムの開発に非常に成功しており、これは今日まで続いている。

I.2.2 Intelligence as a general learning ability

I.2.2一般的な学習能力としての知能

対照的に、多くの研究者は、知性は学習を通じて新しいスキルを獲得する一般的な能力にあるという立場を取っている。これまでに知られていないさまざまな問題、おそらくはすべての問題に向けられる能力。

ミンスキーのタスクに焦点を当てたAIの定義を次の定義と比較します。マッカーシー[60]からHern´andez-Oralloが言い換えたものです。「AIとは、見たことのない、事前に準備されていないタスクを機械に実行させる科学技術である」[36]。

人間の子供の学習プロセスと同様の学習プロセスを通じて機械が新しいスキルを獲得できるという概念は、1950年の論文[91]でチューリングによって最初に提示された。

1958年、フリードバーグは次のようにはっきりと指摘した。「人間の言語を話し、理解もしくはヒトの言葉に翻訳し、想像力で数学の問題を解決し、職業を実践もしくは組織を指揮することが可能な機械をつくるためには、機械にそれらの実行方法を正確に伝えることができるように、これらのアクティビティを正確に科学に集約するか、もしくは、正確な方法を言わずとも物事を実行できる機械を開発する必要がある」[26]。

 

 

Ⅱ.3.2  What to expect of an ideal intelligence benchmark

理想的なインテリジェンスベンチマークに期待すること

*It should describe its scope of application and its own predictiveness with regard              to this scope (i.e. it should establish validity).

適用範囲と、この範囲に関する独自の予測性を記述する必要があります(つまり、有効性を確立する必要があります)。

*It should be reliable (i.e. reproducible). 

信頼できる(つまり、再現できる)必要があります。

*It should set out to measure broad abilities and developer-aware generalization:

幅広い能力と開発者を意識した一般化の測定を開始する必要があります。

    ・it should not be solely measuring skill or potential (maximum achievable skill).

スキルまたは潜在能力(達成可能な最大スキル)のみを測定するものではありません。

    ・It should not feature in its evaluation set any tasks that are known in advance,                 either to the test-taking system itself or to the developers of the system                             (cf. developer-aware generalization as defined in I.3.2).

評価セットに、テスト受験システム自体またはシステムの開発者に事前に知られているタスクを含めないでください(I.3.2で定義されている開発者対応の一般化を参照)。

    ・It should to seek to quantify the generalization difficulty it measures (cf. formal                 definition from II.2), or at least provide qualitative guidelines with regard to its                   generalization difficulty: 

それは、それが測定する一般化の難しさを定量化するよう努めるべきであり(II.2の正式な定義を参照)、または少なくともその一般化の難しさに関して定性的なガイドラインを提供するべきです

*It should control for the amount of experiance leveraged by test-taking systems during      training.

レーニング中に受験システムが活用する経験の量を制御する必要があります。

*It should explicitly and exhaustively describe the set of priors it assumes.

前提となる事前セットを明示的かつ網羅的に記述する必要があります。

*It should work for both humans and machines, fairly, by only assuming the same              priors as possessed by humans (e.g. Core Knoledge) and only requiring a human-          sized amount of practice time or training data.

人間が所有するのと同じ優先順位(コア知識など)を想定し、人間規模の量の練習時間またはトレーニングデータのみを必要とすることで、人間と機械の両方で公平に機能するはずです。

  These recommendations for general AI evaluation wouldn't be complete without a concrete effort to implement them.  In part III, we present our initial attempt.

一般的なAI評価のためのこれらの推奨事項は、それらを実装するための具体的な努力なしには完全ではありません。 パートIIIでは、最初の試みを示します。 

自己流の考察で気になっていたことが、ここでも言及されている。それは、事前知識の質と量、経験の質と量、学習に用いるデータの質と量、これらと強く相関するのだが、処理速度と処理時間の問題など。

 

つづく

 

f:id:AI_ML_DL:20191119152542p:plain

style 122_0

 

f:id:AI_ML_DL:20191119153203p:plain

DeepDream

 

f:id:AI_ML_DL:20191117091615p:plain

style 122

 

f:id:AI_ML_DL:20191117092206p:plain

DeepDream