AI_ML_DL’s diary

人工知能、機械学習、ディープラーニングの日記

Kaggleに挑戦-6

Kaggleに挑戦-6

引き続き、次の課題に取り組む

課題1:GitHubのexperiencor / image-to-3d-bboxのプログラムコードを理解すること

課題2:3D Bounding Box Estimation Using Deep Learning and Geometry, A. Mousavian et.al., arXiv:1612.00496v2 [cs.CV] 10 Apr 2017を理解すること

 

今日は、twitterでF. Chollet氏がmatplotlibへのストレスをつぶやいたことに対して、多くの反論・同意や、matplotlibからの返信があった。ちょっと残念なつぶやきだった。エスプリってやつですかね。

F. Chollet氏が開発したKerasが心配になってきたので、ちょっと調べてみた。

Kerasは、単独で存続するものと、TensorFlowに統合されてtf.kerasとして展開していくものとの2つにわかれたようだ。

この流れは、Kerasに依存している自分には望ましいものではない。現に、TF2.0をインストールして、計算環境を壊した。原因が自分の未熟さにあるとはいえ、きつい。今後も単独のKerasに依存した場合の問題点は、日々進化・発展しているソフト開発に対して、単独Kerasは、ついていけないかもしれないことだ。

KerasのHPは、マニュアルだけだが、PytorchのHPは、何もかも優っているようにみえる。その性能を比較するレベルにはないので、今は、見た目だけだが。

TensorFlowとKerasとPytorchの使用動向を調べた結果を見ると、Pytorchが伸びていて、世界レベルではPytorchがKerasに追いついているようだ。研究論文での採用では、すでに、PytorchがKerasを追い越しているとの報告もある。

ということで、Pytorchの習得の必要性は高くなっているようだが、今は、Karasに集中して、プログラムの解読を進めよう。

 

* KITTIのラベルのtruncatedとoccludedは、教師データとして使うかどうかの判定に用いることができる。truncatedは0.0、occludedは0を選べば無難だが、汎化性能とか耐ノイズ性、頑健性などを考慮できるように、プログラミングできることが望ましい。

プログラムでは、truncated<0.1、occluded<0.1(occluded=0)となっている。

*alphaとrotation_yの意味(違い)がわからない。

 

*昨日は、KITTIのサイトにアクセスできなかったが、今日はつながったので、現在、KITTIサイトの情報を収集中。

このサイトは、The KITTI Vision Benchmark Suite、日本語訳がわからないが、人工知能を活用して、KITTIデータベースを用いて、自動運転に関するデータ処理技術を競うコンペサイトのようです。

3D Object Detection Evaluation 2017というのがある。リーダーボードがあって、解析手法、スコア、計算時間、マシンスペックなどが掲載されている。

驚いたことに、2019年10月に解析結果の投稿規定が変更になり、既存の手法に少し手を加えただけのアルゴリズムや、学生の研究プロジェクトのようなものは受け付けられず、オリジナル論文とペアでないとコンペのデータが投稿できないようになったということである。この分野では、Kaggleよりレベルが高いかもしれない。

*KITTIのサイトから得られた情報は、とりあえずは、今回のプログラムの解釈に必要な、画像のピクセル数、座標、方位角の定義などであるが、自動運転に関する、質の高い情報が、非常にたくさん存在していることが分かったのことは、大きな収穫である。

 

 課題2の論文をみてみよう。この 論文は、KITTI object detection benchmarkに応募して、優秀な成績であったとの記述があり、表に示されている数値もトップレベルだが、この論文もモデル名もKITTIのHPのリーダーボードには表示されていない。憶測でしかないが、今は、2D がObject Detection Evaluation 2012、3Dが3D Object Detection Evaluation 2017となっていて、当該論文の日付が2017年4月10日なので、3Dのコンペが正式に立ち上がる前だったのかもしれない。

それでも、同じデータベースKITTIを使っているので、問題はないだろう。

プログラムの方も、プログラム中に記述されているKITTIの画像とラベル名が、現在のデータベースで使われているものと同じなので、問題はなさそうである。

 

今日は、目に見える進捗は少なかったかもしれないが、KITTIのサイトを見ることができて、KITTIデータベースのデータ取得のための車載機器の概要、アノテーションの概要、リーダーボード、最新の文献、自動運転関連の種々のコンペの状況などを知ることができて、何をしているのか、どこに向かっているのかが、具体的にわかったことが収穫だと思う。 

 

明日も、同じ課題の解決に向かって、前進しよう。 

 

f:id:AI_ML_DL:20191216090329p:plain

style 048

f:id:AI_ML_DL:20191216090413p:plain

DeepDream