Kaggleに挑戦-10
*中間評価
当初目標は以下の2つ
1.リーダーボードに載ること
2.トップを競えるレベルに到達すること
挑戦しているテーマ
Peking University/Baidu - Autonomous Driving:Can you predict vehicle angle in different settings?
締め切り:最終提出期限2020年1月21日
進捗
1.リーダーボードに載ることについては、今回は、指定フォーマットにしたがって作成したsubmission fileを提出するだけなので、前日作業でも間に合うだろうと思っているが、念のため、今日(2019年12月21日)必要なファイルをダウンロードする。
2.トップを競えるレベルに到達することについては、目標レベルの1%にも達していないことは自覚している。目標設定時に考えていたことは、原理的なところから、攻略方法を考え、借り物であっても、中身を吟味しつくしたモデルにしたいということである。今の進め方でよいかは、まったく、わからない。コンペのtrain dataもtrain labelもまだ見ていないので、今日、ダウンロードする。
*このコンペの締め切りまでの30日間でどこまでいけるかわからないが、30日後が終着点ではないので、突貫工事にならないように、じっくりすすめたいと思っている。
*このシリーズの何番目かに書いたと思うが、100日プロジェクトと考えていて、コンペの提出期限が過ぎても、トータルで100日間を目途に、このテーマを継続する予定にしている。もちろん、早く終了するに越したことはない。
課題
0.コンペのデータベースのアップロード
1.KITTIの画像とラベルの読み込みプログラムの作成
2.KITTIの画像に3D bbxを描くための計算プログラムの作成
3.KITTIの画像上に2D bbxと3D bbxを描くためのプログラムの作成
・コンペのデータをダウンロードした。
・画像を表示してみる。
画像ファイルは、自分のパソコンのデスクトップに置いた。
C:\Users\・・・\Desktop\pku-autonomous-driving\train_images
・windowsアクセサリの「ペイント」で画像を表示させたところ、3384x2710ピクセルであった。
・ラベルを表示してみる。
・ラベルの入っているファイルは、train.csvである。拡張子のcsvは、comma separated valuesの略で、コンマで区切られた値、である。ファイルをダブルクリックすると、エクセルのスプレッドシートに読み込まれ、1列目にIDが表示され、2列目に、スペースで区切られた数値が並んでいる。2列目を選んで区切り記号をスペースに設定して再表示すれば、セルごとに整列する。
・1台の車に、6つの数値が割り当てられている。yaw, pitch, roll, x, y, zとなっている。
*KITTIと比べると、情報量が非常に少ない。2D bounding boxは与えられていない。
・6つのパラメータ、yaw, pitch, roll, x, y, zの数値を理解するために、2台の車のみ写っている1枚の画像を選び、画像とラベルを対応させてみた。
・KITTIでも、角度と位置のパラメータは、理解できていない。
・6つのパラメータ(yaw, pitch, roll, x, y, z)が、暗号にしかみえない。
・camera.intrinsicというテキストファイルがあり、中を見ると、fx, fy, cx, cyの4つの数値が入っているだけ。cx, cyは、画像中央部のピクセル値であろう。fx, fyは、カメラ座標であろう。その位置は、カメラ搭載車のボンネットの先の中央付近に相当する。
*明らかに、行き詰っている。原因は、1枚や2枚の画像とアノテーションしか見ていないことにありそうだ。コンペのトレーニング画像の姿勢情報から2D bbxを作ることができるかどうかが勝負の分かれ目かなと思うのだが、今は、ノーアイデアだ。
*まずは、全データを読み込んで、グラフ化したり、分類したりしてみよう。
つづく