Deepfake Detection Challenge - 1
Identify videos with facial or voice manipulations
*コンペに参加
・コンペに参加する必須条件の1つは、規則を遵守することである。
・そのためには、規則を正しく理解しなければならない。
・今回は、データセットの特殊性により、データの使用、管理等に関する注意事項が、提供元から、非常に細かいところまで定義されているように思う。
・データ使用の許諾契約書を正確に理解するのは、母国語であっても容易ではない。慎重に読み進むことが求められる。
*本コンペに参加しようと思った理由
1.ビデオデータを扱えるようになりたい。
2.画像にしても、音声にしても、えっ、fakeかどうか見分けられるの?、できたらすごいな、と思った。
*文献調査等
Detecting Face2Face Facial Reenactment in Videos, P. Kumar et al., arXiv 21 Jan 2020
・これは、FaceForensics dataset(FaceForensics++は、DeepFakes, Face2Face, FaceSwap, NeuralTextuesの4つの手法で処理して作成されたデータベースであるが、本論文では、Face2Faceで作成されたデータセットを用いている)を用いて、ビデオ画像からFakeかどうか判定する方法を検討したもの。
・Fake Videoを作る方法:2.1. Generation Techniques
・Fake Videoを見破るこれまでの方法:2.2. Detection Algorithms
・見破る方法の提案:Proposed Detection Algorism
Face2Face reenactment techniqueで作成されたFake videoを見破る方法の提案である。
DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection, L. Jiang et al., arXiv 9 Jan 2020
・Fake videoのデータベース作成
・既存のデータベースの10倍の規模
・既存のデータベースよりも高品質なfake videoを作成する方法
*なぜ高品質なデータベースが必要なのか:Fake かどうかを見分けるモデルの性能は、トレーニングに用いるデータベースの質に依存するからである。
・したがって、この論文では、作成したデータベースの性能を測るために、Fakeを見破る能力の高いモデルが用いられている。
・C3D, TSN, I3D, ResNet+LSTM, XceptionNetなどが、データベースの性能評価のために用いられている。
*ということは、DeeperForensics-1.0でトレーニングしたこれらのモデルは、fakeを見破る能力が高いということになる。ただし、ResNet+LSTMとXceptionNet は、汎用的に用いられている手法である。
Recurrent Convolutional Strategies for Face Manipuration Detection in Videos, E. Sabir et al., arXiv 16 May 2019
Deepfake Video Detection Using Recurrent Neural Networks, D. Güera and E. J. Delp, AVSS, pages 1-6, IEEE, 2018
*コンペに直接関連した文献が、少なくとも、これだけあることに驚いた。(ほんの一部かもしれない)
*明日は、コンペのdiscussionとnotebookから学ぼう。
つづく