セミナーレポート

ディープラーニングを用いた物体認識とその周辺～現状と課題～大阪府立大学大学院工学研究科准教授　岩村雅一，大阪府立大学大学院工学研究科博士課程　山田良博

UPDATE：2018.07.25 (6年前) | 記事カテゴリー：セミナーレポート

本記事は、画像センシング展2018にて開催された招待講演を記事化したものになります。

関連タスク

　物体認識を応用したタスクとしては，2004年に初めて近代的な物体認識用データセット「Caltech101」が登場しました。クラス数は101で，画像枚数は約1万枚でした。その後，2009年に登場した「ImageNet」では，クラス数は2万以上，画像枚数は1400万枚と，それまでの100倍以上の桁外れの規模の物体認識用データセットになり，物体認識の技術が発展しました。
　現在の主流は単なる認識だけではなく，その認識を活用して何ができるかといった発展的なタスクへと向かっています。物体認識ができるようになって出てきたのが，1つは画像生成です。ここには，敵対的生成ネットワーク（GAN）があります。GANは生成器と識別器が競い合うことによって，生成精度を向上させていくものです。しかし，GANにも課題があります。モード崩壊と言われていますが，学習が進んでバランスが崩れることで，画像生成がうまくいかなくなってしまうのです。生成器と識別器のバランスをどのように保つかがGANの大きな課題です。
　応用技術が進むにつれて，今後セキュリティなどの問題が重要になってくると考えられます。自動運転の場合では，悪意のある人が標識の文字を消したらどうなるでしょうか。敵対的事例と呼ばれる最新の技術を使えば，人の目ではわからないレベルで画像を変え，画像認識を誤らせることもできてしまいます。今後，更なる対策が必要になっています。
　物体認識の関連タスクでは，単なる認識で終わるのではなく，より優れた物体認識を行う手法を人の手を介さず自動で検討する仕組みや，物体認識を行った際に何故そう判断したのか可視化する，といった物体認識の補助となる仕組みの検討も進んでいます。
　ディープラーニングは大規模なデータが必要ですが，大規模なデータがなかったらどうしたらいいのでしょうか。これには，いくつかの解決方法が提案されています。その1つが自己教師あり学習です。例えば，グレースケールの画像に色をつけたいときには，カラーの画像をグレースケールの画像に変換し，グレースケールの画像を入力するとカラーの画像が出るように学習をさせます。そうすると，手動でラベル付けをする必要はありません。本当に学習させたい物体認識とは違うタスクで学習して，特徴表現だけ得るようにすること，これを，Pretext Tasksといいます。ただし，教師あり学習より精度が劣るのが現状となっています。

大阪府立大学大学院工学研究科准教授　岩村雅一

2003年，東北大学大学院工学研究科博士課程修了。博士（工学）。同年同大学大学院工学研究科助手。2004年，大阪府立大学大学院工学研究科助手，助教を経て，2011年同准教授。文字認識，物体認識，文書画像検索，視覚障害者支援などの研究に従事。2016年からIAPR TC11（Reading Systems）Vice Chair。

大阪府立大学大学院工学研究科博士課程　山田良博

2017年，大阪府立大学大学院工学研究科修士課程修了。現在，同博士課程在学中。日本学術振興会特別研究員。深層学習を用いた一般物体認識の研究に従事し，世界一の認識精度を2度達成した。2017年電子情報通信学会パターン認識・メディア理解（PRMU）研究会にて，月間ベストプレゼンテーション賞，研究奨励賞を受賞。同年，画像の認識・理解シンポジウム（MIRU2017）にて，MIRUインタラクティブ発表賞受賞。2018年電子情報通信学会パターン認識・メディア理解（PRMU）研究会にて，研究奨励賞を2年連続受賞。