セミナーレポート

ディープラーニングを用いた物体認識とその周辺～現状と課題～大阪府立大学大学院工学研究科准教授　岩村雅一，大阪府立大学大学院工学研究科博士課程　山田良博

UPDATE：2018.07.25 (6年前) | 記事カテゴリー：セミナーレポート

本記事は、画像センシング展2018にて開催された招待講演を記事化したものになります。

物体認識とニューラルネットワーク

　物体認識にはカテゴリーのレベルがあります。一番下は，インスタンスレベル（特定物体認識）で，犬の場合なら，ポチ，シロといった個々の名前にあたります。一番上は，我々が今取り組んでいるカテゴリーレベル（一般物体認識）で，犬ならば犬だと認識をします。その両方の間に，犬種などを認識するサブカテゴリーレベルがあります。一般物体認識では，クラスあたりの画像枚数が非常に多く，ディープラーニングとも相性がいいと言えます。一方，対極にある特定物体認識は，クラスあたりの画像枚数が少ないです。
　ディープラーニング以前の一般物体認識は2000年くらいから盛り上がりを見せており，SIFT（スケール不変特徴変換）に代表されるような様々な局所特徴量が出てきたことで，特定物体認識や一般物体認識が比較的簡単に解けるようになりました。入力画像から局所特徴量を抽出し，大量に出てきた特徴をクラスタリングします。これを各クラスタにマッピングしたヒストグラムが，画像を記述する特徴になります。「Bag of Visual Words表現」と呼ばれるものです。そして，最後にSVNなどの識別器を使い，クラスラベルを得られます。
　それに対して，ディープラーニング以降は，パイプラインが非常に簡単になりました。入力画像から，畳み込みニューラルネットワーク（CNN）で特徴を抽出し，それを全結合し，識別します。あるいは，最後のところだけSVM（Support Vector Machine）などの識別器を使う従来の方法で行うパターンになります。結局，最後の識別器のところはあまり変わっておらず，特徴抽出系が学習によって得られるようになったのが大きな違いです。ただし，学習で求めようとすると，基本的には大規模なラベル付き学習データが必要になり，これが制約になります。これまで性能が上がってきたのは，「ImageNet」に代表されるように，大規模な画像のラベル付きデータセットが出てきたからであり，学習データが少ないと，今までと同じか，それ以下の性能しか出せません。

＜次ページへ続く＞

大阪府立大学大学院工学研究科准教授　岩村雅一

2003年，東北大学大学院工学研究科博士課程修了。博士（工学）。同年同大学大学院工学研究科助手。2004年，大阪府立大学大学院工学研究科助手，助教を経て，2011年同准教授。文字認識，物体認識，文書画像検索，視覚障害者支援などの研究に従事。2016年からIAPR TC11（Reading Systems）Vice Chair。

大阪府立大学大学院工学研究科博士課程　山田良博

2017年，大阪府立大学大学院工学研究科修士課程修了。現在，同博士課程在学中。日本学術振興会特別研究員。深層学習を用いた一般物体認識の研究に従事し，世界一の認識精度を2度達成した。2017年電子情報通信学会パターン認識・メディア理解（PRMU）研究会にて，月間ベストプレゼンテーション賞，研究奨励賞を受賞。同年，画像の認識・理解シンポジウム（MIRU2017）にて，MIRUインタラクティブ発表賞受賞。2018年電子情報通信学会パターン認識・メディア理解（PRMU）研究会にて，研究奨励賞を2年連続受賞。