セミナーレポート

ディープラーニングによる画像認識と活用事例中部大学工学部情報工学科准教授　山下　隆義

UPDATE：2017.09.25 (7年前) | 記事カテゴリー：セミナーレポート

本記事は、画像センシング展2017にて開催された誰にでもわかる特別講演を記事化したものになります。

画像分野でのディープラーニングの応用事例

　データセットを通じて，新しいアルゴリズムも出てきています。代表的なものは2012年に出たAlexNetで，ディープラーニングが注目されるきっかけになりました。AlexNetは8層でしたが，2014年に出たVGG16は16層，同時期に出たGoogLeNetは22層と深い構造になり，さらに性能が良くなりました。2015年に出たResNet（Residual Network）は，152層という非常に深い構造になっています。その精度は，人のエラー率5.1％に対して，ResNetでは3.57％まで下がっています。
　物体検出では，YOLOというものがあります。1つの物体検出で，人や車，鳥，猫など複数のものを同時に検出することができます。そのほかには，SSD（Single Shot MultiBox Detector）といったものもあります。1つの検出器で多クラスの物体が検出できるということで注目されています。
　姿勢推定では，人の骨格位置を高精度・高速に検出できるConvolutional Pose Machineや，同時に複数の人の姿勢を検出できるOpenPoseと呼ばれるものが出てきています。画像を入力して，各キーポイントの確率マップを出力します。セグメンテーションは，道路，自動車，建物といった状況を認識できるSegNetにより画素単位でクラスを認識します。こうしたセグメンテーションを対象にしたデータセットには，CityScapesがあります。ヨーロッパの都市を中心に50都市で撮影されたものです。
　畳み込みニューラルネットワークは今，強化学習にも応用されています。トライ＆エラーを繰り返し，行動の仕方を自分で獲得していきます。ロボットへの応用も同じで，何台ものロボットにトライ＆エラーで学習させ，必要な動作を獲得させていきます。すべてのロボットで情報を共有することで学習速度を速めることができます。
　現在，ディープラーニングのライブラリ／フレームワークがたくさん公開されています。Caffe，Chainer，facebookが公開しているTorch，amazonのMXNet，MicrosoftのCNTKなどが有名です。画像認識では多くのソースコードのベースとなっているCaffe，日本で作っているChainerなどがお薦めです。

中部大学工学部情報工学科准教授　山下　隆義

2002年奈良先端科学技術大学院大学博士前期課程修了，2002年オムロン株式会社入社，2011年中部大学大学院博士後期課程修了（社会人ドクター），2014年中部大学講師，2017年中部大学准教授。人の理解に向けた動画像処理，パターン認識・機械学習の研究に従事。画像センシングシンポジウム高木賞（2009年），電子情報通信学会情報・システムソサイエティ論文賞（2013年），電子情報通信学会PRMU研究会研究奨励賞（2013年）受賞。