セミナーレポート

アテンションメカニズムによる深層学習の解釈に向けて中部大学　工学部ロボット理工学科　藤吉　弘亘

UPDATE：2019.03.25 (5年前) | 記事カテゴリー：セミナーレポート

本記事は、国際画像機器展2018にて開催された特別招待講演を記事化したものになります。

＞＞ OplusE 2019年3・4月号（第466号）記事掲載＜＜

入力に対する着眼点をモデルに組み込みアテンションを可視化

　2007年に名古屋のロボットミュージアムの取材を新聞社から受けたとき，「技術者は，ロボットが何を認識してどう動いているのか，正確に伝えるべきだ」とコメントし，記事となりました。この「ロボット」という言葉を「人工知能」に置き換えてもまったく同じ問題があると思っています。深層学習が進化し，多くの画像認識タスクにおいて高い認識性能を実現できるようになってきました。一方で，AIがどのように判断して，結果を導いたかがわかりづらくなっています。2016～17年にかけて，深層学習の判断根拠を解釈するためのアプローチがいろいろ出てきました。その中で，われわれが注目しているのが，入力に対する着眼点（Attention）をモデルに組み込むアプローチです。
　視覚的注意の仕組みから，人が画像・映像の中でどの部分に注視しやすいか示すのに，顕著性があります。一般的にはボトムアップ顕著性と言われ，入力された画像上の情報量の多いところに注目し，計算します。しかし，アテンションはその逆でトップダウン顕著性といい，車種やメーカーを認識するときに注目します。その１つに，Class Activation Mapping（CAM）と呼ばれるアプローチがあります。入力画像に対して畳み込み処理を行って得られた特徴マップの一つひとつに対してGlobal Average Pooling（GAP）という処理により平均値を計算し，全結合して出力するものです。あるものを認識したときに，どのような箇所に注目したかが可視化され，可視化されたAttention mapを見ることで，深層学習のネットワークが好ましい学習がされているかがわかります。
　ただし，CAMはGAPを通過して推論するため識別性能の低下を招きます。そこでわれわれはAttention Branch Networkというアプローチに取り組んでいます。これは，GAPからAttention map を生成し，Attention mapを推論にも利用するネットワークです。ResNetのベースのAttention Branch Networkは，72クラスのメーカー識別では約7％，431クラスの車種識別においても約6％の性能向上を実現しました。

＜次ページへ続く＞