セミナーレポート

アテンションメカニズムによる深層学習の解釈に向けて中部大学　工学部ロボット理工学科　藤吉　弘亘

UPDATE：2019.03.25 (5年前) | 記事カテゴリー：セミナーレポート

本記事は、国際画像機器展2018にて開催された特別招待講演を記事化したものになります。

アテンションの可視化の実応用

　車種識別において，t-SNEという方法を用い，畳み込みを行った後の特徴マップを特徴ベクトルとして可視化すると，Attention map反映後の特徴ベクトルでは，自動車の姿勢や車種ごとにクラスター分けされます。アテンションを反映することで，より識別に有効な特徴ベクトルが獲得できるのです。また，t-SNEで車種認識とメーカー認識の2つのAttention mapを可視化すると，入力画像が同じでも2種類のネットワークが別のアテンションを獲得しており，目的によって着目している領域が異なることがわかります。
これらは顔の属性認識などにも適用できます。ウェイビーヘアーの認識では，毛先の部分，笑顔の認識では口元だけにアテンションがかかり，そこから結果を出力していることがわかります。アテンションを見ることで，ネットワークがより好ましい学習ができているかどうかを知ることができるのです。
　最近はこれらを実応用的な問題で確認しようと，眼底画像の疾患判定に適用しています。専門医が眼底画像から正常と疾患に判別したものにラベルをつけネットワークを学習させました。その結果，専門医よりはやや劣りましたが，研修医よりは良い性能が得られました。特に，われわれのAttention Branch Networkでは，従来のGrad-Camと比較すると，より疾患が発生した領域にアテンションがかかっており，医療現場で重要な患者さんの説明の際，納得してもらえるのではないかと思っています。
　深層学習は教師あり学習の一種ですから，問題によっては100％の識別性能に到達しないことがあります。そのため，現場でうまくいくように調整しないといけません。従来の機械学習はパラメーターも少なく調整も容易でしたが，DNN（Deep Neural Network）のパラメーター数は膨大で，手動での調整は困難です。パラメーターは変更せずに，人間の見た目で理解しやすいAttention mapを手動で調整することで，正しい識別結果を得ることが可能になります。これは人の知見を導入したDNNになると考えています。

＜次ページへ続く＞