セミナーレポート

アテンションメカニズムによる深層学習の解釈に向けて中部大学　工学部ロボット理工学科　藤吉　弘亘

UPDATE：2019.03.25 (5年前) | 記事カテゴリー：セミナーレポート

本記事は、国際画像機器展2018にて開催された特別招待講演を記事化したものになります。

認識から制御までの一貫学習による自動運転

　最近のトピックスとして，NVIDIA Self-Driving Carsという自動運転の研究があります。通常，自動運転は，入力された画像を認識し，その結果からパスプランニングを行い，パスを実現するための制御信号であるステアリングやスロットルを制御します。しかし，この研究は，エンドツーエンド学習による自動運転です。画像を入力し，CNN（Convolutional Neural Network）を通した出力が直接ステアリングの制御値になります。認識から制御まで一気通貫で学習してしまいます。
　われわれは同じような研究を，シミュレーター（GTAV）を利用して行い，走行データを収集しています。取得データは，フレーム，ステアリング，スロットル，車体速度です。シミュレーターの良さは，いかなる天候，時間帯，場所でも走ることができることです。研究では，約8時間半（計10万フレーム）のデータを収集することができました。画像と車体速度を入力し，ステアリングとスロットルを制御するように学習させた結果，カメラ映像のみの入力に比べ，自己状態を付与することで，上り坂も下り坂も滑らかな自動運転が可能になりました。また，Attention Branch Network（ABN）を導入することで，例えばカーブの場合，ステアリングと反対方向の車線に沿ってアテンションが発生し，停止時には前方車両のブレーキランプにアテンションが発生しているのがわかります。アテンションを解釈することで一貫学習ネットワークの理解につながります。これらのアプローチは，深層強化学習によるロボットの自動移動動作の自動獲得にも適用できます。
　ABNによるアテンションの獲得を，「AIの視線の可視化技術」という言葉で新聞記事にしていただいたことがあります。例えば，自動運転の場合，いきなり車線変更されたら戸惑います。そういったときに，何を捉えたのかというアテンションの可視化が重要になります。また，最終的にはAIとの信頼関係ができ，任せることができればいいのですが，それまでの間，このアテンションをベースに，どう判断したのか，判断した理由の文章化やドライバーへの説明ができるようになることが必要と考えています。