三菱電機、産業用ロボットAIの強化学習を進化 学習時間を1/10に短縮
2019年2月14日 09:02
三菱電機は13日、同社AIの強化学習を進化させ、学習内容を段階的に自動で追加することにより、短時間で学習を完了する技術を開発したと発表した。
【こちらも】三菱電機、AI同士が競い合って学習するGANをコンパクト化 資源1/10に
人工知能(AI)の学習方法の一つ強化学習。試行錯誤を通じて環境に適合する学習制御の枠組みだ。教師付の学習とは異なり、ある行動によって得られる報酬によって学習する。つまり、報酬が最大になるように行動する学習方法だが、報酬にはノイズや遅延が存在するため、行動直後の報酬からは学習行動が正しいのか判断が難しい。
この強化学習がAIの中で確たる地位を得ている理由は、不確実性が存在する環境を扱う点にある。我々の身の周りには、多くの最新の制御技術が活用されているが、その前提は環境が定義されることである。多くの制御技術は、不確実性の扱いを苦手としている。
残念ながら今回の発表は、不確実性が存在する環境への適合という画期的なものではないが、学習内容(人間の知見)を段階的に自動で追加することで、AIに学習させる時間を1/10に短縮。将来の不確実性環境への制御適用へ活路を見出す可能性を秘める。
三菱電機のAI技術Maisart(Mitsubishi Electric's AI creates the State-of-the-ART in technology)に組込み、産業用ロボットで実証した。
●Maisartの強化学習の特長
AI誕生以前も試行錯誤の「ad hoc」アルゴリズムは多く存在。それは、コンピュータの計算時間では解が得られないような問題に対処するもので、その時代時代で主流のアルゴリズムとして地位を築いてきた。その課題は、最適解を得られない事象に陥る(第2第3の解を正解とする)場合があることであった。
この経験からであろうか、学習内容を単純化。段階的に学習内容を自動で追加していく手法を開発した。
図の産業用ロボットで解説すると、先ずロボットにスタートからゴールまでの経路情報を教える。このことにより、最良の解に達しない弊害を回避している。次に経路に短時間で到達する動作を強化学習し、実装に至る。
一度に学習させる手法に比べて、調整作業に必要な時間を10分の1に短縮。
この技術の延長線上に、新たな制御技術の進化を期待する。(記事:小池豊・記事一覧を見る)