三菱電機、産業用ロボットAIの強化学習を進化　学習時間を1/10に短縮

2019年2月14日 09:02

　三菱電機は13日、同社AIの強化学習を進化させ、学習内容を段階的に自動で追加することにより、短時間で学習を完了する技術を開発したと発表した。

【こちらも】三菱電機、AI同士が競い合って学習するGANをコンパクト化　資源1/10に

　人工知能(AI)の学習方法の一つ強化学習。試行錯誤を通じて環境に適合する学習制御の枠組みだ。教師付の学習とは異なり、ある行動によって得られる報酬によって学習する。つまり、報酬が最大になるように行動する学習方法だが、報酬にはノイズや遅延が存在するため、行動直後の報酬からは学習行動が正しいのか判断が難しい。

　この強化学習がAIの中で確たる地位を得ている理由は、不確実性が存在する環境を扱う点にある。我々の身の周りには、多くの最新の制御技術が活用されているが、その前提は環境が定義されることである。多くの制御技術は、不確実性の扱いを苦手としている。

　残念ながら今回の発表は、不確実性が存在する環境への適合という画期的なものではないが、学習内容(人間の知見)を段階的に自動で追加することで、AIに学習させる時間を1/10に短縮。将来の不確実性環境への制御適用へ活路を見出す可能性を秘める。

　三菱電機のAI技術Maisart(Mitsubishi Electric's AI creates the State-of-the-ART in technology)に組込み、産業用ロボットで実証した。

●Maisartの強化学習の特長
　AI誕生以前も試行錯誤の「ad hoc」アルゴリズムは多く存在。それは、コンピュータの計算時間では解が得られないような問題に対処するもので、その時代時代で主流のアルゴリズムとして地位を築いてきた。その課題は、最適解を得られない事象に陥る(第2第3の解を正解とする)場合があることであった。

　この経験からであろうか、学習内容を単純化。段階的に学習内容を自動で追加していく手法を開発した。

　図の産業用ロボットで解説すると、先ずロボットにスタートからゴールまでの経路情報を教える。このことにより、最良の解に達しない弊害を回避している。次に経路に短時間で到達する動作を強化学習し、実装に至る。

　一度に学習させる手法に比べて、調整作業に必要な時間を10分の1に短縮。

　この技術の延長線上に、新たな制御技術の進化を期待する。（記事：小池豊・記事一覧を見る）

三菱電機、産業用ロボットAIの強化学習を進化　学習時間を1/10に短縮

関連記事

最新記事

三菱電機、産業用ロボットAIの強化学習を進化 学習時間を1/10に短縮

関連記事

最新記事

三菱電機、産業用ロボットAIの強化学習を進化　学習時間を1/10に短縮