予測と行動の統一理論の開拓と検証
C01 小林泰介

C01 小林泰介

C01 推論としての強化学習が導く非線形TD誤差の機能的意義の解明

強化学習は生物の意思決定モデルとして注目されており、中でも将来の収益の予測誤差が脳内のドーパミンと強い相関があると知られている。しかし、近年の調査により、これら2つは単純な線形関係に限らず、多様な非線形性を複合的に包含することが示唆された。ここでの非線形性を捉えるモデルは残念ながらヒューリスティックな設計に留まっており、理論的な正当性が弱い。また、どういった非線形性を包含・分布し、どういった過程で獲得されるのかは不明瞭である。

そこで本研究では、Control as Inferenceに基づく新たな強化学習理論で、様々な非線形性を持つ予測誤差を理論的に導出する。この非線形性の機能的意義を、獲得された振る舞いだけでなく学習過程をも含んだ解析を通じて明らかにしつつ、それらを決定付けるパラメータを体系化する。そして、パラメータの確率的生成モデルを設計し、自由エネルギーなどの普遍的規範を用いた更新原理を確立する。この新理論をモデルとして、実際の脳活動データを説明した際の精緻化など、当該領域と連携して解析する。

研究代表者
小林 泰介

国立情報学研究所 助教

Web Page