Humans can learn under a wide variety of feedback conditions. Reinforcement
learning(RL), where a series of rewarded decisions must be made, is a particularly
important type of learning. Computational and behavioral studies of RL have
focused mainly on Markovian decision processes, where the next state depends on
only the current state and action. Little is known about non-Markovian decision
making, where the next state depends on more than the current state and action.
Learning is non-Markovian, for example, when there is no unique mapping
between actions and feedback. We have produced a model based on spiking
neurons that can handle these non-Markovian conditions by performing policy
gradient descent [1]. Here, we examine the model¨s performance and compare it
with human learning and a Bayes optimal reference, which provides an
upper-bound on performance. We find that in all cases, our population of spiking
neurons model well-describes human performance.
薦 1畷 : MATLAB 奄沙畷
1. MATLAB 奄沙紫遂畷 ,,,,,,,,,,,,,,,,,,,, 003
1.1 MATLAB 獣拙馬奄 ,,,,,,,,,,,,,,,,,,,,,,,,,, 003
誤敬但(command Window)拭辞税 脊径 005
亀崇源(Help)税 戚遂 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 007
1.2 脊径 神嫌税 呪舛 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 008
域至税 掻走 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 009
MATLAB 曽戟馬奄 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 009
1.3 尻至引 痕呪税 拝雁 ,,,,,,,,,,,,,,,,,,,,,,,,,, 009
尻至切 酔識授是 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 011
鎧舌敗呪 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 012
1.4 汽戚斗税 妊薄 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 013
1.5 痕呪税 坦軒 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 015
痕呪 戚硯 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 015
clear 誤敬嬢 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 016
働呪痕呪人 舛呪 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 017
whos 誤敬嬢 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 017
1.6 困斗人 楳慶 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 018
困斗 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 018
楳慶 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 023
什滴鍵 窒径引 常薦 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 024
1.7 沓棋(Random)呪人 差社呪 ,,,,,,,,,,,,,, 025
沓棋 呪 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 025
差社呪 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 027
1.8 奄硲研 戚遂廃 尻至 ,,,,,,,,,,,,,,,,,,,,,,,,,, 028
奄硲縦拭辞税 帖発 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 029
1.9 坪球 督析 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 030
什滴験闘 坪球 督析 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 030
坪伍闘税 蓄亜 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 032
敗呪 坪球 督析 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 033
紫遂切 舛税敗呪 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 036
1.10 娃舘廃 益掘覗税 持失 ,,,,,,,,,,,,,,,,,,,,, 037
ezplot聖 戚遂廃 益掘覗 ,,,,,,,,,,,,,,,,,,,,,,,,,, 037
plot聖 戚遂廃 益掘覗 ,,,,,,,,,,,,,,,,,,,,,,,,,, 039
3託据 益掘覗 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 042
1.11 MATLAB引 植漆(Excel)税 羨紗 043 植漆 汽戚斗 災君神奄 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 043
汽戚斗 亜閃神奄 辛芝 ,,,,,,,,,,,,,,,,,,,,,,,,, 046
什滴験闘 持失 辛芝 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 049
敗呪 持失 辛芝 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 049
持失吉 汽戚斗研 植漆督析稽 煽舌馬奄 ,, 050
薦 2畷 : 尻姥轄庚
Human and Machine Learning in Non-Markovian Decision Making
1. Introduction 51
2. Results 53
3. Experiment 2: Intermixed Feedback 55
4. Modeling 56
5. Discussion 58
6. Materials and Methods 59
7. Procedures 60
8. Supporting Information 62
9. References 63