Reinforcement Learning Through Modulation of Spike-Timing-Dependent Synaptic Plasticity

峰值时间相关塑性 强化学习 学习规律 计算机科学 Spike(软件开发) 突触后电位 突触可塑性 跟踪(心理语言学) 尖峰神经网络 神经科学 人工神经网络 钢筋 人工智能 生物 心理学 生物化学 社会心理学 软件工程 哲学 语言学 受体
作者
Răzvan V. Florian
出处
期刊:Neural Computation [MIT Press]
卷期号:19 (6): 1468-1502 被引量:349
标识
DOI:10.1162/neco.2007.19.6.1468
摘要

The persistent modification of synaptic efficacy as a function of the relative timing of pre- and postsynaptic spikes is a phenomenon known as spike-timing-dependent plasticity (STDP). Here we show that the modulation of STDP by a global reward signal leads to reinforcement learning. We first derive analytically learning rules involving reward-modulated spike-timing-dependent synaptic and intrinsic plasticity, by applying a reinforcement learning algorithm to the stochastic spike response model of spiking neurons. These rules have several features common to plasticity mechanisms experimentally found in the brain. We then demonstrate in simulations of networks of integrate-and-fire neurons the efficacy of two simple learning rules involving modulated STDP. One rule is a direct extension of the standard STDP model (modulated STDP), and the other one involves an eligibility trace stored at each synapse that keeps a decaying memory of the relationships between the recent pairs of pre- and postsynaptic spike pairs (modulated STDP with eligibility trace). This latter rule permits learning even if the reward signal is delayed. The proposed rules are able to solve the XOR problem with both rate coded and temporally coded input and to learn a target output firing-rate pattern. These learning rules are biologically plausible, may be used for training generic artificial spiking neural networks, regardless of the neural model used, and suggest the experimental investigation in animals of the existence of reward-modulated STDP.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
JUGG完成签到,获得积分10
1秒前
1秒前
Daixi_Chen完成签到,获得积分10
2秒前
3秒前
张文文完成签到,获得积分10
3秒前
彩色寒凡完成签到,获得积分10
4秒前
xxx发布了新的文献求助10
5秒前
科研通AI6应助乌衣白马采纳,获得10
5秒前
5秒前
张文文发布了新的文献求助10
5秒前
6秒前
李火火火发布了新的文献求助10
6秒前
6秒前
彭于晏应助涅爹采纳,获得10
7秒前
阴影完成签到,获得积分10
7秒前
8秒前
8秒前
jijikoko发布了新的文献求助10
8秒前
饿石头发布了新的文献求助10
8秒前
卷发麦麦发布了新的文献求助10
10秒前
丘比特应助炫狗采纳,获得10
11秒前
长情白柏发布了新的文献求助10
12秒前
xxx完成签到,获得积分10
12秒前
xcz完成签到,获得积分10
12秒前
蓝豆子发布了新的文献求助10
12秒前
韩磊发布了新的文献求助10
13秒前
三四月发布了新的文献求助30
14秒前
科研通AI6应助整齐百褶裙采纳,获得10
14秒前
keyanwang完成签到,获得积分10
15秒前
xcz发布了新的文献求助10
16秒前
生活不是电影完成签到,获得积分10
16秒前
16秒前
义气雅山完成签到,获得积分10
17秒前
完美世界应助李火火火采纳,获得10
17秒前
灌灌灌灌规划完成签到,获得积分10
17秒前
18秒前
朱帅宇完成签到,获得积分20
19秒前
呆萌的无血完成签到,获得积分10
19秒前
CR7应助科研通管家采纳,获得20
19秒前
浮游应助科研通管家采纳,获得10
19秒前
高分求助中
HIGH DYNAMIC RANGE CMOS IMAGE SENSORS FOR LOW LIGHT APPLICATIONS 1500
Constitutional and Administrative Law 1000
Microbially Influenced Corrosion of Materials 500
Die Fliegen der Palaearktischen Region. Familie 64 g: Larvaevorinae (Tachininae). 1975 500
The Experimental Biology of Bryophytes 500
Numerical controlled progressive forming as dieless forming 400
Rural Geographies People, Place and the Countryside 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5381979
求助须知:如何正确求助?哪些是违规求助? 4505223
关于积分的说明 14020981
捐赠科研通 4414653
什么是DOI,文献DOI怎么找? 2424986
邀请新用户注册赠送积分活动 1417858
关于科研通互助平台的介绍 1395755