已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

判别式 序列(生物学) 发电机(电路理论) 计算机科学 鉴别器 生成模型 强化学习 生成语法 人工智能 机器学习 功率(物理) 电信 遗传学 物理 量子力学 探测器 生物
作者
Lantao Yu,Weinan Zhang,Jun Wang,Yong Yu
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:31 (1) 被引量:2245
标识
DOI:10.1609/aaai.v31i1.10804
摘要

As a new way of training generative models, Generative Adversarial Net (GAN) that uses a discriminative model to guide the training of the generative model has enjoyed considerable success in generating real-valued data. However, it has limitations when the goal is for generating sequences of discrete tokens. A major reason lies in that the discrete outputs from the generative model make it difficult to pass the gradient update from the discriminative model to the generative model. Also, the discriminative model can only assess a complete sequence, while for a partially generated sequence, it is non-trivial to balance its current score and the future one once the entire sequence has been generated. In this paper, we propose a sequence generation framework, called SeqGAN, to solve the problems. Modeling the data generator as a stochastic policy in reinforcement learning (RL), SeqGAN bypasses the generator differentiation problem by directly performing gradient policy update. The RL reward signal comes from the GAN discriminator judged on a complete sequence, and is passed back to the intermediate state-action steps using Monte Carlo search. Extensive experiments on synthetic data and real-world tasks demonstrate significant improvements over strong baselines.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
红豆泥发布了新的文献求助10
2秒前
17完成签到 ,获得积分10
2秒前
orixero应助聪聪采纳,获得10
3秒前
4秒前
6秒前
灰雁应助balko采纳,获得10
8秒前
时光翩然轻擦完成签到,获得积分10
9秒前
Qwepo8发布了新的文献求助10
9秒前
9秒前
11秒前
畅快时光发布了新的文献求助10
11秒前
12秒前
13秒前
Orange应助科研通管家采纳,获得10
13秒前
13秒前
16秒前
聪聪发布了新的文献求助10
17秒前
小王梓发布了新的文献求助10
17秒前
18秒前
18秒前
嘿嘿发布了新的文献求助10
19秒前
24秒前
wanci应助哈哈采纳,获得10
24秒前
富贵发布了新的文献求助10
28秒前
尊敬的凝丹完成签到 ,获得积分10
28秒前
29秒前
YuuuY完成签到 ,获得积分10
33秒前
哈哈发布了新的文献求助10
35秒前
36秒前
38秒前
Qwepo8完成签到,获得积分10
39秒前
bzlish发布了新的文献求助10
41秒前
bkagyin应助周鑫鑫周采纳,获得10
41秒前
感动白开水完成签到,获得积分10
42秒前
llin发布了新的文献求助10
42秒前
CipherSage应助Total采纳,获得10
43秒前
orange完成签到 ,获得积分10
44秒前
哈哈完成签到,获得积分10
44秒前
玲儿完成签到 ,获得积分10
45秒前
无限亦寒完成签到 ,获得积分10
46秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Pulse width control of a 3-phase inverter with non sinusoidal phase voltages 777
Signals, Systems, and Signal Processing 610
Research Methods for Applied Linguistics: A Practical Guide 600
Research Methods for Applied Linguistics 500
Chemistry and Physics of Carbon Volume 15 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6407589
求助须知:如何正确求助?哪些是违规求助? 8226677
关于积分的说明 17448735
捐赠科研通 5460297
什么是DOI,文献DOI怎么找? 2885423
邀请新用户注册赠送积分活动 1861694
关于科研通互助平台的介绍 1701883