Image Caption And Speech Generation Using LSTM And GTTS API

计算机科学 管道(软件) 发电机(电路理论) 语音识别 隐藏字幕 领域(数学) 人工智能 图像(数学) 语音合成 深度学习 直线(几何图形) 自然语言处理 计算机视觉 程序设计语言 数学 量子力学 物理 功率(物理) 纯数学 几何学
作者
K. Bhargav Ram,B. Venkatesh,Sala Pooja Sai Sree,Chunduru Anilkumar,V. Reddy,Bhavya Kodumuri
标识
DOI:10.1109/icaiss58487.2023.10250554
摘要

Image Caption generation is one of the challenging tasks in the field of artificial intelligence. It is used to generate a textual description for a given picture. But due to, the recent advancement in deep learning techniques requires only one single end-to-end model to create a caption for the given image. This paper is intended to provide an image caption and speech generator used to generate a single-line description for a given image and audio/speech for the report generated. The researchers used a sophisticated pipeline of specifically designed models in the previous models. To achieve the proposed model, VGG16 and LSTM models are used to obtain descriptions for the image and GTTS API is used for the audio/speech generation.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
我就是个傻福应助芷荷采纳,获得10
1秒前
阿布发布了新的文献求助10
1秒前
2秒前
小张关注了科研通微信公众号
3秒前
李小伟完成签到,获得积分10
3秒前
子川完成签到,获得积分10
5秒前
chama发布了新的文献求助10
5秒前
mmyhn发布了新的文献求助10
5秒前
吕吕发布了新的文献求助10
6秒前
CodeCraft应助xixi很困采纳,获得10
6秒前
fafa完成签到,获得积分10
6秒前
小小研究牲11完成签到 ,获得积分20
6秒前
OsamaKareem给机灵自行车的求助进行了留言
6秒前
稳重的衬衫完成签到,获得积分10
6秒前
子川发布了新的文献求助10
8秒前
科目三应助子訡采纳,获得10
10秒前
小蘑菇应助ky幻影采纳,获得10
10秒前
DQ完成签到,获得积分10
12秒前
15秒前
bkagyin应助Catherine采纳,获得10
15秒前
薏米完成签到,获得积分10
17秒前
科目三应助科研通管家采纳,获得10
17秒前
天天快乐应助科研通管家采纳,获得10
17秒前
香蕉觅云应助科研通管家采纳,获得10
17秒前
芋泥完成签到,获得积分10
17秒前
科研狗应助科研通管家采纳,获得30
17秒前
爆米花应助科研通管家采纳,获得10
17秒前
17秒前
Heisenberg应助科研通管家采纳,获得10
18秒前
汉堡包应助科研通管家采纳,获得10
18秒前
英俊的铭应助科研通管家采纳,获得10
18秒前
李健应助科研通管家采纳,获得10
18秒前
大模型应助科研通管家采纳,获得10
18秒前
18秒前
18秒前
18秒前
LBB发布了新的文献求助10
19秒前
不坠发布了新的文献求助10
19秒前
21秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Les Mantodea de Guyane Insecta, Polyneoptera 2000
Leading Academic-Practice Partnerships in Nursing and Healthcare: A Paradigm for Change 800
Signals, Systems, and Signal Processing 610
Research Methods for Business: A Skill Building Approach, 9th Edition 500
Research Methods for Applied Linguistics 500
Picture Books with Same-sex Parented Families Unintentional Censorship 444
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6412794
求助须知:如何正确求助?哪些是违规求助? 8231871
关于积分的说明 17471845
捐赠科研通 5465594
什么是DOI,文献DOI怎么找? 2887788
邀请新用户注册赠送积分活动 1864514
关于科研通互助平台的介绍 1703005