Image Caption And Speech Generation Using LSTM And GTTS API

计算机科学 管道(软件) 发电机(电路理论) 语音识别 隐藏字幕 领域(数学) 人工智能 图像(数学) 语音合成 深度学习 直线(几何图形) 自然语言处理 计算机视觉 程序设计语言 功率(物理) 物理 几何学 数学 量子力学 纯数学
作者
K. Bhargav Ram,B. Venkatesh,Sala Pooja Sai Sree,Chunduru Anilkumar,V. Reddy,Bhavya Kodumuri
标识
DOI:10.1109/icaiss58487.2023.10250554
摘要

Image Caption generation is one of the challenging tasks in the field of artificial intelligence. It is used to generate a textual description for a given picture. But due to, the recent advancement in deep learning techniques requires only one single end-to-end model to create a caption for the given image. This paper is intended to provide an image caption and speech generator used to generate a single-line description for a given image and audio/speech for the report generated. The researchers used a sophisticated pipeline of specifically designed models in the previous models. To achieve the proposed model, VGG16 and LSTM models are used to obtain descriptions for the image and GTTS API is used for the audio/speech generation.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
sochiyuen完成签到,获得积分10
1秒前
2秒前
2秒前
科研通AI5应助Soul采纳,获得10
4秒前
4秒前
伊力扎提发布了新的文献求助10
5秒前
t711发布了新的文献求助10
5秒前
7秒前
天涯之路发布了新的文献求助10
8秒前
wang发布了新的文献求助30
9秒前
9秒前
12秒前
ccccl发布了新的文献求助50
13秒前
小鱼完成签到 ,获得积分10
13秒前
13秒前
14秒前
poser完成签到,获得积分10
16秒前
wz完成签到,获得积分10
17秒前
阿信苏发布了新的文献求助30
18秒前
刘思琪发布了新的文献求助10
19秒前
Tingshan发布了新的文献求助10
22秒前
刘EingS_123完成签到,获得积分10
22秒前
23秒前
04liqian完成签到,获得积分10
23秒前
24秒前
24秒前
共享精神应助wang采纳,获得10
25秒前
顺心的安珊完成签到 ,获得积分10
25秒前
04liqian发布了新的文献求助10
27秒前
落后的凝梦完成签到 ,获得积分10
27秒前
28秒前
初见关注了科研通微信公众号
28秒前
脑洞疼应助linghanlan采纳,获得10
29秒前
香妃发布了新的文献求助10
29秒前
酷波er应助ccccl采纳,获得50
29秒前
30秒前
lmm发布了新的文献求助10
30秒前
DoctorLily发布了新的文献求助10
32秒前
32秒前
wanhe发布了新的文献求助10
33秒前
高分求助中
(应助此贴封号)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 3000
F-35B V2.0 How to build Kitty Hawk's F-35B Version 2.0 Model 2500
줄기세포 생물학 1000
The Netter Collection of Medical Illustrations: Digestive System, Volume 9, Part III - Liver, Biliary Tract, and Pancreas (3rd Edition) 600
INQUIRY-BASED PEDAGOGY TO SUPPORT STEM LEARNING AND 21ST CENTURY SKILLS: PREPARING NEW TEACHERS TO IMPLEMENT PROJECT AND PROBLEM-BASED LEARNING 500
2025-2031全球及中国蛋黄lgY抗体行业研究及十五五规划分析报告(2025-2031 Global and China Chicken lgY Antibody Industry Research and 15th Five Year Plan Analysis Report) 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4482813
求助须知:如何正确求助?哪些是违规求助? 3938774
关于积分的说明 12218518
捐赠科研通 3594043
什么是DOI,文献DOI怎么找? 1976495
邀请新用户注册赠送积分活动 1013649
科研通“疑难数据库(出版商)”最低求助积分说明 906780