VideoXum: Cross-modal Visual and Textural Summarization of Videos

自动汇总 计算机科学 任务(项目管理) 水准点(测量) 公制(单位) 情报检索 模式 一致性(知识库) 情态动词 滤波器(信号处理) 人工智能 叙述的 自然语言处理 计算机视觉 社会科学 语言学 运营管理 化学 哲学 管理 大地测量学 社会学 高分子化学 经济 地理
作者
Jie Lin,Hao Hua,Ming Chen,Yikang Li,Jen-Hao Hsiao,Chiuman Ho,Jiebo Luo
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.2303.12060
摘要

Video summarization aims to distill the most important information from a source video to produce either an abridged clip or a textual narrative. Traditionally, different methods have been proposed depending on whether the output is a video or text, thus ignoring the correlation between the two semantically related tasks of visual summarization and textual summarization. We propose a new joint video and text summarization task. The goal is to generate both a shortened video clip along with the corresponding textual summary from a long video, collectively referred to as a cross-modal summary. The generated shortened video clip and text narratives should be semantically well aligned. To this end, we first build a large-scale human-annotated dataset -- VideoXum (X refers to different modalities). The dataset is reannotated based on ActivityNet. After we filter out the videos that do not meet the length requirements, 14,001 long videos remain in our new dataset. Each video in our reannotated dataset has human-annotated video summaries and the corresponding narrative summaries. We then design a novel end-to-end model -- VTSUM-BILP to address the challenges of our proposed task. Moreover, we propose a new metric called VT-CLIPScore to help evaluate the semantic consistency of cross-modality summary. The proposed model achieves promising performance on this new task and establishes a benchmark for future research.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大邪王发布了新的文献求助10
1秒前
葡萄架完成签到,获得积分10
1秒前
2秒前
jeep先生发布了新的文献求助10
4秒前
7秒前
8秒前
12秒前
WangXiaoze发布了新的文献求助10
15秒前
17秒前
18秒前
小小刺客发布了新的文献求助10
19秒前
hh完成签到 ,获得积分10
19秒前
大模型应助shuoye采纳,获得10
19秒前
酷波er应助WM采纳,获得10
21秒前
kylin发布了新的文献求助10
22秒前
lynn完成签到,获得积分10
22秒前
乐乐应助八十一分先生采纳,获得10
23秒前
23秒前
23秒前
阿辽完成签到,获得积分10
24秒前
研友_8yX0xZ发布了新的文献求助30
24秒前
Annnnnnnnnn发布了新的文献求助10
24秒前
Murphy完成签到,获得积分10
24秒前
微暖完成签到,获得积分0
26秒前
搬砖达人发布了新的文献求助10
27秒前
SciGPT应助青岚采纳,获得10
27秒前
华仔应助科研通管家采纳,获得10
29秒前
科研通AI2S应助科研通管家采纳,获得10
29秒前
酷波er应助科研通管家采纳,获得20
29秒前
香蕉觅云应助科研通管家采纳,获得10
29秒前
搜集达人应助科研通管家采纳,获得10
29秒前
29秒前
田様应助科研通管家采纳,获得10
29秒前
yjc5g3发布了新的文献求助10
29秒前
在水一方应助科研通管家采纳,获得10
29秒前
30秒前
WM发布了新的文献求助10
34秒前
葡萄架发布了新的文献求助10
35秒前
幸福的迎梦发布了新的文献求助100
36秒前
jeep先生完成签到,获得积分10
42秒前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
行動データの計算論モデリング 強化学習モデルを例として 500
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 400
The role of families in providing long term care to the frail and chronically ill elderly living in the community 380
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2556051
求助须知:如何正确求助?哪些是违规求助? 2180017
关于积分的说明 5622341
捐赠科研通 1901350
什么是DOI,文献DOI怎么找? 949772
版权声明 565592
科研通“疑难数据库(出版商)”最低求助积分说明 504811