| 标题 |
Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling 通过掩蔽建模揭示具有密集交互的视听早期融合变压器的力量
相关领域
计算机科学
视听
编码器
感知
多样性(控制论)
人工智能
分割
人机交互
机器学习
语音识别
多媒体
心理学
神经科学
操作系统
|
| 网址 | |
| DOI | |
| 其它 |
期刊:arXiv (Cornell University) 作者:Shentong Mo; Pedro Morgado 出版日期:2023-01-01 |
| 求助人 | |
| 下载 | |
|
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|