Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

判决 计算机科学 自然语言处理 人工智能 推论 相似性(几何) 余弦相似度 集合(抽象数据类型) 语义相似性 聚类分析 程序设计语言 图像(数学)
作者
Nils Reimers,Iryna Gurevych
出处
期刊:Cornell University - arXiv 被引量:206
标识
DOI:10.48550/arxiv.1908.10084
摘要

BERT (Devlin et al., 2018) and RoBERTa (Liu et al., 2019) has set a new state-of-the-art performance on sentence-pair regression tasks like semantic textual similarity (STS). However, it requires that both sentences are fed into the network, which causes a massive computational overhead: Finding the most similar pair in a collection of 10,000 sentences requires about 50 million inference computations (~65 hours) with BERT. The construction of BERT makes it unsuitable for semantic similarity search as well as for unsupervised tasks like clustering. In this publication, we present Sentence-BERT (SBERT), a modification of the pretrained BERT network that use siamese and triplet network structures to derive semantically meaningful sentence embeddings that can be compared using cosine-similarity. This reduces the effort for finding the most similar pair from 65 hours with BERT / RoBERTa to about 5 seconds with SBERT, while maintaining the accuracy from BERT. We evaluate SBERT and SRoBERTa on common STS tasks and transfer learning tasks, where it outperforms other state-of-the-art sentence embeddings methods.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
呆呆的豆豆兵完成签到 ,获得积分10
刚刚
龙觅星峰完成签到,获得积分10
2秒前
深情安青应助大意的初雪采纳,获得10
6秒前
6秒前
xiaosui完成签到 ,获得积分10
7秒前
hukeyan完成签到,获得积分10
7秒前
李爱国应助Shelley采纳,获得10
8秒前
科研通AI5应助热沙来提采纳,获得10
8秒前
WFLLL完成签到,获得积分10
11秒前
隐形曼青应助科研小菜鸟i采纳,获得10
12秒前
15秒前
燃之一手完成签到 ,获得积分10
15秒前
xdd完成签到 ,获得积分10
15秒前
嘻嘻完成签到,获得积分10
16秒前
dudu完成签到 ,获得积分10
18秒前
Muller完成签到,获得积分10
18秒前
GXLong完成签到,获得积分10
18秒前
21秒前
诗亭发布了新的文献求助10
21秒前
21秒前
22秒前
22秒前
LMY完成签到 ,获得积分10
23秒前
LNE发布了新的文献求助10
26秒前
科研小白发布了新的文献求助10
26秒前
Shelley发布了新的文献求助10
28秒前
郝富完成签到,获得积分10
28秒前
枫叶的脚步完成签到,获得积分10
28秒前
30秒前
小先生完成签到,获得积分10
31秒前
33秒前
天天快乐应助称心寒松采纳,获得10
34秒前
lily336699发布了新的文献求助10
34秒前
ZHH发布了新的文献求助10
34秒前
vv发布了新的文献求助20
36秒前
北海完成签到 ,获得积分10
36秒前
36秒前
37秒前
vespa完成签到,获得积分10
37秒前
一二三发布了新的文献求助10
38秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Technologies supporting mass customization of apparel: A pilot project 450
Mixing the elements of mass customisation 360
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
Nucleophilic substitution in azasydnone-modified dinitroanisoles 300
Political Ideologies Their Origins and Impact 13th Edition 260
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3781132
求助须知:如何正确求助?哪些是违规求助? 3326545
关于积分的说明 10227747
捐赠科研通 3041707
什么是DOI,文献DOI怎么找? 1669585
邀请新用户注册赠送积分活动 799100
科研通“疑难数据库(出版商)”最低求助积分说明 758745