Properties of embedding methods for similarity searching in metric spaces

嵌入 计算机科学 相似性(几何) 对象(语法) 度量空间 最近邻搜索 公制(单位) 欧几里德距离 维数(图论) 功能(生物学) 人工智能 理论计算机科学 模式识别(心理学) 数学 图像(数学) 离散数学 组合数学 经济 生物 进化生物学 运营管理
作者
Gı́sli R. Hjaltason,Hanan Samet
出处
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence [IEEE Computer Society]
卷期号:25 (5): 530-549 被引量:216
标识
DOI:10.1109/tpami.2003.1195989
摘要

Complex data types-such as images, documents, DNA sequences, etc.-are becoming increasingly important in modern database applications. A typical query in many of these applications seeks to find objects that are similar to some target object, where (dis)similarity is defined by some distance function. Often, the cost of evaluating the distance between two objects is very high. Thus, the number of distance evaluations should be kept at a minimum, while (ideally) maintaining the quality of the result. One way to approach this goal is to embed the data objects in a vector space so that the distances of the embedded objects approximates the actual distances. Thus, queries can be performed (for the most part) on the embedded objects. We are especially interested in examining the issue of whether or not the embedding methods will ensure that no relevant objects are left out. Particular attention is paid to the SparseMap, FastMap, and MetricMap embedding methods. SparseMap is a variant of Lipschitz embeddings, while FastMap and MetricMap are inspired by dimension reduction methods for Euclidean spaces. We show that, in general, none of these embedding methods guarantee that queries on the embedded objects have no false dismissals, while also demonstrating the limited cases in which the guarantee does hold. Moreover, we describe a variant of SparseMap that allows queries with no false dismissals. In addition, we show that with FastMap and MetricMap, the distances of the embedded objects can be much greater than the actual distances. This makes it impossible (or at least impractical) to modify FastMap and MetricMap to guarantee no false dismissals.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
苏南完成签到 ,获得积分10
1秒前
WFLLL发布了新的文献求助10
1秒前
4秒前
4秒前
Hello应助若有光采纳,获得10
8秒前
Hello应助WFLLL采纳,获得10
8秒前
斯文败类应助wf0806采纳,获得10
8秒前
轻松小之发布了新的文献求助10
9秒前
e1完成签到,获得积分10
11秒前
home完成签到,获得积分10
12秒前
hansJAMA发布了新的文献求助10
14秒前
大模型应助天行马采纳,获得10
22秒前
VirgoW完成签到,获得积分10
24秒前
脆脆鲨鱼完成签到,获得积分10
26秒前
28秒前
Letter完成签到 ,获得积分10
30秒前
科目三应助TWT采纳,获得10
32秒前
远方发布了新的文献求助10
32秒前
34秒前
闵卷完成签到,获得积分10
36秒前
爱听歌的梦易完成签到 ,获得积分10
38秒前
Mycee完成签到 ,获得积分10
38秒前
高c发布了新的文献求助10
39秒前
39秒前
VirgoW发布了新的文献求助10
41秒前
科研通AI5应助勤奋的汉堡采纳,获得10
42秒前
Eton发布了新的文献求助30
42秒前
white完成签到 ,获得积分10
43秒前
46秒前
lingo完成签到 ,获得积分10
46秒前
保持好心情完成签到 ,获得积分10
48秒前
美好斓发布了新的文献求助10
50秒前
落后钢铁侠完成签到 ,获得积分10
51秒前
HL发布了新的文献求助20
52秒前
55秒前
estella完成签到,获得积分10
56秒前
ptjam完成签到 ,获得积分10
57秒前
小二郎应助暴躁的香氛采纳,获得10
59秒前
pupu完成签到 ,获得积分10
59秒前
1分钟前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 3000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3777469
求助须知:如何正确求助?哪些是违规求助? 3322795
关于积分的说明 10211853
捐赠科研通 3038215
什么是DOI,文献DOI怎么找? 1667163
邀请新用户注册赠送积分活动 797990
科研通“疑难数据库(出版商)”最低求助积分说明 758133