首页 > 教育学习 > 为什么 > 欧氏距离和余弦相似度的区别是什么?

欧氏距离和余弦相似度的区别是什么?
2012-01-19 17:47:56   来源:   点击:

    欧氏距离和余弦相似度的区别是什么?都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。但是针对具体应用,什么情况下使用欧氏距离,什么情况下使用余弦相似度?

    7 个答案

    • 答案 1:

      从几何意义上来说,n维向量空间的一条线段作为底边和原点组成的三角形,其顶角大小是不确定的。也就是说对于两条空间向量,即使两点距离一定,他们的夹角余弦值也可以随意变化。感性的认识,当两用户评分趋势一致时,但是评分值差距很大,余弦相似度倾向给出更优解。举个极端的例子,两用户只对两件商品评分,向量分别为(3,3)和(5,5),这两位用户的认知其实是一样的,但是欧式距离给出的解显然没有余弦值合理。
    • 答案 2:

      貌似有点明白了,余弦夹角可以有效规避个体相同认知中不同程度的差异表现,更注重维度之间的差异,而不注重数值上的差异;反过来思考,当向量夹角的余弦值较小(差异很大)时,欧氏距离可以很小(差异很小),如(0,1)和(1,0)两个点,所以如果要对电子商务用户做聚类,区分高价值用户和低价值用户,用消费次数和平均消费额,这个时候用余弦夹角是不恰当的,因为它会将(2,10)和(10,50)的用户算成相似用户,但显然后者的价值高得多,因为这个时候需要注重数值上的差异,而不是维度之间的差异。所以余弦相似度衡量的是维度间相对层面的差异,欧氏度量衡量数值上差异的绝对值,不知道这样理解对不对。
    • 答案 3:

      我觉得你在这里所提应该是指马氏距离[1],因为在多元情况下是应该除以协差阵来进行标准化的。关于马氏距离与余弦相似度的区别,个人以为这是一种长度与方向的度量所造成的不同。马氏距离度量的是长度,它只有远近之分。而余弦相似度是度量方向的,余弦相似度为1,你不可以说这两个向量一样,只能说他们是相似的,因为他们是同方向的,就好象(3,3)与(5,5)。但是马氏距离度量的是长度,长度为0就可以认为他们是一样的。余弦相似度只在[0,1]之间,有准则,而马氏距离在[0,无穷)之间,无判别准则.余弦相似度为0(即直交)就可以说他们很不相似,就算他们之间距离小,但是他们方向完全不一致。而马氏距离就需要另找判别准则来定义怎么算大,怎么算小。于是相对应的应用也就出来,如果你所想应用的是对应方向上,例如@刘一丁中的感性认识,这是一种对于用户思考方向的研究,则应该用余弦相似度。但是若要用来区分价值大小,例如@joegh中的高低价值用户聚类,则应该用马氏距离[1]en.wikipedia.org/wiki...
    • 答案 4:

      强烈赞同刘一丁的从直觉上的感性认识 再举个余弦相似度的例子:歌手大赛,两个评委给四个歌手打分,第一个评委的打分(10,8,9,7) 第二个评委的打分(9,7.2,8.1,6.3),虽然每个评委对同一个选手的评分不一样,但反映出一种趋势,两个评委对这四位歌手实力的了解程度是一样的,只是第二个评委对满分有更高的评判标准。
    • 答案 5:

      简而言之,需要考虑scaling区别的用Euclidean Distance,否则Cosine Similarity得到的相似度度量更稳定,实际应用场景下后者适用的居多。
    • 答案 6:

      直观来说,欧式距离衡量空间点的直线距离,余弦距离衡量点在空间的方向差异。
    • 答案 7:

      这个也是具体情况具体分析的,看你关注的是绝对距离还是相对距离啦。 归根结底是个相异度的问题,也就是说你说一个大的照片和一个小的照片相异么?虽然照片的内容一样。你要用欧氏距离,那差别就大了,要是用余弦夹角就小啦

相关热词搜索:

上一篇:为什么现在中国大陆主流的人不用繁体字?
下一篇:最近流行 hold 住,iHoldU.com 这个域名可以做什么?