距离和相似度

综合:

​ 距离和相似度是用来判断相似性两种不同的方法

距离(物体在空间中的距离,距离越远越不相似)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1.欧式距离:计算的是空间位置的绝对路径,要求是指标维度的度量要一致,如kg和cm会出问题
1.1欧氏距离标准化 -- >对各个维度数据进行标准化,使之在同一度量上

2.曼哈顿距离:

2.明式距离
p = 1 曼哈顿
p = 2 欧式
p -> 无穷 契比雪夫

3.切比雪夫距离
国际象棋中国王的走路,每次只能在八个格变化
明式距离P趋近无穷时

4.马氏距离
欧式距离,指标维度不同是,需要进行归一化,归一化后即是马氏距离

5.海明距离
两个等长字符串,相同位置字符不同的个数---->引入,物体压缩成字符串,进行比较
相似度(相似程度,越大越好)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1.余弦相似度:
注重两个向量在方向上的差异,而非距离或长度上,如,在指定夹角里,两点距离可无限远,忽略大距离的影响

2.调整余弦相似度:

3.皮尔逊系数:
自身向量标准化后计算空间向量的余弦夹角

4.jaccard 系数:

5.广义Jaccard系数:

6.互信息/信息增益,相对熵/KL散度

6.TF-IDF等:
距离和相似度的区别
1
2
3
距离衡量的是空间中的距离,与坐标位置直接相关,而相似度体现的是体现方向上的差异
距离:维度的数值大小中体现差异的分析
相似度:对绝对的数值不敏感
欧式和余弦的区别:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
一致性:衡量个体间差异的大小

定义:
欧氏距离:向量在空间中的距离
余弦相似:相似度夹角

差别:
欧氏距离:对数值敏感
余弦相似:对偏向敏感

余弦夹角可以有效规避个体相同认知中不同程度的差异表现,更注重维度之间的差异,而不注重数值上的差异


总结:一个更侧重于偏向,如x轴,y轴.(余弦) 宁一个更侧重数值差异性,值的相似程度
核心节点专利图:
1
2
3
4
5
6
7
#涉及到距离的部分总共涉及两个

1.计算专利和专利的相似度
1)上期计算是通过h5文件直接读取专利与专利之间的相似度
2)本期改版,通过专利的词向量来计算,使用余弦相似度

2.