什么？词向量不能随意做算数运算！ 转载 精选

2013 年是自然语言处理领域发生巨变的一年。这一年，词向量算法 word2vec 诞生了。这一算法将文字符号转换为了数字向量，从而给自然语言算法带来了更多的可能。在随后的 2014 年，词向量算法 GloVe 诞生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 发明之后才慢慢终结。随着 BERT 及其变体的发展，词向量从 2018 年开始又经历了新一轮的技术革新。

什么？词向量不能随意做算数运算！转载精选

词向量的算数运算被广泛应用在各种自然语言任务中，比如文本分类和聚类、新闻推荐、聊天机器人等等。一个非常著名的例子就是 king - man + woman = queen。这个例子说明了词向量的奇特性质。然而在 2024 年国际学术会议 ICNLP 2024 上发表的一篇论文 Human Language is Non-Manifold 上，有学者证明词向量的分布不是流形，因此有可能存在空洞等结构，所以词向量不能随意做算术运算，因为算数运算的结果有可能不在定义域内。

首先，我们介绍一下 Poincare-Hopf 定理：在一个紧致、有向的流形上定义的向量场的奇点的度等于流形的欧拉示性数。

什么？词向量不能随意做算数运算！转载精选

下面我们来构造一个向量场：根据词向量的相似矩阵 sim(i,j) ，利用降维算法将词向量降维至二维平面。在平面上的每一个数据点 i 上定义 N-1 个向量 (sim(i,j)-C, sim(i,j)-C) ，其中 j 为剩余词向量集合中的某个向量，而 C 是一个常数值。可以看到，这个向量场都分布在与 y = x 平行的直线上，因而可以很容易将奇点构造成鞍点。所以如果这个向量场的定义域是紧凑、有向的流形的话，这个向量场中零点的个数就是定义域流形的欧拉示性数。这里的 C 可以是 sim(‘apple’, ‘pear’) ，也可以是 sim(‘woman’, ‘man’) 。因此，如果词向量的定义域是紧凑、有向的流形的话，那么相似性等于sim(‘apple’, ‘pear’) 的词向量对的数量等于 sim(‘woman’, ‘man’)……，这显然是不成立的。