什么是向量嵌入?
在机器学习和人工智能中,向量嵌入是一种使用实数向量将复杂数据(如单词、句子甚至图像)表示为向量空间中的点的方法。
什么是向量?
向量是具有大小和方向的数学实体。这种不仅能表达多少(大小)还能表达哪个方向的能力,使它们成为表示和操作不同类型的复杂数据的强大工具。
向量通常被描绘成指向空间内特定方向的箭头,但它们也可以转换为数字。将向量表示为数值可以更容易地进行数学运算。
向量是一个广泛的数学概念,用于多个领域的各种目的。
向量嵌入是向量在机器学习和 AI 领域的特定应用。
向量嵌入的目的是什么?
机器学习模型旨在发现模式和关系。它们将诸如文本或图像之类的复杂实体映射到向量空间内的点。我们称之为向量嵌入。
向量嵌入,也简称为嵌入,以数值格式表示非数值数据,同时保留这些非数值实体的语义含义和关系。 它们的目标是使机器学习和自然语言处理(NLP)中的计算模型能够“理解”实体之间的相似性和差异。
什么是向量空间嵌入?
在向量空间中,相似的实体紧密地排列在一起,表明它们的语义或语境相似性。例如,在词嵌入的上下文中,含义相似的词嵌入在向量空间中彼此靠近。
这种空间配置使嵌入能够有效地捕获和组织实体之间的语义关系,这一概念被称为语义空间。
什么是语义空间?
语义空间就像一个虚拟景观,每个大型语言模型 (LLM) 在训练时构建。 在此训练阶段,模型会分析大量数据以表示和理解语言。 它吸收的信息的多样性和性质在塑造这个语义空间中起着重要作用,反过来又影响 LLM 如何解释和生成语言。
鉴于要转换的数据的复杂性质,向量嵌入需要多维空间来涵盖这些关系和细微差别的深度。 根据它们要捕获的特征的复杂性和所涉及的数据集的大小,这些空间可以跨越从几十到数千个维度。
这种多维空间允许算法以反映人类直觉和理解的方式解释和处理复杂数据。
语义空间图解
让我们用一个非常简单的例子来说明语义空间。 考虑一个包含三个轴的图表,这些轴对应于以下语义属性:猫科动物
、幼年
和犬科动物
。
- 在
猫科动物
轴上,我们有猫
- 在
幼年
轴上,是婴儿
- 在
犬科动物
轴上,我们有狗
通过组合这些轴,我们可以找到给出更具体实体的交集
猫科动物
和幼年
组合在一起得到小猫
幼年
和犬科动物
组合在一起得到小狗
通过为这些属性分配数值,我们可以构建一个简单的语义空间
单词 | 犬科动物 | 猫科动物 | 幼年 |
---|---|---|---|
狗 | 1 | 0 | 0 |
猫 | 0 | 1 | 0 |
婴儿 | 0 | 0 | 1 |
小猫 | 0 | 1 | 1 |
小狗 | 1 | 0 | 1 |
语义空间中的嵌入向量
实际上,语义空间更复杂,并且属性并不总是明确定义的。 我们不知道这是否真的是犬科动物
属性,但它与犬科动物
的某些东西相关,并且狗
在此属性上的排名非常高。 这些数字不是1
或0
,而是一些实数。 这种复杂性允许对单词和概念如何相互关联进行细致的理解。 实际的语义空间可能如下所示
单词 | ??犬科动物?? | ??猫科动物?? | ??幼年?? |
---|---|---|---|
狗 | 0.95973 | 0.12 | 0.22 |
猫 | 0.05 | 0.99954 | 0.08 |
婴儿 | 0.001 | 0.002 | 0.8973 |
小猫 | 0.02 | 0.9212 | 0.8647 |
小狗 | 0.897 | 0.04 | 0.8834 |
从这些详细的值创建向量嵌入,以多维向量(例如,狗
为[0.95973, 0.12, 0.22]
)捕获每个单词的本质。 这些向量不仅仅是将单词放置在空间中;它们构建了一个详细的含义网络,其中每个方面都旨在揭示该单词的真正含义。 具体维度及其代表的含义可能因模型而异,反映了它们封装的语义含义的复杂性。
结论
向量嵌入是复杂、非数值数据的数值表示形式。它们是由机器学习模型使用实数向量生成的。这些向量嵌入在高维空间中,以适合计算的格式封装了原始数据的关系和特征。
[向量数据库](/blog/what-is-a-vector-database/?utm_source=blog&utm_medium=embeddings-content&utm_campaign=vector-search)(如 Meilisearch)是处理嵌入的首选方法,因为它们有助于进行相似性搜索,也称为语义搜索,从而可以根据向量表示识别语义上相似的项。
AI 搜索即将登陆 Meilisearch Cloud,加入等待列表
Meilisearch 是一款开源搜索引擎,不仅为最终用户提供最先进的体验,还提供简单直观的开发人员体验。
Meilisearch 长期以来一直是关键词搜索领域的参与者,它使用户能够通过构建基于 AI 的解决方案来解决搜索用例,不仅支持向量搜索作为向量存储,还提供混合搜索。这种混合方法将全文搜索与语义搜索相结合,提高了搜索结果的准确性和全面性。
如需了解更多关于 Meilisearch 的信息,您可以在 Discord 上加入社区或订阅新闻通讯。您可以通过查看路线图和参与产品讨论来了解有关该产品的更多信息。