分词
**分词**是指将句子或短语分解成较小的语言单元(称为标记)的过程。它是 Meilisearch 引擎文档索引的第一步,并且是搜索结果质量的关键因素。
将句子分解成较小的片段需要理解一个单词在哪里结束,另一个单词在哪里开始,这使得分词成为一项非常复杂且依赖于语言的任务。Meilisearch 对此问题的解决方案是**模块化分词器**,它根据检测到的语言遵循不同的过程(称为**管道**)。
这使得 Meilisearch 能够在多种不同的语言中运行,无需任何设置。
深入了解:Meilisearch 分词器
当您将文档添加到 Meilisearch 索引时,分词过程由一个称为分词器的抽象接口处理。分词器负责通过编写系统(例如,拉丁字母、中文汉字)分割每个字段。然后,它将相应的管道应用于每个文档字段的每个部分。
我们可以将分词过程分解如下
- 遍历文档,按脚本分割每个字段
- 逐部分重新遍历文档,运行相应的分词管道(如果存在)
管道包括许多特定于语言的操作。目前,我们有许多管道,包括一个用于使用空格分隔单词的语言的默认管道,以及针对中文、日语、希伯来语、泰语和高棉语的专用管道。
有关更多详细信息,请查看分词器贡献指南。