分词

    分词是指将句子或短语拆分成更小的语言单位,称为词元的过程。它是 Meilisearch 引擎中文档索引的第一步,也是搜索结果质量的关键因素。

    将句子分解成更小的块需要理解一个单词在哪里结束,另一个单词在哪里开始,这使得分词成为一项高度复杂且依赖于语言的任务。 Meilisearch 针对此问题的解决方案是一个模块化分词器,它根据检测到的语言遵循不同的过程,称为管道

    这使得 Meilisearch 能够在零设置的情况下在多种不同的语言中运行。

    深入了解:Meilisearch 分词器

    当您向 Meilisearch 索引添加文档时,分词过程由一个称为分词器的抽象接口处理。分词器负责按书写系统(例如,拉丁字母、汉字)拆分每个字段。然后,它将相应的管道应用于每个文档字段的每个部分。

    我们可以这样分解分词过程

    1. 抓取文档,按脚本拆分每个字段
    2. 逐部分地返回文档,运行相应的分词管道(如果存在)

    管道包括许多特定于语言的操作。目前,我们有许多管道,包括用于使用空格分隔单词的语言的默认管道,以及用于中文、日语、希伯来语、泰语和高棉语的专用管道。

    有关更多详细信息,请查看分词器贡献指南