我应该选择哪个嵌入器?

    Meilisearch 官方支持多种不同的嵌入器,例如 OpenAI、Hugging Face 和 Ollama,以及大多数带有 RESTful API 的嵌入生成器。

    本文包含关于如何选择最适合您项目的嵌入器的一般指南。

    如有疑问,请选择 OpenAI

    OpenAI 在不同的主题和数据集上返回相关的搜索结果。 它适用于大多数应用程序,并且 Meilisearch 在每个新版本中都积极支持和改进 OpenAI 功能。

    在大多数情况下,特别是如果这是您第一次使用 LLM 和 AI 驱动的搜索,请选择 OpenAI。

    如果您已经在使用特定的 AI 服务,请选择 REST 嵌入器

    如果您已经在使用来自兼容嵌入器的特定模型,请选择 Meilisearch 的 REST 嵌入器。 这确保您继续在已有的工具和工作流程的基础上进行构建,而只需最少的配置。

    如果处理非文本内容,请选择用户提供的嵌入器

    Meilisearch 不支持搜索图像、音频或任何其他非文本内容。 此限制适用于查询和文档。 例如,Meilisearch 的内置嵌入器源无法使用图像代替文本进行搜索。 他们也不能使用文本搜索没有附加文本元数据的图像。

    在这些情况下,您将不得不提供自己的嵌入。

    仅在自托管小型静态数据集时选择 Hugging Face

    尽管它返回非常相关的搜索结果,但 Hugging Face 嵌入器必须直接在您的服务器中运行。 当您在 DigitalOcean 或 AWS 等服务中托管 Meilisearch 时,这可能会导致性能下降和额外成本。

    也就是说,Hugging Face 对于少于 10k 篇文档且您不打算经常更新的数据集来说,可能是一个不错的嵌入器。

    注意

    Meilisearch Cloud 不支持带有 {"source": "huggingFace"} 的嵌入器。

    要在 Cloud 中使用 Hugging Face,请使用 带有 REST 嵌入器的 HuggingFace 推理端点