存储
Meilisearch 在许多方面都像一个数据库:它存储索引文档以及返回相关搜索结果所需的数据。
数据库位置
Meilisearch 在您首次启动实例时创建数据库。默认情况下,您可以在与 meilisearch
二进制文件位于同一目录的 data.ms
文件夹中找到它。
数据库位置可能会因多种因素而改变,例如您是否使用 --db-path
实例选项配置了不同的数据库路径,或者您是否正在使用像 Docker 这样的操作系统虚拟化工具。
LMDB
从头开始创建和管理数据库是一项艰巨的任务。重新发明轮子是没有意义的,因此 Meilisearch 在底层使用存储引擎。这使得 Meilisearch 团队可以专注于提高搜索相关性和搜索性能,同时抽象出在磁盘和内存中创建、读取和更新文档的复杂任务。
我们的存储引擎被称为 闪电内存映射数据库(简称 LMDB)。LMDB 是一个用 C 编写的事务性键值存储,它为 OpenLDAP 开发,并具有 ACID 属性。虽然我们考虑了其他选项,例如 Sled 和 RocksDB,但我们最终选择 LMDB,因为它为我们提供了性能、稳定性和功能的最佳组合。
内存映射
LMDB 将其数据存储在内存映射文件 中。从 LMDB 获取的所有数据都直接从内存映射返回,这意味着在数据获取期间没有内存分配或内存复制。
当 Meilisearch 请求文档时,磁盘上存储的所有文档都会自动加载到内存中。这确保了 LMDB 始终能够最佳地利用可用 RAM 来检索文档。
为了获得最佳性能,建议提供与数据库在磁盘上占用大小相同的 RAM 容量,以便所有数据结构都可以在内存中容纳。
了解 LMDB
选择 LMDB 既有优点也有缺点,尤其是在数据库大小和内存使用方面。我们在此总结了 LMDB 最重要的方面,但请查看 LMDB 开发人员的这篇博客文章以获取更深入的信息。
数据库大小
当从 Meilisearch 索引中删除文档时,您可能会注意到磁盘空间使用量保持不变。发生这种情况是因为 LMDB 在内部将该空间标记为空闲,但并未将其提供给整个操作系统。这种设计选择可以带来更好的性能,因为无需进行定期压缩操作。因此,LMDB(以及 Meilisearch)占用的磁盘空间往往会随着时间的推移而增加。无法精确计算 Meilisearch 实例可以占用的最大空间量。
内存使用
由于 LMDB 是内存映射的,因此由操作系统管理分配给 Meilisearch 的实际内存(或不分配)。
因此,如果您在服务器上以独立程序运行 Meilisearch,LMDB 将使用它可以使用的最大 RAM。一般来说,您应该拥有与 Meilisearch 在磁盘上占用空间大小相同的 RAM 以获得最佳性能。
另一方面,如果您与其他程序一起运行 Meilisearch,操作系统将根据每个程序的需要来管理内存。这使得 Meilisearch 在开发中使用时内存使用非常灵活。
提示
虚拟内存 != 实际内存 虚拟内存是程序向操作系统请求的磁盘空间。它不是程序实际将使用的内存。
Meilisearch 将始终要求一定量的空间用作内存映射。此空间将用作虚拟内存,但使用的实际内存(RAM)量会小得多。
测量的磁盘使用情况
以下测量是使用movies.json进行的,这是一个包含 19,553 个文档的 8.6 MB JSON 数据集。
索引后,LMDB 中数据集的大小约为 122MB。
原始 JSON | Meilisearch 数据库在磁盘上的大小 | RAM 使用量 | 虚拟内存使用量 |
---|---|---|---|
9.1 MB | 224 MB | ≃ 305 MB | 205 Gb (内存映射) |
这意味着该数据库正在使用 305 MB 的 RAM 和 224 MB 的磁盘空间。 请注意,虚拟内存 仅指计算机为 Meilisearch 分配的磁盘空间——并不意味着数据库实际上在使用它。 有关更多详细信息,请参阅内存使用。
警告
这些指标高度依赖于运行 Meilisearch 的机器。在性能明显不足的机器上运行此测试可能会产生不同的结果。
重要的是要注意,没有可靠的方法可以预测数据库的最终大小。这几乎适用于市场上任何搜索引擎——我们只是唯一大声说出来的搜索引擎。
数据库大小受大量因素的影响,包括设置、相关性规则、分面的使用、存在的不同语言的数量等等。