小塚実:一位主要语言贡献者的视角
欢迎收看我们对小塚实(Minoru)的首次 Meilistar 采访,他是我们语言支持的主要贡献者之一。

今年,我们推出了 Meilisearch 的首个贡献者计划:Meilistars。该贡献者计划旨在汇聚顶尖社区贡献者,培养我们之间的关系,突出他们出色的工作,甚至可能帮助建立联系。目前我们不会深入探讨这个话题,因为我们希望在专门的博客文章中分享更多内容,敬请关注!
作为一项旨在让我们的优秀社区成员受到关注的举措,我们询问他们是否愿意参加一系列采访,以便我们能更好地了解他们。
我们将从小塚实(Minoru Osuka)开始我们的采访。你可能已经在 GitHub 上以 Mosuka 的身份,或在 Twitter 上以 @minoru_osuka 的身份遇到过他。
让我们一起听听他的更多故事吧!
认识小塚实
首先,我们请他用自己的话介绍一下自己!
“我是小塚实。我在一家提供日本求职搜索引擎的公司担任软件工程师和技术主管。我主要从事搜索平台开发。我的爱好是软件开发,我已将一些自己开发的软件作为开源软件(OSS)发布在 GitHub 上。”
看来小塚实不仅从事技术工作,还将其视为自己的爱好!我们很好奇他是如何进入技术领域的。
小塚实解释说,他最初在一家技术学校担任编程讲师,但他渴望增加实践经验,于是决定加入一家软件开发公司。
“这是我作为软件开发人员职业生涯的开始。在工作中,我使用搜索引擎,对它们的工作原理产生了兴趣,于是我转到一家互联网门户网站,从那时起一直从事搜索引擎领域的工作。”
小塚实 + Meilisearch:天作之合
听说小塚实确实从事搜索引擎相关工作,我们忍不住问他是何时听说 Meilisearch 以及如何开始使用它的。
“大概是 2022 年 5 月,Meilisearch 开始支持日语。Meilisearch 使用日语形态分析器 Lindera 作为其日语分词器。我正是 Lindera 的维护者,所以这是一件非常幸运的事。”
小塚实非常感谢 Kination 和 Miiton,他们分别创建了在 Meilisearch 中添加日语支持的第一个拉取请求并实现了它。正是由于他们的共同努力,Meilisearch 的日语支持才有了今天的成就。
“我尚未在工作中实际使用 Meilisearch,但是 voluntas 介绍了他们为日语文档搜索服务使用 Meilisearch 的案例研究,这引起了广泛关注。”
骨子里的开源精神
采访中小塚实频繁提及 Meilisearch 社区的其他成员,这一点意义重大,不容忽视。他对于有机会与其他社区成员建立联系感到非常满意。
“自从 Meilisearch 采用 Lindera 以来,我的 Twitter 粉丝数量有所增加。我很高兴能认识他们。我非常感谢 Meilisearch。”
小塚实深度参与开源社区,这确实令人称赞。除了为 Meilisearch 做出贡献并维护 Lindera 之外,他还构建了自己的分布式搜索服务器。
“我使用 Elasticsearch 和 Solr 已经很长时间了,但仅仅使用它们已经不能满足我,所以我决定在学习 Rust 的同时构建一个分布式搜索服务器。过程很艰难,但我学到了很多。”
奇怪的是,正是这个项目促使他维护了 Lindera。
“我开始研究 Lindera,是因为我自行开发了一个分布式搜索服务器。[...] 我的朋友也在开发一个全文搜索库,他也开发了一个日语形态分析器,但它没有在 crates.io 上注册。当我联系他,询问他是否会将其注册到 crates.io 时,他给了我一个惊喜的回答:‘我希望你接管这个项目。’我对形态分析器也感兴趣,所以我决定接手这个项目的开发。”
小塚实还感谢了 fulmicoton,他是 kuromoji-rs 的开发者,这是最终演变为 Lindera 的原始软件,他将其描述为“一个很棒的开源软件”。
对未来的展望
鉴于他广泛的贡献,小塚实对 Meilisearch 了如指掌也就不足为奇了。它的即时可用性是小塚实最看重的一点。事实上,他特别重视一个有助于实现这种可访问性的特定功能。
“Meilisearch 自动检测索引文档所用语言的功能非常棒。对于不熟悉搜索引擎的用户来说,这是一个非常有用的功能。”
在与小塚实的对话中,我们没有错过询问他希望 Meilisearch 在近期有哪些改进的机会。不出所料,他的建议集中在语言支持上。具体来说,他建议实现一种机制,在字符**分词前**对其进行规范化。
对于不熟悉此过程的人来说,目前的情况正好相反。文本先被分词——分割成单词——然后,每个单词根据语言特点进行规范化。对于法语这样的罗曼语系语言,这个过程包括小写转换和去除变音符号,例如重音符号或任何不影响文本含义的符号。对该主题感兴趣的人,可以在 GitHub 上加入讨论,或阅读更多关于我们如何处理语言支持的文章。
小塚实关于语言支持的建议包括为每个字段自定义规范化器。假设有一个文档包含地址字段,他希望能够指示 Meilisearch 将地址字段中的汉字数字转换为阿拉伯数字。用他的话来说:
"目前,Meilisearch 还没有日语规范化器,但如果能为每个字段自定义,那将非常棒 […] 我也希望为日语规范化器做出贡献。"
我们期待与小塚实以及所有愿意支持我们工作的语言爱好者一起改进我们的语言支持!
很高兴与小塚实交谈,更好地了解他,并理解他对 Meilisearch 的见解、他的使用方式以及他通过 Meilisearch 结识的人。
提醒一下,你可以在 GitHub 上找到小塚实,或为 Lindera 贡献代码。
我们希望你觉得这次采访和我们一样有趣,并期待与所有了不起的 Meilistars 见面。