AI 驱动的混合搜索正在进行封闭测试。 加入候补名单 以获取提前访问权限!

前往主页Meilisearch 的徽标
返回文章
2023 年 3 月 20 日

大須賀 稔:主要语言贡献者的视角

与我们一起参加我们首次对 Minoru 的 Meilistar 访谈,他是我们语言支持的主要贡献者之一。

Carolina Ferreira
Carolina FerreiraMeilisearch 的开发者倡导者@CarolainFG
Minoru Osuka: POV of a main language contributor

今年,我们推出了 Meilisearch 的首个贡献者计划:Meilistars。贡献者计划的目的是聚集顶级社区贡献者,加强我们的关系,突出他们所做的出色工作,甚至可能有助于建立联系。我们目前不会深入讨论这个话题,因为我们希望在专门的博客文章中分享更多信息,所以请关注这里!

为了让我们的优秀社区成员受到关注,我们询问他们是否有兴趣参加一系列访谈,以便我们更好地了解他们。

我们以对大須賀稔(Minoru Osuka)的采访开始。您可能已经在 GitHub 上以 Mosuka 或在 Twitter 上以 @minoru_osuka 的身份认识了他。

让我们一起听听他更多的故事!

认识 Minoru

首先,我们请他用自己的话介绍一下自己!

“我是大須賀 稔(Minoru Osuka)。我是一家在日本提供职位搜索引擎的公司的软件工程师和技术主管。我主要参与搜索平台的开发。我的爱好是软件开发,我已将我开发的一些软件作为 OSS 发布在 GitHub 上。”

所以 Minoru 不仅从事科技工作,他还将其视为自己的爱好!我们很好奇他是如何进入科技领域的。

Minoru 解释说,他最初在一所技术学校担任编程讲师,但他希望增加自己的实践经验,因此决定加入一家软件开发公司。

“这是我作为软件开发人员的职业生涯的开始。由于我在工作中使用了搜索引擎,我对它们的工作原理产生了兴趣,所以我转到一个互联网门户网站,并一直在搜索引擎领域工作。”

Minoru + Meilisearch:命中注定

听到 Minoru 实际上从事搜索引擎工作,我们忍不住想问他是什么时候听说 Meilisearch 的,以及他如何开始使用它的。

“大约在 2022 年 5 月,Meilisearch 开始支持日语。Meilisearch 使用日语词法分析器 Lindera 作为他们的日语分词器。我维护 Lindera,所以这真是一件非常幸运的事情。”

Minoru 非常感谢 KinationMiiton,他们分别创建了 第一个拉取请求,以在 Meilisearch 中添加日语支持并实现它。正是由于他们共同的努力,Meilisearch 的日语支持才发展到了今天的样子。

“我还没有在我的工作中使用 Meilisearch,但是 voluntas 介绍了 一个使用 Meilisearch 的案例研究,用于他们的日语文档搜索服务,这引起了很多关注。”

骨子里的开源

Minoru 在采访中频繁提及 Meilisearch 社区的其他成员,这太重要了,不容忽视。他表示,他很高兴有机会与社区的其他成员建立联系。

“自从 Meilisearch 采用 Lindera 以来,我的 Twitter 粉丝增加了。我很高兴认识他们。我非常感谢 Meilisearch。”

Minoru 如此深入地参与开源社区,这真是太了不起了。除了为 Meilisearch 做出贡献并维护 Lindera 之外,他还构建了自己的 分布式搜索服务器

“我使用 Elasticsearch 和 Solr 已经很长时间了,但是使用它们对我来说还不够,所以我决定在学习 Rust 的同时构建一个分布式搜索服务器。这很艰难,但是我学到了很多东西。”

奇怪的是,正是这个项目让他开始维护 Lindera

“我开始研究 Lindera,是因为我独自开发了一个分布式搜索服务器。[...] 我的朋友正在开发一个全文搜索库,他还开发了一个日语词法分析器,但是它没有在 crates.io 上注册。当我联系他看他是否愿意在 crates.io 上注册时,他给出了一个令人惊讶的答案:“我想让你接管这个项目。”我对词法分析器也很感兴趣,所以我决定接管开发。”

Minoru 还感谢了 fulmicoton,他是 kuromoji-rs 的开发者,kuromoji-rs 是最终发展为 Lindera 的原始软件,他将其描述为“一个出色的 OSS”。

对未来的展望

鉴于他做出的广泛贡献,Minoru 对 Meilisearch 了如指掌也就不足为奇了。它即时的可用性是 Minoru 最看重的。事实上,他特别看重一个有助于这种可访问性的特定功能。

“Meilisearch 自动检测索引文档是用什么语言编写的,这太棒了。对于不熟悉搜索引擎的用户来说,这是一个非常有用的功能。”

在与 Minoru 的谈话中,我们没有放过机会问他是否希望在不久的将来看到 Meilisearch 的任何改进。毫不奇怪,他的建议侧重于语言支持。具体来说,他建议实现一种在标记化之前对字符进行规范化的机制。

对于那些不熟悉此过程的人来说,它目前是反过来发生的。文本被标记化——分割成单词——然后,根据语言的特殊性,对每个单词进行规范化。对于像法语这样的罗曼语,这个过程包括小写和删除变音符号,例如重音符号或任何不影响文本含义的内容。对于那些对此主题感兴趣的人,您可以加入 GitHub 上的讨论,网址为 GitHub,或者 阅读更多了解我们如何处理语言支持。

Minoru 对语言支持的建议包括为每个字段自定义规范化器。假设有一个带有地址字段的文档,他希望能够指示 Meilisearch 将地址字段中的汉字数字转换为阿拉伯数字。用他的话说

“现在,Meilisearch 没有日语的规范化器,但是能够为每个字段自定义它是很好的 [...] 我也希望为日语规范化器做出贡献。”

我们期待与 Minoru 以及任何希望支持我们工作的语言爱好者一起改进我们的语言支持!

与 Minoru 交谈,更好地了解他,并了解他对 Meilisearch、他的使用情况以及他通过它结识的人的见解,真是太愉快了。

提醒一下,您可以在 GitHub 上找到 Minoru 或为 Lindera 做出贡献。
我们希望您发现这次采访和我们一样有趣,并期待与我们所有出色的 Meilistars 会面。

TutKit's journey with Meilisearch: powering multilingual learning at scale.

TutKit 与 Meilisearch 的旅程:大规模支持多语言学习。

借助 Meilisearch,Tutkit.com 的学习平台扩展了规模,能够处理 26 种语言的 15,000 多项资源的搜索。

Maya Shin
Maya Shin2024 年 10 月 30 日
Vishal Sodani: POV of a Hacktoberfest contributor

Vishal Sodani:Hacktoberfest 贡献者的视角

今天,我们与 Vishal Sodani 坐下来聊聊,他是一位去年第一次在 Hacktoberfest 活动中加入我们的贡献者。

Luna Ferraraccio
Luna Ferraraccio2023 年 7 月 24 日
Miiton: a master of Japanese has entered the fight!

Miiton:一位日语大师加入了战斗!

今天,我们很高兴与 Miiton 坐下来聊聊,他是一位经验丰富的贡献者,致力于改进日语支持。

Luna Ferraraccio
Luna Ferraraccio2023 年 7 月 17 日