トークナイザーリファレンス
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
標準トークナイザー [READ MORE]
Zilliz Cloudの標準トークナイザー(`standard`)Zilliz Cloudは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。
ホワイトスペース [READ MORE]
ホワイトスペーストークナイザ(`whitespace`)は、単語の間にスペースがあるときにテキストを用語に分割します。
ジエバ [READ MORE]
ジエバトークナイザ(`jieba`)は、中国語のテキストを構成語に分解して処理します。
Lindera [READ MORE]
The `lindera` tokenizer performs dictionary-based morphological analysis. It is a good choice for languages—such as Japanese, Korean, and Chinese—whose words are not separated by spaces.
ICU [READ MORE]
The `icu` tokenizer is built on the Internationalization Components of Unicode open‑source project, which provides key tools for software internationalization. By using ICU's word‑break algorithm, the tokenizer can accurately split text into words across the majority of the world’s languages.
Language Identifier [READ MORE]
The `languageidentifier` is a specialized tokenizer designed to enhance the text search capabilities of Zilliz Cloud</zilliz> by automating the language analysis process. Its primary function is to detect the language of a text field and then dynamically apply a pre-configured analyzer that is most suitable for that language. This is particularly valuable for applications that handle a variety of languages, as it eliminates the need for manual language assignment on a per-input basis.