トークナイザー参照
このセクションは、トークナイザーの詳細なリファレンスを提供します。
Standard Tokenizer [READ MORE]
Zilliz Cloudの`standard`トークナイザーは、スペースと句読点に基づいてテキストを分割し、ほとんどの言語に適しています。
Whitespace [READ MORE]
`whitespace`トークナイザーは、単語の間にスペースが存在するたびにテキストを用語に分割します。
Jieba [READ MORE]
`jieba`トークナイザーは、中国語テキストを構成単語に分割することで処理します。
Lindera [READ MORE]
`lindera`トークナイザーは辞書ベースの形態素解析を実行します。これはスペースで区切られていない単語を持つ言語(日本語、韓国語、中国語など)に適した選択です。
ICU [READ MORE]
`icu`トークナイザーは、ソフトウェアの国際化のための主要ツールを提供するInternationalization Components of Unicodeオープンソースプロジェクトに基づいて構築されています。ICUの語句分割アルゴリズムを使用することで、このトークナイザーは世界中の多数の言語のテキストを正確に単語に分割できます。
Language Identifier [READ MORE]
`languageidentifier`は、言語分析プロセスを自動化することでZilliz Cloudのテキスト検索機能を強化するように設計された特殊なトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その後その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは特にさまざまな言語を扱うアプリケーションに価値があり、入力ごとに手動で言語を割り当てる必要性を排除します。