トークナイザー リファレンス
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
Standard [READ MORE]
Zilliz Cloud の `standard` トークナイザーは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。
空白 [READ MORE]
`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを項に分割します。
Jieba [READ MORE]
The `jieba` tokenizer processes Chinese text by breaking it down into its component words.
Lindera [READ MORE]
`lindera` トークナイザーは辞書ベースの形態素解析を実行します。日本語や韓国語など、単語がスペースで区切られず、文法的なマーカー(助詞)が単語に直接付く言語向けに設計されています。
ICU [READ MORE]
`icu` トークナイザーは、ソフトウェアの国際化に不可欠なツールを提供するオープンソースプロジェクトである Internationalization Components of Unicode(ICU)をベースに構築されています。ICU の単語分割アルゴリズムを使用することで、このトークナイザーは世界のほとんどの言語でテキストを正確に単語に分割できます。
言語識別子 [READ MORE]
`languageidentifier` は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するための専用トークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、複数の言語を扱うアプリケーションに特に価値があり、入力ごとに手動で言語を割り当てる必要をなくします。