トークナイザー リファレンス
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
Standard [READ MORE]
Zilliz Cloud の `standard` トークナイザーは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。
Whitespace [READ MORE]
`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを項に分割します。
Jieba [READ MORE]
`jieba` トークナイザーは、中国語テキストを構成単語に分解して処理します。
Lindera [READ MORE]
`lindera` トークナイザーは辞書ベースの形態素解析を実行します。日本語や韓国語など、単語がスペースで区切られず、文法マーカー(助詞)が単語に直接付く言語向けに設計されています。
ICU [READ MORE]
`icu` トークナイザーは、ソフトウェアの国際化に不可欠なツールを提供するオープンソースプロジェクトである Internationalization Components of Unicode(ICU)をベースに構築されています。ICU の単語分割アルゴリズムを使用することで、このトークナイザーは世界のほとんどの言語において、テキストを正確に単語に分割できます。
言語識別子 [READ MORE]
`languageidentifier` は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するよう設計された専用のトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、複数の言語を扱うアプリケーションに特に価値があり、入力ごとに手動で言語を割り当てる必要がなくなります。