トークナイザーリファレンス
Contact Sales to Enable BYOC

このセクションでは、トークナイザーの詳細なリファレンスを提供します。

Standard [READ MORE]

Zilliz Cloud の `standard` トークナイザーは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。

Whitespace [READ MORE]

`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを項に分割します。

Jieba [READ MORE]

`jieba` トークナイザーは、中国語テキストを構成単語に分解して処理します。

Lindera [READ MORE]

`lindera` トークナイザーは辞書ベースの形態素解析を実行します。日本語や韓国語など、単語がスペースで区切られず、文法マーカー（助詞）が単語に直接付く言語向けに設計されています。

ICU [READ MORE]

`icu` トークナイザーは、ソフトウェアの国際化に不可欠なツールを提供するオープンソースプロジェクトである Internationalization Components of Unicode（ICU）をベースに構築されています。ICU の単語分割アルゴリズムを使用することで、このトークナイザーは世界のほとんどの言語において、テキストを正確に単語に分割できます。

`languageidentifier` は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するよう設計された専用のトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、複数の言語を扱うアプリケーションに特に価値があり、入力ごとに手動で言語を割り当てる必要がなくなります。

Standard [READ MORE]

Whitespace [READ MORE]

Jieba [READ MORE]

Lindera [READ MORE]

ICU [READ MORE]

言語識別子 [READ MORE]