トークナイザー リファレンス
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
標準 [READ MORE]
Zilliz Cloud の `standard` トークナイザーは、スペースや句読点に基づいてテキストを分割し、ほとんどの言語に適しています。
空白 [READ MORE]
`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを項に分割します。
Jieba [READ MORE]
`jieba` トークナイザーは、中国語テキストを構成単語に分割して処理します。
Lindera [READ MORE]
`lindera` トークナイザーは辞書ベースの形態素解析を実行します。単語がスペースで区切られず、助詞などの文法マーカーが単語に直接付加される日本語や韓国語向けに設計されています。
ICU [READ MORE]
`icu` トークナイザーは、ソフトウェアの国際化に必要な主要なツールを提供する Unicode 国際化コンポーネント(ICU)オープンソースプロジェクトに基づいて構築されています。ICU の単語区切りアルゴリズムを使用することで、このトークナイザーは世界中のほとんどの言語においてテキストを正確に単語へ分割できます。
言語識別子 [READ MORE]
`languageidentifier` は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するように設計された専用トークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前構成済みアナライザーを動的に適用することです。これは多様な言語を扱うアプリケーションにおいて特に価値があり、入力ごとに手動で言語を割り当てる必要がなくなります。