トークナイザーリファレンス
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
標準 [READ MORE]
Zilliz Cloud の `standard` トークナイザーは、スペースや句読点に基づいてテキストを分割し、ほとんどの言語に適しています。
Whitespace [READ MORE]
`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを用語に分割します。
Jieba [READ MORE]
`jieba` トークナイザーは、中国語のテキストを構成単語に分解して処理します。
Lindera [READ MORE]
`lindera` トークナイザーは、辞書ベースの形態素解析を実行します。これは、単語がスペースで区切られず、文法マーカー(助詞)が単語に直接付加される日本語と韓国語のために設計されています。
ICU [READ MORE]
`icu` トークナイザーは、ソフトウェアの国際化のための主要なツールを提供するUnicodeの国際化コンポーネントのオープンソースプロジェクトに基づいて構築されています。ICUの単語分割アルゴリズムを使用することで、このトークナイザーは世界のほとんどの言語でテキストを正確に単語に分割できます。
言語識別子 [READ MORE]
`languageidentifier`は、言語分析プロセスを自動化することでZilliz Cloudのテキスト検索機能を強化するために設計された特殊なトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、さまざまな言語を扱うアプリケーションにとって特に価値があり、入力ごとに手動で言語を割り当てる必要がなくなります。