Tokenizer Reference

このセクションでは、トークナイザーの詳細リファレンスを提供します。

Standard Tokenizer [READ MORE]

Zilliz Cloud の `standard` トークナイザーは、スペースと句読点に基づいてテキストを分割し、ほとんどの言語に適しています。

Whitespace [READ MORE]

`whitespace` トークナイザーは、単語間にスペースがあるたびにテキストを用語に分割します。

Jieba [READ MORE]

`jieba` トークナイザーは中国語のテキストを構成単語に分割して処理します。

Lindera [READ MORE]

`lindera` トークナイザーは辞書ベースの形態素解析を実行します。スペースで区切られていない単語を持つ言語（日本語、韓国語、中国語など）には最適な選択です。

ICU [READ MORE]

`icu` トークナイザーは、ソフトウェアの国際化に必要なツールを提供するオープンソースプロジェクトである Internationalization Components of Unicode (ICU) 上に構築されています。ICU の語句分割アルゴリズムを使用することで、トークナイザーは世界中のほとんどの言語でテキストを正確に単語に分割できます。

Language Identifier [READ MORE]

`languageidentifier` は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するように設計された特殊なトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、さまざまな言語を処理するアプリケーションにとって特に価値があり、入力ごとに手動で言語を割り当てる必要性を排除します。