Analyzer
テキスト処理において、analyzer(アナライザー)は、生のテキストを構造化された検索可能な形式に変換するための重要なコンポーネントです。各アナライザーは通常、tokenizer(トークナイザー)とfilter(フィルター)という2つのコア要素で構成されています。これらは共同で入力テキストをトークンに変換し、それらのトークンを洗練させて、効率的なインデックス作成および検索の準備を行います。本章では、Zilliz Cloud におけるアナライザーの使用方法について詳しく説明します。
概要 [READ MORE]
テキスト処理において、アナライザーは生テキストを構造化された検索可能な形式に変換する重要なコンポーネントです。各アナライザーは通常、トークナイザーとフィルターという 2 つのコア要素で構成されています。これらが連携して入力テキストをトークンに変換し、これらのトークンを精査することで、効率的なインデックス作成と検索のための準備を行います。
組み込みアナライザー [READ MORE]
このセクションでは、組み込みアナライザーに関する詳細情報を提供します。
トークナイザー [READ MORE]
このセクションでは、トークナイザーの詳細なリファレンスを提供します。
フィルター [READ MORE]
このセクションでは、アナライザーにおけるフィルターの詳細なリファレンスを提供します。
多言語アナライザー [READ MORE]
Zilliz Cloud でテキスト分析を実行する場合、通常はコレクション内のテキストフィールド全体に単一のアナライザーを適用します。そのアナライザーが英語用に最適化されている場合、中国語、スペイン語、フランス語など他の言語に必要な全く異なるトークン化やステミングの規則に対応できず、再現率(リコール率)が低下します。例えば、スペイン語の単語「teléfono」(電話の意味)を検索すると、英語中心のアナライザーではアクセント記号が削除され、スペイン語固有のステミングが適用されないため、関連する結果が見落とされる可能性があります。
ベストプラクティス [READ MORE]
このガイドでは、Zilliz Cloud 上のテキストコンテンツに最も適したアナライザーを選択し、設定する方法を説明します。