メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

標準アナライザ
Public Preview

アナライザーが指定されていない場合、標準アナライザーはZilliz Cloudのデフォルトアナライザーです。文法ベースのトークン化を使用しているため、ほとんどの言語で効果的です。

定義

この標準アナライザは以下からなる。

  • トークナイザー:標準のトークナイザーを使用して、文法規則に基づいてテキストを個別の単語単位に分割します。詳細については、「標準トークナイザー」を参照してください。

  • フィルター:小文字フィルターを使用して、すべてのトークンを小文字に変換し、大文字小文字を区別しない検索を可能にします。詳細については、

この標準アナライザの機能は、次のカスタムアナライザの設定と同等です。

analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}

コンフィギュレーション

フィールドに標準のアナライザを適用するには、単にtypestandardに設定して、必要に応じてオプションのパラメータを含めます。

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}

この標準アナライザは、以下のオプションパラメータを受け付けます。

パラメータ

説明する

stop_words

トークナイゼーションから削除されるストップワードのリストを含む配列です。デフォルトはenglishで、一般的な英語のストップワードの組み込みのセットです。

カスタムストップワードの設定例:

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下は、標準アナライザがテキストを処理する方法です。

オリジナルテキスト:

"The Milvus vector database is built for scale!"

予想される出力:

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]