標準アナライザPublic Preview
アナライザーが指定されていない場合、標準アナライザーはZilliz Cloudのデフォルトアナライザーです。文法ベースのトークン化を使用しているため、ほとんどの言語で効果的です。
定義
この標準アナライザは以下からなる。
-
トークナイザー:標準のトークナイザーを使用して、文法規則に基づいてテキストを個別の単語単位に分割します。詳細については、「標準トークナイザー」を参照してください。
-
フィルター:小文字フィルターを使用して、すべてのトークンを小文字に変換し、大文字小文字を区別しない検索を可能にします。詳細については、
この標準
アナライザの機能は、次のカスタムアナライザの設定と同等です。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("type", "english");
analyzerParams.put("filter", Collections.singletonList("lowercase"));
コンフィギュレーション
フィールドに標準のアナライザを適用するには、単にtype
をstandard
に設定して、必要に応じてオプションのパラメータを含めます。
- Python
- Java
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("type", "standard");
この標準アナライザは、以下のオプションパラメータを受け付けます。
パラメータ | 説明する |
---|---|
| トークナイゼーションから削除されるストップワードのリストを含む配列です。デフォルトは |
カスタムストップワードの設定例:
- Python
- Java
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("type", "standard");
analyzerParams.put("stop_words", Collections.singletonList("of"));
analyzer_params
を定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例
以下は、標準アナライザがテキストを処理する方法です。
オリジナルテキスト:
"The Milvus vector database is built for scale!"
予想される出力:
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]