デコンパウンダー
デコンパウンダーフィルター(decompounder)は、指定された辞書に基づいて複合語を個々のコンポーネントに分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語など、複合語を頻繁に使用する言語に特に役立ちます。
コンフィギュレーション
デコンパウンダーフィルターフィルタは、Zilliz Cloudのカスタムフィルタです。使用するには、フィルタ設定で"type":"decompounder"
を指定し、認識する単語の辞書を提供するword_list
パラメータを指定します。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
Collections.singletonList(
new HashMap<String, Object>() {{
put("type", "decompounder");
put("word_list", Arrays.asList("dampf", "schiff", "fahrt", "brot", "backen", "automat"));
}}
)
);
デコンパウンダーフィルターフィルタは、次の設定可能なパラメータを受け入れます。
パラメータ | 説明する |
---|---|
| 複合語を分割するために使用される単語構成要素のリスト。この辞書は、複合語が個々の用語に分解される方法を決定します。 |
トークナイザーによって生成された用語に基づいてデコンパウンダー
フィルターが動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。
検光子_params
を定義した後、コレクションスキーマを定義する際にVARCHAR
フィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例{#}
以下は、decompoun der
フィルタがテキストを処理する方法の例です。
オリジナルテキスト:
"dampfschifffahrt brotbackautomat"
期待される出力(word_list:["damf","schiff","fahrt","brot","backen","automat"]
):
["dampf", "schiff", "fahrt", "brotbackautomat"]