デコンパウンダー

デコンパウンダーフィルター（decompounder）は、指定された辞書に基づいて複合語を個々のコンポーネントに分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語など、複合語を頻繁に使用する言語に特に役立ちます。

コンフィギュレーション

デコンパウンダーフィルターフィルタは、Zilliz Cloudのカスタムフィルタです。使用するには、フィルタ設定で"type":"decompounder"を指定し、認識する単語の辞書を提供するword_listパラメータを指定します。

Python
Java

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
        Collections.singletonList(
                new HashMap<String, Object>() {{
                    put("type", "decompounder");
                    put("word_list", Arrays.asList("dampf", "schiff", "fahrt", "brot", "backen", "automat"));
                }}
        )
);

デコンパウンダーフィルターフィルタは、次の設定可能なパラメータを受け入れます。

パラメータ	説明する
`word_list`	複合語を分割するために使用される単語構成要素のリスト。この辞書は、複合語が個々の用語に分解される方法を決定します。

トークナイザーによって生成された用語に基づいてデコンパウンダーフィルターが動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

検光子_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例{#}

以下は、decompoun derフィルタがテキストを処理する方法の例です。

オリジナルテキスト:

"dampfschifffahrt brotbackautomat"

期待される出力（word_list:["damf","schiff","fahrt","brot","backen","automat"]）:

["dampf", "schiff", "fahrt", "brotbackautomat"]

コンフィギュレーション​

出力の例{#}​

コンフィギュレーション

出力の例{#}