メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

アナライザーの概要

テキスト処理において、アナライザーは生のテキストを構造化された検索可能な形式に変換する重要なコンポーネントです。各アナライザーは通常、2つのコア要素で構成されています:トークナイザーフィルターです。これらが協調して入力テキストをトークンに変換し、これらのトークンを洗練させ、効率的なインデックス作成と検索のために準備します。

Zilliz Cloud では、コレクションスキーマに VARCHAR フィールドを追加する際のコレクション作成時にアナライザーが設定されます。アナライザーによって生成されたトークンは、キーワードマッチング用のインデックス構築や、全文検索のためのスパース埋め込みへの変換に使用できます。詳細については、全文検索 または テキストマッチ を参照してください。

📘Notes

アナライザーの使用はパフォーマンスに影響を与える可能性があります:

  • 全文検索: 全文検索の場合、データNode および QueryNode チャネルはトークナイゼーションが完了するのを待つ必要があるため、データの消費が遅くなります。その結果、新しく取り込まれたデータが検索で利用可能になるまでに時間がかかります。

  • キーワードマッチ: キーワードマッチングの場合、トークナイゼーションが完了する前にインデックスを構築できないため、インデックス作成も遅くなります。

アナライザーの構造

Zilliz Cloud のアナライザーは、ちょうど1つのトークナイザーゼロ個以上のフィルターで構成されています。

  • トークナイザー: トークナイザーは入力テキストをトークンと呼ばれる離散的な単位に分割します。これらのトークンは、トークナイザーのタイプによって単語またはフレーズになります。

  • フィルター: フィルターはトークンに適用され、例えば小文字に変換したり一般的な単語を削除したりすることで、さらに洗練させることができます。

📘Notes

トークナイザーは UTF-8 形式のみをサポートしています。他の形式のサポートは将来のリリースで追加される予定です。

以下のワークフローは、アナライザーがテキストを処理する方法を示しています。

Ke6jw8437hjR8hbZCvEcQtIIn1e

アナライザーのタイプ

Zilliz Cloud は、異なるテキスト処理ニーズに応えるために2種類のアナライザーを提供しています:

  • 組み込みアナライザー: これらは一般的なテキスト処理タスクを最小限の設定でカバーする、事前定義された設定です。組み込みアナライザーは複雑な設定を必要としないため、汎用的な検索に最適です。

  • カスタムアナライザー: より高度な要件の場合、カスタムアナライザーを使用すると、トークナイザーとゼロ個以上のフィルターを指定して独自の設定を定義できます。このレベルのカスタマイズは、テキスト処理の精密な制御が必要な専門的なユースケースで特に有用です。

📘Notes
  • コレクション作成時にアナライザー設定を省略した場合、Zilliz Cloud はデフォルトですべてのテキスト処理に standard アナライザーを使用します。詳細については、Standard を参照してください。

  • 最適な検索およびクエリパフォーマンスを得るには、テキストデータの言語に合ったアナライザーを選択してください。例えば、standard アナライザーは多用途ですが、中国語、日本語、韓国語などの独特な文法構造を持つ言語には最適な選択ではない場合があります。このような場合、chinese などの言語固有のアナライザーや、linderaicu などの専門的なトークナイザーとフィルターを使用したカスタムアナライザーを使用することで、正確なトークナイゼーションとより良い検索結果を確保することを強く推奨します。

組み込みアナライザー

Zilliz Cloud クラスターの組み込みアナライザーは、特定のトークナイザーとフィルターで事前設定されており、これらのコンポーネントを自分で定義する必要なくすぐに使用できます。各組み込みアナライザーは、プリセットのトークナイザーとフィルターを含むテンプレートとして機能し、カスタマイズのためのオプションパラメータも備えています。

例えば、standard 組み込みアナライザーを使用するには、その名前 standardtype として指定し、オプションで stop_words など、このアナライザータイプ固有の追加設定を含めるだけです:

analyzer_params = {
"type": "standard", # Uses the standard built-in analyzer
"stop_words": ["a", "an", "for"] # Defines a list of common words (stop words) to exclude from tokenization
}

アナライザーの実行結果を確認するには、run_analyzer メソッドを使用します:

# Sample text to analyze
text = "An efficient system relies on a robust analyzer to correctly process text for various applications."

# Run analyzer
result = client.run_analyzer(
text,
analyzer_params
)

出力は次のようになります。

['efficient', 'system', 'relies', 'on', 'robust', 'analyzer', 'to', 'correctly', 'process', 'text', 'various', 'applications']

これは、アナライザーが入力テキストを適切にトークン化し、ストップワード "a""an""for" を除外しながら、残りの意味のあるトークンを返すことを示しています。

上記の standard ビルトインアナライザーの構成は、以下のパラメーターで カスタムアナライザー を設定することと同等です。ここでは、tokenizer および filter オプションが明示的に定義され、同様の機能を実現しています。

analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stop",
"stop_words": ["a", "an", "for"]
}
]
}

Zilliz Cloud には、特定のテキスト処理ニーズに合わせて設計された以下の組み込みアナライザーが用意されています。

  • standard: 汎用的なテキスト処理に適しており、標準的なトークン化と小文字フィルタリングを適用します。

  • english: 英語テキスト向けに最適化されており、英語のストップワードに対応しています。

  • chinese: 中国語テキストの処理に特化しており、中国語の言語構造に合わせたトークン化を含みます。

カスタムアナライザー

より高度なテキスト処理を行うには、Zilliz Cloud のカスタムアナライザーを使用して、トークナイザーフィルターを指定することで、用途に合わせたテキスト処理パイプラインを構築できます。この設定は、細やかな制御が必要な特殊なユースケースに最適です。

トークナイザー

トークナイザーはカスタムアナライザーに必須のコンポーネントであり、入力テキストを個別の単位(トークン)に分割することでアナライザーパイプラインを開始します。トークン化は、ホワイトスペースや句読点による分割など、トークナイザーの種類に応じた特定のルールに従って行われます。これにより、各単語やフレーズをより正確かつ独立的に処理できます。

例えば、トークナイザーはテキスト "Vector データベース Built for Scale" を以下のような個別のトークンに変換します:

["Vector", "Database", "Built", "for", "Scale"]

トークナイザーを指定する例:

analyzer_params = {
"tokenizer": "whitespace",
}

Filter

フィルターはトークナイザーによって生成されたトークンに対して機能するオプションのコンポーネントであり、必要に応じてそれらを変換または精製します。たとえば、トークン化された語 ["Vector", "データベース", "Built", "for", "Scale"]lowercase フィルターを適用すると、結果は次のようになります:

["vector", "database", "built", "for", "scale"]

カスタムアナライザーのフィルターは、構成要件に応じて 組み込み または カスタム のいずれかになります。

  • 組み込みフィルター: Zilliz Cloud によって事前に構成されており、最小限の設定で済みます。これらのフィルターは、名前を指定するだけですぐに使用できます。以下のフィルターは、直接使用できる組み込みフィルターです:

    • lowercase: テキストを小文字に変換し、大文字小文字を区別しないマッチングを実現します。詳細については、Lowercase を参照してください。

    • asciifolding: 非 ASCII 文字を ASCII 相当の文字に変換し、多言語テキストの処理を簡素化します。詳細については、ASCII folding を参照してください。

    • alphanumonly: 英数字以外の文字を削除し、英数字のみを保持します。詳細については、アルファnumonly を参照してください。

    • cnalphanumonly: 中国語文字、英字、数字以外の文字を含むトークンを削除します。詳細については、Cnalphanumonly を参照してください。

    • cncharonly: 中国語文字以外の文字を含むトークンを削除します。詳細については、Cncharonly を参照してください。

    組み込みフィルターの使用例:

    analyzer_params = {
    "tokenizer": "standard", # Mandatory: Specifies tokenizer
    "filter": ["lowercase"], # Optional: Built-in filter that converts text to lowercase
    }
  • カスタムフィルター: カスタムフィルターは、専門的な設定を可能にします。有効なフィルタータイプ (filter.type) を選択し、各フィルタータイプに固有の設定を追加することで、カスタムフィルターを定義できます。カスタマイズをサポートするフィルタータイプの例:

    • stop: ストップワードのリストを設定することで、指定した一般的な単語を削除します(例: "stop_words": ["of", "to"])。詳細については、Stop を参照してください。

    • length: 最大トークン長の設定など、長さの条件に基づいてトークンを除外します。詳細については、Length を参照してください。

    • stemmer: 単語を語幹に還元することで、より柔軟なマッチングを実現します。詳細については、Stemmer を参照してください。

    カスタムフィルターの設定例:

    analyzer_params = {
    "tokenizer": "standard", # Mandatory: Specifies tokenizer
    "filter": [
    {
    "type": "stop", # Specifies 'stop' as the filter type
    "stop_words": ["of", "to"], # Customizes stop words for this filter type
    }
    ]
    }
nlohmann::json analyzer_params = {
{"type", "standard"},
{"filter", {{{"type", "stop"}, {"stop_words", {"a", "an", "for"}}}}},
};

使用例

この例では、以下の要素を含むコレクションスキーマを作成します。

  • 埋め込み(embeddings)用のベクトルフィールド。
  • テキスト処理用の2つの VARCHAR フィールド:
    • 1つのフィールドは組み込みアナライザーを使用します。
    • もう1つのフィールドはカスタムアナライザーを使用します。

これらの設定をコレクションに組み込む前に、run_analyzer メソッドを使って各アナライザーを検証します。

ステップ 1: MilvusClient の初期化とスキーマの作成

まず、Milvus クライアントをセットアップし、新しいスキーマを作成します。

from pymilvus import MilvusClient, DataType

# Set up a Milvus client
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT"
token="YOUR_CLUSTER_TOKEN"
)

# Create a new schema
schema = client.create_schema(auto_id=True, enable_dynamic_field=False)

ステップ 2: アナライザーの設定を定義および検証する

  1. 組み込みアナライザーenglishの設定と検証:

    • 設定: 組み込みの英語アナライザー用にアナライザーのパラメータを定義します。

    • 検証: run_analyzer を使用して、設定が期待されるトークン化を生成することを確認します。

    # Built-in analyzer configuration for English text processing
    analyzer_params_built_in = {
    "type": "english"
    }
    # Verify built-in analyzer configuration
    sample_text = "Milvus simplifies text analysis for search."
    result = client.run_analyzer(sample_text, analyzer_params_built_in)
    print("Built-in analyzer output:", result)

    # Expected output:
    # Built-in analyzer output: ['milvus', 'simplifi', 'text', 'analysi', 'search']
  2. カスタムアナライザーの設定と検証:

    • 設定: 標準のトークナイザーと組み込みの lowercase フィルター、およびトークン長とストップワード用のカスタムフィルターを使用するカスタムアナライザーを定義します。

    • 検証: run_analyzer を使用して、カスタム設定が意図通りにテキストを処理することを確認します。

    # Custom analyzer configuration with a standard tokenizer and custom filters
    analyzer_params_custom = {
    "tokenizer": "standard",
    "filter": [
    "lowercase", # Built-in filter: convert tokens to lowercase
    {
    "type": "length", # Custom filter: restrict token length
    "max": 40
    },
    {
    "type": "stop", # Custom filter: remove specified stop words
    "stop_words": ["of", "for"]
    }
    ]
    }

    # Verify custom analyzer configuration
    sample_text = "Milvus provides flexible, customizable analyzers for robust text processing."
    result = client.run_analyzer(sample_text, analyzer_params_custom)
    print("Custom analyzer output:", result)

    # Expected output:
    # Custom analyzer output: ['milvus', 'provides', 'flexible', 'customizable', 'analyzers', 'robust', 'text', 'processing']

ステップ 3: スキーマフィールドにアナライザーを追加する

アナライザーの設定を確認できたので、スキーマフィールドにそれらを追加します:

# Add VARCHAR field 'title_en' using the built-in analyzer configuration
schema.add_field(
field_name='title_en',
datatype=DataType.VARCHAR,
max_length=1000,
enable_analyzer=True,
analyzer_params=analyzer_params_built_in,
enable_match=True,
)

# Add VARCHAR field 'title' using the custom analyzer configuration
schema.add_field(
field_name='title',
datatype=DataType.VARCHAR,
max_length=1000,
enable_analyzer=True,
analyzer_params=analyzer_params_custom,
enable_match=True,
)

# Add a vector field for embeddings
schema.add_field(field_name="embedding", datatype=DataType.FLOAT_VECTOR, dim=3)

# Add a primary key field
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True)

ステップ 4: インデックスパラメータを準備してコレクションを作成する

# Set up index parameters for the vector field
index_params = client.prepare_index_params()
index_params.add_index(field_name="embedding", metric_type="COSINE", index_type="AUTOINDEX")

# Create the collection with the defined schema and index parameters
client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

Zilliz Cloud コンソールでの使用例

上記の操作は Zilliz Cloud コンソールからも実行できます。詳細については、以下のデモをご覧ください。

📘**Note**

Analyzer の設定はコレクション作成後に変更することはできません。Analyzer の設定を変更する場合は、必要な設定で新しいコレクションを作成し、データを移行してください。

次のステップ

Analyzer を設定する際には、ユースケースに最適な設定を決定するために、以下のベストプラクティス記事を参照することをお勧めします。

Analyzer の設定後は、Zilliz Cloud が提供するテキスト検索機能と統合できます。詳細については以下をご覧ください。