メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

ランダムサンプリング

大規模データセットを扱う際、洞察を得たりフィルタリングロジックをテストするためにすべてのデータを処理する必要はありません。ランダムサンプリングは、統計的に代表性のあるデータのサブセットで作業することを可能にし、クエリ時間とリソース消費を大幅に削減します。

ランダムサンプリングはセグメントレベルで動作し、コレクションのデータ分布におけるサンプルのランダム性を維持しながら効率的なパフォーマンスを確保します。

主な使用例:

  • データ探索: 最小限のリソース使用でコレクション構造と内容を迅速にプレビュー

  • 開発テスト: 本格的な展開前に管理可能なデータサンプルで複雑なフィルタリングロジックをテスト

  • リソースの最適化: 探索的クエリと統計解析のための計算コストを削減

構文

filter = "RANDOM_SAMPLE(sampling_factor)"

パラメータ:

  • sampling_factor: (0, 1)の範囲のサンプリング係数で、境界を除きます。たとえば、RANDOM_SAMPLE(0.001)は結果の約0.1%を選択します。

重要なルール:

  • 式は大文字小文字を区別しません(RANDOM_SAMPLEまたはrandom_sample

  • サンプリング係数は境界を除いて(0, 1)の範囲でなければなりません

他のフィルターとの組み合わせ

ランダムサンプリング演算子は論理的なANDを使用して他のフィルター式と組み合わせる必要があります。フィルターを組み合わせる場合、Milvusはまず他の条件を適用し、その後結果セットに対してランダムサンプリングを実行します。

# 正しい: まずフィルターし、その後サンプル
filter = 'color == "red" AND RANDOM_SAMPLE(0.001)'
# 処理: すべての赤いアイテムを検索 → それらの赤いアイテムの0.1%をサンプル

# 誤り: ORは論理的に意味をなしません
filter = 'color == "red" OR RANDOM_SAMPLE(0.001)' # ❌ 無効なロジック
# これは「赤いアイテム OR すべてをサンプル」を意味する - これは意味がありません

例1: データ探索

コレクション構造を迅速にプレビュー:

from pymilvus import MilvusClient

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

# コレクション全体の約1%をサンプル
result = client.query(
collection_name="product_catalog",
filter="RANDOM_SAMPLE(0.01)",
output_fields=["id", "product_name"],
limit=10
)

print(f"Sampled {len(result)} products from collection")

例2: ランダムサンプリングとの組み合わせフィルタリング

管理可能なサブセットでフィルタリングロジックをテスト:

# まずカテゴリと価格でフィルターし、その後結果の0.5%をサンプル
filter_expression = 'category == "electronics" AND price > 100 AND RANDOM_SAMPLE(0.005)'

result = client.query(
collection_name="product_catalog",
filter=filter_expression,
output_fields=["product_name", "price", "rating"],
limit=10
)

print(f"Found {len(result)} electronics products in sample")

例3: クイック分析

フィルターされたデータで迅速な統計分析を実行:

# プレミアム顧客データの約0.1%から洞察を得る
filter_expression = 'customer_tier == "premium" AND region == "North America" AND RANDOM_SAMPLE(0.001)'

result = client.query(
collection_name="customer_profiles",
filter=filter_expression,
output_fields=["purchase_amount", "satisfaction_score", "last_purchase_date"],
limit=10
)

# サンプルを分析して迅速な洞察を得る
if result:
average_purchase = sum(r["purchase_amount"] for r in result) / len(result)
average_satisfaction = sum(r["satisfaction_score"] for r in result) / len(result)

print(f"Sample size: {len(result)}")
print(f"Average purchase amount: ${average_purchase:.2f}")
print(f"Average satisfaction score: {average_satisfaction:.2f}")

フィルターされた検索シナリオでランダムサンプリングを使用:

# サンプル化されたサブセット内で類似する製品を検索
search_results = client.search(
collection_name="product_catalog",
data=[[0.1, 0.2, 0.3, 0.4, 0.5]], # query vector
filter='category == "books" AND RANDOM_SAMPLE(0.01)',
search_params={"metric_type": "L2", "params": {}},
output_fields=["title", "author", "price"],
limit=10
)

print(f"Found {len(search_results[0])} similar books in sample")

ベストプラクティス

  • 小規模から始める: 最初の探索では小さなサンプリング係数(0.001-0.01)を使用して開始

  • 開発ワークフロー: 開発中はサンプリングを使用し、本番クエリでは削除

  • 統計的妥当性: 大きいサンプルはより正確な統計的表現を提供

  • パフォーマンステスト: クエリパフォーマンスを監視し、必要に応じてサンプリング係数を調整