メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

ランダムサンプリング

大規模なデータセットを扱う場合、インサイトを得たり、フィルタリングロジックをテストしたりするために、すべてのデータを処理する必要がないことがよくあります。ランダムサンプリングは、統計的に代表的なデータのサブセットを扱うことを可能にすることで、クエリ時間とリソース消費を大幅に削減するソリューションを提供します。

ランダムサンプリングはセグメントレベルで動作し、コレクションのデータ分布全体でサンプルのランダム性を維持しながら、効率的なパフォーマンスを保証します。

主なユースケース:

  • データ探索: 最小限のリソース使用量でコレクションの構造と内容を素早くプレビュー

  • 開発テスト: 完全なデプロイメントの前に、管理しやすいデータサンプルで複雑なフィルタリングロジックをテスト

  • リソース最適化: 探索的クエリと統計分析の計算コストを削減

構文

filter = "RANDOM_SAMPLE(sampling_factor)"

パラメータ:

  • sampling_factor: 境界を除く (0, 1) の範囲のサンプリング係数。例えば、RANDOM_SAMPLE(0.001) は結果の約 0.1% を選択します。

重要なルール:

  • 式は大文字と小文字を区別しません (RANDOM_SAMPLE または random_sample)

  • サンプリング係数は境界を除く (0, 1) の範囲でなければなりません

他のフィルターとの組み合わせ

ランダムサンプリング演算子は、論理 AND を使用して他のフィルタリング式と組み合わせる必要があります。フィルターを組み合わせる際、Milvus はまず他の条件を適用し、次に結果セットに対してランダムサンプリングを実行します。

# Correct: Filter first, then sample
filter = 'color == "red" AND RANDOM_SAMPLE(0.001)'
# Processing: Find all red items → Sample 0.1% of those red items

# Incorrect: OR doesn't make logical sense
filter = 'color == "red" OR RANDOM_SAMPLE(0.001)' # ❌ Invalid logic
# This would mean: "Either red items OR sample everything" - which is meaningless

例 1: データ探索

コレクションの構造を素早くプレビューします。

from pymilvus import MilvusClient

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

# Sample approximately 1% of the entire collection
result = client.query(
collection_name="product_catalog",
filter="RANDOM_SAMPLE(0.01)",
output_fields=["id", "product_name"],
limit=10
)

print(f"Sampled {len(result)} products from collection")

例2:ランダムサンプリングと組み合わせたフィルタリング

管理しやすいサブセットでフィルタリングロジックをテストします。

# First filter by category and price, then sample 0.5% of results
filter_expression = 'category == "electronics" AND price > 100 AND RANDOM_SAMPLE(0.005)'

result = client.query(
collection_name="product_catalog",
filter=filter_expression,
output_fields=["product_name", "price", "rating"],
limit=10
)

print(f"Found {len(result)} electronics products in sample")

例 3: クイック分析

フィルタリングされたデータに対して迅速な統計分析を実行します。

# Get insights from ~0.1% of premium customer data
filter_expression = 'customer_tier == "premium" AND region == 'North America' AND RANDOM_SAMPLE(0.001)'

result = client.query(
collection_name="customer_profiles",
filter=filter_expression,
output_fields=["purchase_amount", "satisfaction_score", "last_purchase_date"],
limit=10
)

# Analyze sample for quick insights
if result:
average_purchase = sum(r["purchase_amount"] for r in result) / len(result)
average_satisfaction = sum(r["satisfaction_score"] for r in result) / len(result)

print(f"Sample size: {len(result)}")
print(f"Average purchase amount: ${average_purchase:.2f}")
print(f"Average satisfaction score: {average_satisfaction:.2f}")

フィルタリングされた検索シナリオでランダムサンプリングを使用します。

# Search for similar products within a sampled subset
search_results = client.search(
collection_name="product_catalog",
data=[[0.1, 0.2, 0.3, 0.4, 0.5]], # query vector
filter='category == "books" AND RANDOM_SAMPLE(0.01)',
search_params={"metric_type": "L2", "params": {}},
output_fields=["title", "author", "price"],
limit=10
)

print(f"Found {len(search_results[0])} similar books in sample")

ベストプラクティス

  • 小さく始める: 最初の探索では、より小さなサンプリング係数 (0.001-0.01) から始めます。

  • 開発ワークフロー: 開発中はサンプリングを使用し、本番クエリでは削除します。

  • 統計的妥当性: より大きなサンプルは、より正確な統計的表現を提供します。

  • パフォーマンステスト: クエリのパフォーマンスを監視し、必要に応じてサンプリング係数を調整します。