Parquet ファイルからのインポート
Apache Parquet は、効率的なデータストレージと取得のために設計されたオープンソースの列指向データファイル形式です。大量の複雑なデータを管理するための高性能な圧縮およびエンコードスキームを提供し、さまざまなプログラミング言語や分析ツールでサポートされています。
生データを Parquet ファイルに準備するには、BulkWriter ツールを使用することをお勧めします。次の図は、生データが Parquet ファイルにどのようにマッピングされるかを示しています。

- AutoID を有効にするかどうか
id フィールドはコレクションのプライマリフィールドとして機能します。プライマリフィールドを自動的にインクリメントするには、スキーマで AutoID を有効にできます。この場合、ソースデータの各行から id フィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションが動的フィールドを有効にしている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。
- 大文字と小文字の区別
辞書キーとコレクションフィールド名は大文字と小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と正確に一致していることを確認してください。ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id という名前のキーが必要です。ID または Id を使用するとエラーが発生します。
ディレクトリ構造
データを Parquet ファイルに準備する場合は、以下のツリー図に示すように、すべての Parquet ファイルをソースデータフォルダに直接配置します。
├── parquet-folder
│ ├── 1.parquet
│ └── 2.parquet
データインポート
データが準備できたら、以下のいずれかの方法を使用してZilliz Cloudコレクションにインポートできます。
ファイルが比較的小さい場合は、フォルダまたは複数パスの方法を使用して一度にすべてインポートすることをお勧めします。このアプローチにより、インポートプロセス中に内部最適化が可能になり、後のリソース消費を削減できます。
Zilliz CloudコンソールでMilvus SDKを使用してデータをインポートすることもできます。詳細については、データインポート(コンソール)およびデータインポート(SDK)を参照してください。
複数のパスからファイルをインポートする(推奨)
複数のパスからファイルをインポートする場合、各Parquetファイルのパスを個別のリストに含め、それらのリストをすべて上位レベルのリストにグループ化します。以下のコード例を参照してください。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder-1/1.parquet"],
["s3://bucket-name/parquet-folder-2/1.parquet"],
["s3://bucket-name/parquet-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダーからファイルをインポートする
ソースフォルダーにインポートするParquetファイルのみが含まれている場合、次のようにリクエストにソースフォルダーを含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダに複数の形式のファイルが含まれている場合、リクエストは失敗します。
単一ファイルのインポート
準備したデータファイルが単一のParquetファイルである場合は、以下のコード例に示すようにインポートします。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/1.parquet"]
],
"accessKey": "",
"secretKey": ""
}'
ストレージパス
Zilliz Cloudは、クラウドストレージからのデータインポートをサポートしています。以下の表は、データファイルの可能なストレージパスをリストしています。
クラウド | クイック例 |
|---|---|
AWS S3 | s3://bucket-name/parquet-folder/ s3://bucket-name/parquet-folder/data.parquet |
Google Cloud Storage | gs://bucket-name/parquet-folder/ gs://bucket-name/parquet-folder/data.parquet |
Azure Bolb | https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/ https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/data.parquet |
制限
ローカルのParquetファイルまたはクラウドストレージからのParquetファイルをインポートする際には、いくつかの制限に注意する必要があります。
インポート方法 | クラスタプラン | インポートあたりの最大ファイル数 | 最大ファイルサイズ | 最大合計インポートサイズ |
|---|---|---|---|---|
ローカルファイルから | すべてのプラン | 1ファイル | 1 GB | 1 GB |
オブジェクトストレージから | 無料 | 1,000ファイル | 1 GB | 1 GB |
Serverless & Dedicated | 1,000ファイル | 10 GB | 1 TB |
生データをParquetファイルに準備するには、BulkWriterツールを使用することをお勧めします。上記の図のスキーマに基づいた準備済みサンプルデータをダウンロードするには、ここをクリックしてください。