Parquetファイルからのインポート
Apache Parquetは、効率的なデータストレージと検索を目的としたオープンソースの列指向データファイル形式です。複雑なデータを一括で管理するための高性能な圧縮およびエンコーディング方式を提供し、さまざまなプログラミング言語と分析ツールでサポートされています。
生データをParquetファイルに準備するには、BulkWriterツールの使用を推奨します。以下の図は、生データがParquetファイルにどのようにマッピングされるかを示しています。

- AutoIDを有効にするかどうか
idフィールドはコレクションの主フィールドとして機能します。主フィールドを自動的にインクリメントするには、スキーマでAutoIDを有効にすることができます。この場合、ソースデータの各行からidフィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションで動的フィールドが有効になっている場合、事前定義されたスキーマに含まれていないフィールドを格納する必要がある場合は、書き込み操作中に$meta列を指定して対応するキーバリューデータを提供できます。
- 大文字小文字の区別
辞書のキーとコレクションフィールド名は大文字小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致するようにしてください。ターゲットコレクションにidという名前のフィールドがある場合、各エンティティ辞書にはidという名前のキーが必要です。IDやIdを使用するとエラーになります。
ディレクトリ構造
データをParquetファイルに準備する場合は、以下のツリー図に示すように、すべてのParquetファイルを直接ソースデータフォルダに配置してください。
├── parquet-folder
│ ├── 1.parquet
│ └── 2.parquet
データのインポート
データの準備が完了したら、以下のいずれかの方法を使用してZilliz Cloudコレクションにインポートできます。
ファイルが比較的小さい場合は、フォルダまたは複数パスの方法を使用して一度にすべてをインポートすることを推奨します。このアプローチにより、インポートプロセス中の内部最適化が可能になり、後のリソース消費を削減するのに役立ちます。
Milvus SDKを使用してZilliz Cloudコンソールでデータをインポートすることもできます。詳細については、データのインポート(コンソール)およびデータのインポート(SDK)を参照してください。
複数パスからのファイルのインポート(推奨)
複数パスからファイルをインポートする場合は、各Parquetファイルパスを個別のリストに含め、その後すべてのリストを上位のリストにグループ化します。以下のコード例を参照してください。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder-1/1.parquet"],
["s3://bucket-name/parquet-folder-2/1.parquet"],
["s3://bucket-name/parquet-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダからのファイルのインポート
ソースフォルダにインポートするParquetファイルのみが含まれている場合は、リクエストにソースフォルダを以下のように含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
単一ファイルのインポート
準備したデータファイルが単一のParquetファイルの場合は、以下のコード例に示すようにインポートします。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/1.parquet"]
],
"accessKey": "",
"secretKey": ""
}'
ストレージパス
Zilliz Cloudは、クラウドストレージからのデータインポートをサポートしています。以下の表は、データファイルの可能なストレージパスを一覧表示しています。
クラウド | クイック例 |
|---|---|
AWS S3 | s3://bucket-name/parquet-folder/ s3://bucket-name/parquet-folder/data.parquet |
Google Cloud Storage | gs://bucket-name/parquet-folder/ gs://bucket-name/parquet-folder/data.parquet |
Azure Blob | https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/ https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/data.parquet |
制限事項
ローカルParquetファイルまたはクラウドストレージからのParquetファイルをインポートする際には、いくつかの制限事項があります。
インポート方法 | クラスタープラン | 1回のインポートあたりの最大ファイル数 | 最大ファイルサイズ | 最大総インポートサイズ |
|---|---|---|---|---|
ローカルファイルからのインポート | すべてのプラン | 1ファイル | 1 GB | 1 GB |
オブジェクトストレージからのインポート | 無料 | 1,000ファイル | 1 GB | 1 GB |
サーバーレス & 専用 | 1,000ファイル | 10 GB | 1 TB |
生データをParquetファイルに準備するには、BulkWriterツールの使用を推奨します。上記の図のスキーマに基づいて準備されたサンプルデータをダウンロードするにはここをクリックしてください。