メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Parquet ファイルからのインポート

Apache Parquet は、効率的なデータストレージおよび検索を目的として設計されたオープンソースの列指向データファイル形式です。複雑なデータを一括で処理するための高性能な圧縮およびエンコーディングスキームを提供し、さまざまなプログラミング言語や分析ツールでサポートされています。

生データを Parquet ファイルに変換するには、BulkWriter ツール を使用することをお勧めします。次の図は、生データが Parquet ファイルにどのようにマッピングされるかを示しています。

parquet_file_structure_en

📘Notes
  • AutoID を有効にするかどうか

id フィールドはコレクションの主キーとなるフィールドです。この主キーフィールドを自動的にインクリメントさせるには、スキーマで AutoID を有効化できます。その場合、ソースデータの各行から id フィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲットコレクションで動的フィールドが有効になっている場合、事前に定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。

  • 大文字・小文字の区別

辞書のキーおよびコレクションのフィールド名は大文字・小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致していることを確認してください。たとえば、ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id というキーが必要です。IDId を使用するとエラーになります。

ディレクトリ構造

データを Parquet ファイルに準備する場合は、以下のツリーダイアグラムに示すように、すべての Parquet ファイルをソースデータフォルダ直下に配置してください。

├── parquet-folder
│ ├── 1.parquet
│ └── 2.parquet

データのインポート

データの準備ができたら、以下のいずれかの方法で Zilliz Cloud コレクションにデータをインポートできます。

📘Notes

ファイルが比較的小さい場合は、フォルダまたは複数パス方式を使用して一度にすべてインポートすることを推奨します。この方法により、インポート処理中に内部で最適化が行われ、後続のリソース消費を削減できます。

Zilliz Cloud コンソールや Milvus SDK を使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。

複数のパスからファイルをインポートする際は、各 Parquet ファイルのパスを個別のリストに含め、それらすべてのリストをより上位のリストにまとめてください。次のコード例を参照してください。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder-1/1.parquet"],
["s3://bucket-name/parquet-folder-2/1.parquet"],
["s3://bucket-name/parquet-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'

フォルダからファイルをインポートする

ソースフォルダにインポート対象のParquetファイルのみが含まれている場合、リクエストにソースフォルダを以下のように指定できます。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
📘Notes

フォルダに複数の形式のファイルが含まれている場合、リクエストは失敗します。

単一ファイルのインポート

準備したデータファイルが単一のParquetファイルである場合は、以下のコード例に示すようにインポートします。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/parquet-folder/1.parquet"]
],
"accessKey": "",
"secretKey": ""
}'

Storage paths

Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルの可能なストレージパスを一覧示します。

Cloud

Quick Examples

AWS S3

s3://bucket-name/parquet-folder/

s3://bucket-name/parquet-folder/data.parquet

Google Cloud Storage

gs://bucket-name/parquet-folder/

gs://bucket-name/parquet-folder/data.parquet

Azure Bolb

https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/

https://myaccount.blob.core.windows.net/bucket-name/parquet-folder/data.parquet

制限

ローカルの Parquet ファイルまたはクラウドストレージ上の Parquet ファイルからデータをインポートする際には、いくつかの制限に従う必要があります。

Import 方法

Max Files per Import

Max File Size

Max Total Import Size

From local file

1 File

1 GB

1 GB

From object storage

1,000 Files

10 GB

1 TB

生データを parquet ファイルに準備するには、BulkWriter ツール の使用をお勧めします。上記の図のスキーマに基づいて準備されたサンプルデータをダウンロードするには、こちらをクリックしてください