JSONファイルからのインポート
JSON(JavaScriptオブジェクト記法)は、マシンが簡単に解析および生成できる軽量で人間が読みやすいデータ形式です。言語に依存せず、C言語ファミリーのプログラマーに馴染みのある規則に従っているため、理想的なデータ交換形式です。
バッチライターツールを使用して、生データをJSONファイルに変換することをお勧めします。次の図は、生データをJSONファイルにどのようにマッピングできるかを示しています。

- AutoIDを有効にするかどうか
id フィールドはコレクションの主キーとして機能します。主キーを自動的にインクリメントするには、スキーマで AutoID を有効にすることができます。この場合、ソースデータの各行から id フィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションで動的フィールドが有効になっている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。
- 大文字と小文字の区別
辞書のキーとコレクションのフィールド名は大文字と小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と正確に一致していることを確認してください。ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id という名前のキーが含まれている必要があります。ID や Id を使用するとエラーになります。
ディレクトリ構造
データをJSONファイルに変換することを選択した場合、以下のツリー図に示すように、すべてのJSONファイルをソースデータフォルダに直接配置します。
├── json-folder
│ ├── 1.json
│ └── 2.json
データのインポート
データの準備が完了したら、以下のいずれかの方法を使用してZilliz Cloudコレクションにデータをインポートできます。
ファイルが比較的小さな場合は、フォルダまたは複数パスの方法を使用して一度にすべてをインポートすることをお勧めします。この方法により、インポートプロセス中に内部的な最適化が可能になり、後のリソース消費を減らすのに役立ちます。
Zilliz CloudコンソールまたはMilvus SDKを使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。
複数のパスからファイルをインポート(推奨)
複数のパスからファイルをインポートする場合は、各JSONファイルパスを別々のリストに含め、その後ですべてのリストをより上位のリストにグループ化します。以下のコード例を参照してください。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダからファイルをインポート
ソースフォルダにインポートするJSONファイルのみが含まれている場合は、以下のようにリクエストにソースフォルダを単純に含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
単一ファイルをインポート
準備したデータファイルが単一のJSONファイルの場合は、次のコード例に示すようにインポートします。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'
ストレージパス
Zilliz Cloudは、クラウドストレージからのデータインポートをサポートしています。以下の表は、データファイル用の可能なストレージパスを示しています。
クラウド | クイック例 |
|---|---|
AWS S3 | s3://bucket-name/json-folder/ s3://bucket-name/json-folder/data.json |
Google Cloud Storage | gs://bucket-name/json-folder/ gs://bucket-name/json-folder/data.json |
Azure Blob | https://myaccount.blob.core.windows.net/bucket-name/json-folder/ https://myaccount.blob.core.windows.net/bucket-name/json-folder/data.json |
制限事項
ローカルJSONファイルまたはクラウドストレージからのJSONファイルをインポートする際には、いくつかの制限事項に注意する必要があります。
有効なJSONファイルには、rows という名前のルートキーが存在し、その対応する値はターゲットコレクションのスキーマに一致する各エンティティを表す辞書のリストです。
インポート方法 | 1回のインポートあたりの最大ファイル数 | 最大ファイルサイズ | 最大合計インポートサイズ |
|---|---|---|---|
ローカルファイルから | 1ファイル | 1GB | 1GB |
オブジェクトストレージから | 1,000ファイル | 10GB | 1TB |
データファイルの準備 を参照して独自にデータを再構築するか、バッチライターツール を使用してソースデータファイルを生成できます。上記図のスキーマに基づいて準備されたサンプルデータをダウンロードするにはこちらをクリックしてください。