データのインポート (RESTful API)
このページでは、Zilliz Cloud RESTful API を使用して準備したデータをインポートする方法を紹介します。
開始前の準備
以下の条件が満たされていることを確認してください:
-
クラスター用の APIキー を取得していること。詳細については、APIキー を参照してください。
-
サポートされている形式のいずれかでデータを準備していること。
データの準備方法の詳細については、ストレージオプション および 形式オプション を参照してください。また、エンドツーエンドのノートブック データインポート Hands-On も参考にしてください。
-
サンプルデータセットと一致するスキーマでコレクションを作成していること。
コレクションの作成の詳細については、コレクションの管理 (コンソール) を参照してください。
ボリュームからデータをインポート
ボリュームからクラスターにデータをインポートするには、まず マネージドボリュームまたは外部ボリューム を作成します。マネージドボリュームの場合は、データファイルをボリュームにアップロードします。外部ボリュームの場合は、データファイルがマッピングされたクラウドストレージバケットに存在することを確認します。その後、以下のようにデータをインポートします:
- Serving Cluster
- java
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"dbName": "default",
"collectionName": "medium_articles",
"partitionName": "",
"volumeName": "my_volume",
"dataPaths": [
[
"json-folder/1.json"
]
]
}'
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Content-Type: application/json" \
-d '{
"projectId": "proj-xxxxxxxxxxxxxxx",
"regionId": "aws-us-west-2",
"dbName": "default",
"collectionName": "medium_articles",
"partitionName": "",
"volumeName": "my_volume",
"dataPaths": [
[
"json-folder/1.json"
]
]
}'
特定のパーティションにデータをインポートするには、リクエストに partitionName を含めます。
Zilliz Cloud が上記のリクエストを処理すると、ジョブ ID が返されます。このジョブ ID を使用して、以下のコマンドでインポートの進捗状況を監視します。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/getProgress" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"jobId": "job-xxxxxxxxxxxxxxxxxxxxx"
}'
外部ストレージからデータをインポート
外部ストレージ経由でファイルからデータをインポートするには、まずファイルをオブジェクトストレージバケット(AWS S3 や Google Cloud Storage (GCS) など)にアップロードする必要があります。アップロード後、リモートバケット内のファイルへのパスと、Zilliz Cloud がバケットからデータをプルするためのバケット認証情報を取得します。サポートされているオブジェクトパスの詳細については、ストレージオプション を参照してください。
データセキュリティ要件に応じて、データインポート時に長期認証情報または短期認証情報のいずれかを使用できます。
認証情報の取得についての詳細は、以下を参照してください。
-
Amazon S3: 長期認証情報を使用した認証
-
Google Cloud Storage: サービスアカウントの HMAC キーの管理
-
Azure Blob Storage: アカウントアクセスキーの表示
セッショントークンの使用についての詳細は、この FAQ を参照してください。
データインポートを成功させるには、対象コレクションの実行中または保留中のインポートジョブが 10,000 件未満であることを確認してください。
オブジェクトパスとバケット認証情報を取得したら、以下のように API を呼び出します。
- Serving Cluster
- java
# replace url and token with your own
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrl": "https://assets.zilliz.com/docs/example-data-import.json",
"accessKey": "",
"secretKey": ""
}'
# replace url and token with your own
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"projectId": "proj-xxxxxxxxxxxxxxx",
"regionId": "aws-us-west-2",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrl": "https://assets.zilliz.com/docs/example-data-import.json",
"accessKey": "",
"secretKey": ""
}'
特定のパーティションにデータをインポートするには、リクエストに partitionName を含める必要があります。
Zilliz Cloud が上記のリクエストを処理すると、ジョブ ID が返されます。このジョブ ID を使用して、以下のコマンドでインポートの進捗状況を監視します。
- Serving Cluster
- java
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/get_progress" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"jobId": "job-xxxxxxxxxxxxxxxxxxxxx"
}'
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/get_progress" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"projectId": "proj-xxxxxxxxxxxxxxxxxxxxx",
"regionId": "aws-us-west-2"
}'
詳細については、インポート と インポート進捗の取得 を参照してください。
結果の確認
コマンドの出力が以下のようであれば、インポートジョブは正常に送信されています。
{
"code": 0,
"data": {
"jobId": "job-xxxxxxxxxxxxxxxxxxxxx"
}
}
RESTful API を呼び出して、現在のインポートジョブの進捗状況を取得したり、すべてのインポートジョブを一覧表示したりすることもできます。または、Zilliz Cloud コンソールの ジョブセンター にアクセスして、結果とジョブの詳細を確認することもできます。
FAQ
外部ボリュームと外部ストレージからの直接インポートの違いは何ですか?
どちらも独自の S3 または GCS バケットからデータをインポートできます。主な違いは以下の通りです:
-
外部ボリュームでは、AWS S3 バケット、Google Cloud Storage バケット、または Microsoft Azure BLOB ストレージ コンテナー を Zilliz Cloud と統合して、認証情報を管理する必要があります。認証情報は一度設定すれば、複数のボリュームや操作で再利用できます。データエンジニアはクラウドストレージのキーに直接アクセスする必要はありません。
-
外部ストレージからの直接インポート では、各インポートリクエストごとに認証情報(アクセスキー、シークレットキー)をインラインで指定する必要があります。これは一度きりのインポートにはシンプルですが、認証情報の分離や再利用はできません。