연구를 위해 데이터 세트를 다운로드 받는 과정에서 어려움을 겪어 (만료된 페이지가 많아...) 나중을 위해 정리해두기로 했다.
1. 공식 사이트로 이동
https://homes.cs.washington.edu/~ranjay/visualgenome/api.html
2. 데이터 세트 다운로드
위의 링크로 들어가면 아래와 같이 다운로드 페이지가 나온다.
다운로드 가능한 목록이 굉장히 많은데 그 중에서 사용할 것은 비정제 데이터이다:
- images part 1
- images part 2
- image meta data
내가 해결하고자 하는 문제에 맞게 나머지 데이터들도 다운로드 받으면 된다.
공식 사이트에서 바로 다운로드 받아도 되고 코드로 다운로드 받아도 된다.
import requests
import zipfile
import io
import os
def download_and_extract_zip(url, extract_path="."):
zip_temp_path = "temp.zip"
response = requests.get(url)
with open(zip_temp_path, 'wb') as zip_temp_file:
zip_temp_file.write(response.content)
with zipfile.ZipFile(zip_temp_path, 'r') as zip_ref:
zip_ref.extractall(extract_path)
os.remove(zip_temp_path)
# Dataset path
image1 = "https://cs.stanford.edu/people/rak248/VG_100K_2/images.zip"
image2 = "https://cs.stanford.edu/people/rak248/VG_100K_2/images2.zip"
metadata = "https://homes.cs.washington.edu/~ranjay/visualgenome/data/dataset/image_data.json.zip"
# Download
print("Start Download...")
download_and_extract_zip(image1, extract_path="./datasets")
print("image1 has been downloaded successfully.")
download_and_extract_zip(image2, extract_path="./datasets")
print("image2 has been downloaded successfully.")
download_and_extract_zip(metadata, extract_path="./datasets")
print("metadata has been downloaded successfully.")
print("Download finished.")
오래 걸린다...
"datasets"라는 디렉토리에 다운로드 해줬다.
데이터 세트는 한 번 다운로드 받으면 나중에도 유용하게 쓸 수 있으니 시간을 들여서라도 잘 다운받아 두기!
이후 포스팅에서는 비슷한 데이터 세트에 대해 정리하며 나의 연구에 어떤 데이터 세트가 최적일지 고민해볼 수 있는 시간을 가질 예정이다.
'열정 > 연구 일지' 카테고리의 다른 글
Zero-Shot image 출력 (0) | 2024.02.21 |
---|---|
[연구 일지] SGG를 위한 Visual Genome Dataset 정리 방법 (0) | 2024.02.19 |
[연구 일지] Blob (1) | 2024.02.11 |
[연구 일지] Cython compile (0) | 2024.02.08 |
Visual Genome Dataset 다운로드: Hugging Face 사용 (0) | 2024.02.06 |