열정/연구 일지

CC3M 데이터 세트 다운로드

lime9 2024. 2. 26. 18:17

대용량 데이터 세트인 CC3M 데이터 세트는 웹 크롤링을 통해 데이터 세트를 다운로드 받는다. 보통 다운로드 받는 데에 하루에서 이틀 정도가 소요된다고 하니... 충분한 용량과 인내의 마음을 다지고 다운로드를 진행하면 되겠다.

(교수님이 다운로드 받아보라고 하셔서.... 어쩔 수 없이 다운로드 받게 되었다...)

 

 

이때...! Windows말고 Ubuntu를 사용하는 것이 좋다...

처음에는 Windows에서 진행했는데, 이후에 설치해야 할 패키지인 magic이 Ubuntu 환경에서만 돌아가는 패키지이다. Windows를 위해서는 따로 dll 파일을 통해 작업을 해줘야하는데, 결국 경로 오류 등 제대로 파일이 실행되지 않아...

VirtualBox를 통해 Ubuntu 환경을 구축했다. (Windows에 magic을 사용할 자신이 있다면 Windows에서 진행하도록...)

 

VirtualBox 설치 및 실행 방법은 아래에 포스팅 했다.

2024.02.26 - [열정/연구 일지] - Windows에서 VirtualBox 설치 및 가상 머신 생성과 실행

 

Windows에서 VirtualBox 설치 및 가상 머신 생성과 실행

도저히 Windows로는 연구하기가 어려울 것 같아서 VirtualBox를 설치하기로 했다... USB에서 Linux가 있어서 멀티 부팅을 사용해도 되기는 하는데, 리소스를 공유하기 위해서 VirtualBox를 사용하기로 했다

mydaydream.tistory.com

 

 

 


 

 

 

1. 공식 사이트 접속

https://ai.google.com/research/ConceptualCaptions/download

 

https://ai.google.com/research/ConceptualCaptions/download

 

ai.google.com

 

먼저 공식 사이트에서 크롤링 정보가 들어있는 tsv 파일을 다운로드 받는다. 나는 다운로드 크기가 상당할 것을 고려해서 64 GB USB에 설치해주었다.

 

tsv 파일

각각 Train_GCC_training.tsv, Validation_GCC-1.1.0-Validation.tsv, Image_Labels_Subset_Train_GCC-Labels-training.tsv 파일로 다운로드 된다.

 

 

2. GitHub 접속

https://github.com/igorbrigadir/DownloadConceptualCaptions

 

GitHub - igorbrigadir/DownloadConceptualCaptions: Reliably download millions of images efficiently

Reliably download millions of images efficiently. Contribute to igorbrigadir/DownloadConceptualCaptions development by creating an account on GitHub.

github.com

 

GitHub에서 크롤링을 위한 코드를 다운로드 받는다. 코드 또한 USB에 다운로드 받는다. ZIP 파일 압축 해체하면 DownloadConceptualCaptions라는 디렉토리가 있다.

 

 

3. 파일 이동

다운로드한 Train_GCC_training.tsv와 Validation_GCC-1.1.0-Validation.tsv 파일을 DownloadConceptualCaptions 디렉토리로 옮긴다.

최종 파일 구조

 

 

4. Terminal 열기

DownloadConceptualCaptions 디렉토리에서 터미널을 연다. 먼저 pip를 설치한 후 아래 명령어를 통해 필요한 패키지들을 설치해준다.

// pip 설치
sudo apt install python3-pip

// requirements 설치
pip install -r requirements.txt

 

나 같은 경우에는 위에서 에러가 발생했다. 가상 환경에서 설치를 진행해서 그랬던 것 같다. python3-xyz 형식 (xyz에 내가 사용할 패키지 이름 작성)으로 다운로드를 진행하라고 하여 하나하나 설치해주었다.

sudo apt install python3-pandas
sudo apt install python3-tqdm
sudo apt install python3-magic

 

 

5. Python 코드 실행

download_data.py을 실행하여 크롤링을 진행한다.

python3 download_data.py

 

 

열심히 크롤링 중이다. 그럼 나는 64 GB가 부족하지 않길 바라면서 퇴근하면 되겠다.

 

 


 

 

2024년 2월 27일

다음날 출근해보니 중간에 멈춰있어서 다시 시작해보았다.

다행히도 중단된 부분부터 다운로드가 진행되어 training 부분의 다운로드가 진행되었다. 중간중간에 유해 사이트로 인해 다운로드가 진행되지 않는 경우가 있는 것 같아서 유해 사이트 차단을 해제하였다 (악성 코드와 조우).

Training-GCC-training.tsv 파일 열고 이미지 다운로드 중