세상엔 여러 데이터 세트가 있고, 활용 방안도 가지각색이다. Flickr8k, Conceptual Captions 3M (CC3M), Visual Genome (VG)에 대해서 정리해보자.
Flickr8k
- 이미지에 대한 캡션이 있는 데이터 세트이다.
- 총 8,091장의 이미지로 구성되어 있다.
- 각 이미지 당 5개의 캡션이 있다.
- 캡션은 이미지에 대한 설명을 제공한다.
- 크기는 2.07 GB로 비교적 작은 크기의 데이터 세트이다.
- 캡션은 human annotation으로 모두 사실만이 적혀있다.
데이터 세트 다운로드 사이트
https://www.kaggle.com/datasets/adityajn105/flickr8k
캡션 파일은 아래와 같이 생겼다.
Conceptual Captions 3M
- Google에서 제작한 데이터 세트로, 이미지에 대한 캡션을 제공하는 데이터 세트이다.
- 이미지 링크와 캡션의 쌍으로 구성되어 있다.
- 공식 홈페이지에서 기술한 Training split은 3,318,333장이고, validation split은 15,840장이다.
- 실제 다운로드 후, 저장된 이미지의 개수는 Training split 2,392,357장, validation split 11,737장이다.
- Test split은 12,559장 있으며 공개하지 않는다 (Competition 용도).
- 크기는 343 GB로 큰 데이터 세트이다.
- 다운로드에 하루에서 이틀 정도 소요된다.
- 약 2백만 장의 training sample에 대해서는 Google Cloud Vision API를 사용하여 생성된 machine-generated image label을 제공한다.
- Image label은 description (라벨 설명), MID (machine-generated identifier), 신뢰도 점수로 이루어져 있다.
- 웹 크롤링을 통해 이미지를 다운로드 받는다.
- 약 8%의 이미지는 HTTP 에러로 다운로드에 실패한다고 한다 (다운로드 후 확인한 결과 약 27% 정도 실패한다).
이렇게 image label은 MID, label에 대한 설명, 모델 예측의 신뢰도 점수로 구성되어 있다.
라벨이 있을 경우와 없을 경우의 형태는 다음과 같다.
Image label이 없을 경우
열 (Column) | 설명 (Description) |
1 | 캡션. 토큰화되고 소문자로 변환되었다. |
2 | 이미지 URL |
Image label이 있는 경우
열 (Column) | 설명 (Description) |
1 | 캡션. 토큰화되고 소문자로 변환되었다. |
2 | 이미지 URL |
3 | 이미지 라벨들. 신뢰도 점수의 내림차순으로 정렬된 Comma 분리된 리스트. |
4 | MIDs. 이미지 라벨 리스트에 대응하는 Comma 분리된 리스트. |
5 | 신뢰도 점수들. 이미지 라벨 리스트에 대응하는 Comma 분리된 리스트. |
크롤링 정보와 캡션 데이터
https://ai.google.com/research/ConceptualCaptions/download
크롤링을 위한 코드 사이트
https://github.com/igorbrigadir/DownloadConceptualCaptions
CC3M에 관한 정보를 읽을 수 있는 공식 GitHub
https://github.com/google-research-datasets/conceptual-captions
Visual Genome
- 이미지와 그에 대한 세부 정보(영역 설명, VQA, 특성, scene graph 등)를 제공하는 데이터 세트
- 108,251장의 이미지와 그에 대응하는 세부 정보로 구성되어 있다 (공식 사이트에는 108,077장이라고 설명되어 있다).
- 크기는 28.4 GB로 로컬에서 다루기도 적당한 크기의 데이터 세트이다.
- 데이터 세트는 WordNet synsets로 매핑되어 있다.
- SGG 연구에서는 대부분 문헌에서 stanford filtered 정보를 함께 사용한다.
데이터 세트 다운로드 사이트
https://homes.cs.washington.edu/~ranjay/visualgenome/index.html
'열정 > 연구 일지' 카테고리의 다른 글
ION 설치 방법 (0) | 2024.03.15 |
---|---|
[Linux/Ubuntu] 디스크 (HDD, SSD)로 용량 추가하기 (0) | 2024.03.11 |
CC3M 데이터 세트 다운로드 (1) | 2024.02.26 |
[Error] VirtualBox Document is empty 오류 해결 (0) | 2024.02.26 |
Windows에서 VirtualBox 설치 및 가상 머신 생성과 실행 (0) | 2024.02.26 |