Flickr8k, Conceptual Captions 3M, Visual Genome 데이터 세트

열정/연구 일지

Flickr8k, Conceptual Captions 3M, Visual Genome 데이터 세트

lime9 2024. 2. 29. 14:20

세상엔 여러 데이터 세트가 있고, 활용 방안도 가지각색이다. Flickr8k, Conceptual Captions 3M (CC3M), Visual Genome (VG)에 대해서 정리해보자.

Flickr8k

이미지에 대한 캡션이 있는 데이터 세트이다.
총 8,091장의 이미지로 구성되어 있다.
각 이미지 당 5개의 캡션이 있다.
캡션은 이미지에 대한 설명을 제공한다.
크기는 2.07 GB로 비교적 작은 크기의 데이터 세트이다.
캡션은 human annotation으로 모두 사실만이 적혀있다.

데이터 세트 다운로드 사이트

https://www.kaggle.com/datasets/adityajn105/flickr8k

Flickr 8k Dataset

Flickr8k Dataset for image captioning.

www.kaggle.com

캡션 파일은 아래와 같이 생겼다.

Conceptual Captions 3M

Google에서 제작한 데이터 세트로, 이미지에 대한 캡션을 제공하는 데이터 세트이다.
이미지 링크와 캡션의 쌍으로 구성되어 있다.
공식 홈페이지에서 기술한 Training split은 3,318,333장이고, validation split은 15,840장이다.
실제 다운로드 후, 저장된 이미지의 개수는 Training split 2,392,357장, validation split 11,737장이다.
Test split은 12,559장 있으며 공개하지 않는다 (Competition 용도).
크기는 343 GB로 큰 데이터 세트이다.
다운로드에 하루에서 이틀 정도 소요된다.
약 2백만 장의 training sample에 대해서는 Google Cloud Vision API를 사용하여 생성된 machine-generated image label을 제공한다.
Image label은 description (라벨 설명), MID (machine-generated identifier), 신뢰도 점수로 이루어져 있다.
웹 크롤링을 통해 이미지를 다운로드 받는다.
약 8%의 이미지는 HTTP 에러로 다운로드에 실패한다고 한다 (다운로드 후 확인한 결과 약 27% 정도 실패한다).

이렇게 image label은 MID, label에 대한 설명, 모델 예측의 신뢰도 점수로 구성되어 있다.

라벨이 있을 경우와 없을 경우의 형태는 다음과 같다.

Image label이 없을 경우

열 (Column)	설명 (Description)
1	캡션. 토큰화되고 소문자로 변환되었다.
2	이미지 URL

Image label이 있는 경우

열 (Column)	설명 (Description)
1	캡션. 토큰화되고 소문자로 변환되었다.
2	이미지 URL
3	이미지 라벨들. 신뢰도 점수의 내림차순으로 정렬된 Comma 분리된 리스트.
4	MIDs. 이미지 라벨 리스트에 대응하는 Comma 분리된 리스트.
5	신뢰도 점수들. 이미지 라벨 리스트에 대응하는 Comma 분리된 리스트.

크롤링 정보와 캡션 데이터

https://ai.google.com/research/ConceptualCaptions/download

ai.google.com

크롤링을 위한 코드 사이트

https://github.com/igorbrigadir/DownloadConceptualCaptions

GitHub - igorbrigadir/DownloadConceptualCaptions: Reliably download millions of images efficiently

Reliably download millions of images efficiently. Contribute to igorbrigadir/DownloadConceptualCaptions development by creating an account on GitHub.

github.com

CC3M에 관한 정보를 읽을 수 있는 공식 GitHub

https://github.com/google-research-datasets/conceptual-captions

GitHub - google-research-datasets/conceptual-captions: Conceptual Captions is a dataset containing (image-URL, caption) pairs de

Conceptual Captions is a dataset containing (image-URL, caption) pairs designed for the training and evaluation of machine learned image captioning systems. - GitHub - google-research-datasets/con...

github.com

Visual Genome

이미지와 그에 대한 세부 정보(영역 설명, VQA, 특성, scene graph 등)를 제공하는 데이터 세트
108,251장의 이미지와 그에 대응하는 세부 정보로 구성되어 있다 (공식 사이트에는 108,077장이라고 설명되어 있다).
크기는 28.4 GB로 로컬에서 다루기도 적당한 크기의 데이터 세트이다.
데이터 세트는 WordNet synsets로 매핑되어 있다.
SGG 연구에서는 대부분 문헌에서 stanford filtered 정보를 함께 사용한다.

데이터 세트 다운로드 사이트

https://homes.cs.washington.edu/~ranjay/visualgenome/index.html

VisualGenome

Visual Genome is a dataset, a knowledge base, an ongoing effort to connect structured image concepts to language.

homes.cs.washington.edu