열정/연구 일지

Flickr8k, Conceptual Captions 3M, Visual Genome 데이터 세트

lime9 2024. 2. 29. 14:20

세상엔 여러 데이터 세트가 있고, 활용 방안도 가지각색이다. Flickr8k, Conceptual Captions 3M (CC3M), Visual Genome (VG)에 대해서 정리해보자.

 

 

Flickr8k

  • 이미지에 대한 캡션이 있는 데이터 세트이다.
  • 총 8,091장의 이미지로 구성되어 있다.
  • 각 이미지 당 5개의 캡션이 있다.
  • 캡션은 이미지에 대한 설명을 제공한다.
  • 크기는 2.07 GB로 비교적 작은 크기의 데이터 세트이다.
  • 캡션은 human annotation으로 모두 사실만이 적혀있다.

데이터 세트 다운로드 사이트

https://www.kaggle.com/datasets/adityajn105/flickr8k

 

Flickr 8k Dataset

Flickr8k Dataset for image captioning.

www.kaggle.com

 

캡션 파일은 아래와 같이 생겼다.

captions.txt

 

 

Conceptual Captions 3M

  • Google에서 제작한 데이터 세트로, 이미지에 대한 캡션을 제공하는 데이터 세트이다.
  • 이미지 링크와 캡션의 쌍으로 구성되어 있다.
  • 공식 홈페이지에서 기술한 Training split은 3,318,333장이고, validation split은 15,840장이다.
  • 실제 다운로드 후, 저장된 이미지의 개수는 Training split 2,392,357장, validation split 11,737장이다.
  • Test split은 12,559장 있으며 공개하지 않는다 (Competition 용도).
  • 크기는 343 GB로 큰 데이터 세트이다.
  • 다운로드에 하루에서 이틀 정도 소요된다.
  • 약 2백만 장의 training sample에 대해서는 Google Cloud Vision API를 사용하여 생성된 machine-generated image label을 제공한다.
  • Image label은 description (라벨 설명), MID (machine-generated identifier), 신뢰도 점수로 이루어져 있다.
  • 웹 크롤링을 통해 이미지를 다운로드 받는다.
  • 약 8%의 이미지는 HTTP 에러로 다운로드에 실패한다고 한다 (다운로드 후 확인한 결과 약 27% 정도 실패한다).

CC3M의 image label 예시

 

이렇게 image label은 MID, label에 대한 설명, 모델 예측의 신뢰도 점수로 구성되어 있다.

라벨이 있을 경우와 없을 경우의 형태는 다음과 같다.

 

Image label이 없을 경우

열 (Column) 설명 (Description)
1 캡션. 토큰화되고 소문자로 변환되었다.
2 이미지 URL

 

Image label 없을 때의 예시

 

 

Image label이 있는 경우

열 (Column) 설명 (Description)
1 캡션. 토큰화되고 소문자로 변환되었다.
2 이미지 URL
3 이미지 라벨들. 신뢰도 점수의 내림차순으로 정렬된 Comma 분리된 리스트.
4 MIDs.  이미지 라벨 리스트에 대응하는 Comma 분리된 리스트.
5 신뢰도 점수들. 이미지 라벨 리스트에 대응하는 Comma 분리된 리스트.

 

Image label 있을 때의 예시

 

크롤링 정보와 캡션 데이터

https://ai.google.com/research/ConceptualCaptions/download

 

https://ai.google.com/research/ConceptualCaptions/download

 

ai.google.com

 

크롤링을 위한 코드 사이트

https://github.com/igorbrigadir/DownloadConceptualCaptions

 

GitHub - igorbrigadir/DownloadConceptualCaptions: Reliably download millions of images efficiently

Reliably download millions of images efficiently. Contribute to igorbrigadir/DownloadConceptualCaptions development by creating an account on GitHub.

github.com

 

CC3M에 관한 정보를 읽을 수 있는 공식 GitHub

https://github.com/google-research-datasets/conceptual-captions

 

GitHub - google-research-datasets/conceptual-captions: Conceptual Captions is a dataset containing (image-URL, caption) pairs de

Conceptual Captions is a dataset containing (image-URL, caption) pairs designed for the training and evaluation of machine learned image captioning systems. - GitHub - google-research-datasets/con...

github.com

 

CC3M 세부 속성

 

 

Visual Genome

  • 이미지와 그에 대한 세부 정보(영역 설명, VQA, 특성, scene graph 등)를 제공하는 데이터 세트
  • 108,251장의 이미지와 그에 대응하는 세부 정보로 구성되어 있다 (공식 사이트에는 108,077장이라고 설명되어 있다).
  • 크기는 28.4 GB로 로컬에서 다루기도 적당한 크기의 데이터 세트이다.
  • 데이터 세트는 WordNet synsets로 매핑되어 있다.
  • SGG 연구에서는 대부분 문헌에서 stanford filtered 정보를 함께 사용한다.

데이터 세트 다운로드 사이트

https://homes.cs.washington.edu/~ranjay/visualgenome/index.html

 

VisualGenome

Visual Genome is a dataset, a knowledge base, an ongoing effort to connect structured image concepts to language.

homes.cs.washington.edu

 

다운로드 후, 확인해본 데이터 세트 속성

 

VG의 이미지와 그에 대응하는 세부 정보를 출력해본 결과