일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 백준
- 재귀
- 1002
- REST API
- N-Queen
- 15649
- BOJ
- 밑바닥부터 시작하는 딥러닝
- 신경망 학습
- 경사하강법
- 오블완
- 파이싼
- 티스토리챌린지
- 백트래킹
- pyenv
- video retireval
- 파이썬
- n과 m
- Python
- 4948
- 가상환경
- 개발환경
- 9020
- 1101
- Retrieval
- 그리디 알고리즘
- end to end
- streamlit
- 손실함수
- 기계학습
- Today
- Total
파이톨치
Video Retrieval Evaluation Datasets 본문
# MSR-VTT
Motivation (동기)
컴퓨터 비전 분야에서 영상 내용을 자연어로 설명하는 작업에 대한 관심이 증가하고 있지만, 현재의 컴퓨터 비전 알고리즘은 영상의 다양성과 복잡성, 그리고 그에 대응하는 언어를 인식하는 데 여전히 많은 한계를 가지고 있습니다. 기존의 벤치마크들은 대부분 특정 도메인에 국한되거나 작은 데이터셋과 간단한 설명에 집중하고 있어, 다양한 영상 콘텐츠에 대해서는 성능이 떨어집니다.
MSR-VTT 데이터셋은 이러한 한계를 해결하기 위해 가장 크고 다양한 영상 설명 데이터셋을 제공합니다. 이 데이터셋은 10,000개의 웹 영상 클립과 200,000개의 클립-문장 쌍을 포함하고 있으며, 20개의 다양한 카테고리를 다룹니다. 특히 이 데이터셋은 영상에서 텍스트로의 번역 작업을 지원하는 대규모 영상 벤치마크로, 영상 내에서 공간적, 시간적 정보를 모두 모델링해야 하는 복잡한 작업입니다. 또한, 각 영상에는 오디오 채널도 제공되어 향후 멀티모달 연구에 유용하게 활용될 수 있습니다.
Direct quote from the paper (Motivation section):
"Existing approaches only achieve severely limited success in terms of the variability and complexity of video contents and their associated language that they can recognize [...] there are currently no large-scale video description benchmarks that match the scale and variety of existing image datasets because videos are significantly more difficult and expensive to collect, annotate and organize."
Analysis (분석)
논문은 기존의 영상-텍스트 데이터셋들을 비판적으로 분석하며 그 한계를 지적합니다. 현재 데이터셋들의 주요 한계는 도메인이 좁고, 데이터셋의 규모가 작다는 점입니다. 예를 들어, YouCook이나 MSVD와 같은 데이터셋은 특정 도메인(예: 요리 또는 YouTube 영상)에만 국한되어 있으며, 클립과 문장 주석이 적습니다. 이 논문은 현재의 영상 설명 모델들이 복잡한 영상 콘텐츠에 대해 어려움을 겪는 이유를 데이터셋의 부족에서 찾고 있으며, MSR-VTT와 같은 더 크고 다양한 데이터셋이 더 일반화된 모델을 개발하는 데 도움이 될 수 있음을 보여줍니다.
Direct quote from the paper (Analysis section):
"A major limitation for existing datasets is limited domain and annotated sentences [...] Although MPII-MD and M-VAD contain a number of clips, both of them are originated from one single domain (i.e., movie). The MSR-VTT is derived from a wide variety of video categories (7,180 videos from 20 general domains/categories), this can benefit the generalization capability of model learning."
# DiDeMo
주요 문제: 자연어를 통해 순간을 로컬라이징하는 알고리즘을 설계하는 데 있어, 관련 표현과 로컬라이즈된 비디오 순간을 포함하는 대규모 데이터셋이 부족하다는 문제가 존재합니다. 이를 해결하기 위해 DiDeMo 데이터셋을 소개합니다. DiDeMo는 10,000개 이상의 25-30초 길이의 개인 비디오 (약 26000 개의 클립)와 40,000개 이상의 로컬라이즈된 텍스트 설명을 포함합니다.
"A major challenge when designing algorithms to localize moments with natural language is that there is a dearth of large-scale datasets which consist of referring expressions and localized video moments."
비디오 인터페이스: 비디오에서 텍스트 설명을 로컬라이즈하는 작업은 애매할 수 있으며, 이를 해결하기 위해 비디오를 5초 단위로 나누고 각 단위를 gif 형태로 제공하여 빠르게 순간을 선택할 수 있도록 도와주는 인터페이스를 개발했습니다.
"We develop a user interface in which videos are presented as a timeline of temporal segments."
데이터셋 비교: DiDeMo는 다른 비디오-언어 데이터셋과 비교하여, 설명이 하나의 순간을 지칭하는지 검증하는 단계가 있어 정확한 참조 표현을 보장합니다.
"In contrast, our verification step ensuring that descriptions in DiDeMo are referring expressions, meaning that they refer to a specific moment in a video."
결론: DiDeMo는 개인 비디오의 중요한 순간들을 정확하게 로컬라이즈하고, 이러한 순간들을 설명할 수 있는 고유한 방법론을 제공하는 데이터셋입니다.
# MSVD
Traditional methods of collecting translation and paraphrase data can be prohibitively expensive, making construction of large, new corpora difficult. While crowdsourcing offers a cheap alternative, quality control and scalability can become problematic. In this project we introduce a novel annotation task that uses short video clips (usually less than 10 seconds) as the stimulus to elicit parallel linguistic responses from the annotators. Descriptions of the same video in the same language can then be used as paraphrases of each other while descriptions in different languages can be used as translations of each other. Over a two month period from July to September in 2010, we collected 85K English descriptions for 2,089 video clips as well as over a thousand descriptions for each of a dozen more languages. In addition to providing training and testing data for paraphrase and translation engines, this data also provides natural language descriptions for a significant amount of video data. The video clips generally depict a single, unambiguous action or event.
# YouCook2
Our new dataset, called YouCook21 , contains 2000 videos from 89 recipes with a total length of 176 hours. The procedure steps for each video are annotated with temporal boundaries and described post-hoc by a viewer/annotator with imperative English sentences. 14000개의 클립 보유함. 평균 클립 길이는 19.7초임.
# ActivityNet Cap
Most natural videos contain numerous events. For example, in a video of a “man playing a piano”, the video might also contain “another man dancing” or “a crowd clapping”. We introduce the task of dense-captioning events, which involves both detecting and describing events in a video. We propose a new model that is able to identify all events in a single pass of the video while simultaneously describing the detected events with natural language. Our model introduces a variant of an existing proposal module that is designed to capture both short as well as long events that span minutes. To capture the dependencies between the events in a video, our model introduces a new captioning module that uses contextual information from past and future events to jointly describe all events. We also introduce ActivityNet Captions, a large-scale benchmark for dense-captioning events. ActivityNet Captions contains 20k videos amounting to 849 video hours with 100k total descriptions, each with it’s unique start and end time. Finally, we report performances of our model for dense-captioning events, video retrieval and localization.
ActivityNet Captions 데이터셋: 이 모델을 평가하고 진행 상황을 벤치마킹하기 위해, ActivityNet Captions 데이터셋을 소개합니다. 이 데이터셋은 20,000개의 비디오로 구성되며, 각 비디오에는 시간적으로 로컬라이즈된 설명이 포함됩니다. 비디오 길이는 최대 10분까지 있으며, 각 비디오는 평균 3.65개의 문장으로 설명됩니다. 이러한 데이터셋은 동시에 발생하는 여러 이벤트를 포함할 수 있습니다.
On average, each sentence describes 36 seconds.
# VATEX
3.1. Data Collection 요약
비디오 수집: VATEX 데이터셋은 Kinetics-600 데이터셋의 일부를 재사용하여 인간 활동을 광범위하게 포괄합니다. Kinetics-600은 600개의 인간 행동 클래스와 약 50만 개의 비디오 클립을 포함하며, YouTube에서 비디오를 검색하고 Amazon Mechanical Turk (AMT)로 필터링하여 수집됩니다. 각 비디오는 약 10초 길이이고, 유일한 YouTube 비디오에서 추출됩니다.
"Kinetics-600 contains 600 human action classes and around half a million video clips."
비디오 설명 수집:
- 영어 설명: 각 비디오에 대해 10개의 영어 캡션을 수집하며, AMT를 사용하여 영상에서 중요한 사람과 행동을 설명합니다. 각 캡션은 최소 10단어 이상이어야 하며, 고품질의 캡션을 보장하기 위해 여러 검증 절차를 거칩니다.
- 중국어 설명: 각 비디오에 대해 10개의 중국어 설명을 수집하며, 5개는 비디오 내용에 대한 직접적인 설명이고, 나머지 5개는 영어 캡션의 번역입니다. 번역은 여러 기계 번역 시스템을 사용하여 진행되고, 후속 작업으로 번역 품질을 개선하는 포스트 편집 전략을 적용합니다.
"We collect 10 English captions for every video clip in VATEX... We collect 10 Chinese descriptions for each video."
3.2. Dataset Analysis 요약
데이터셋 비교: VATEX 데이터셋은 MSR-VTT 데이터셋과 비교하여 더 큰 규모와 더 긴 캡션을 제공합니다. VATEX는 41,300개의 비디오와 826,000개의 캡션을 포함하고, MSR-VTT는 7,000개의 비디오와 200,000개의 캡션을 포함합니다. 또한, VATEX는 더 다양한 스타일과 더 긴 캡션을 제공합니다. VATEX의 평균 캡션 길이는 영어가 15.23, 중국어가 13.95, MSR-VTT는 9.28입니다.
"VATEX contains 413k English and 413k Chinese captions depicting 41.3k unique videos from 600 activities, while MSR-VTT has 200k captions describing 7k videos from 257 activities."
어휘의 다양성 및 캡션 스타일: VATEX 데이터셋은 MSR-VTT와 비교하여 어휘 다양성과 문법적 복잡성이 우수합니다. 또한, VATEX는 캡션의 중복 문제가 없으며, 각 비디오마다 고유한 설명을 보장합니다.
"VATEX datasets are free of this problem and guarantee that the captions within the same video are unique."
캡션 다채로움 분석: VATEX 데이터셋은 어휘 스타일과 어휘 크기 면에서 더 복잡하고 다채로우며, Type-Caption Curve를 통해 이를 직관적으로 측정합니다. 이를 통해 VATEX가 고품질 비디오 검색의 벤치마크로 활용될 수 있음을 보여줍니다.
"Our VATEX datasets are shown to be more linguistically complex and diverse."
# LSMDC
Audio Description (AD)은 시각 장애인들이 영화 내용을 친구들과 함께 따라갈 수 있도록 영화에 대한 언어적 설명을 제공합니다. AD는 본래 시각적 특성에 중점을 두기 때문에 컴퓨터 비전과 계산 언어학 분야에서 중요한 데이터 소스로 활용됩니다. 본 연구에서는 AD의 전사본을 포함한 새로운 데이터셋을 제안하며, 이 데이터는 전체 영화와 시간적으로 정렬된 형식을 제공합니다. 또한, 이전 연구에서 사용된 영화 대본과도 비교하여 두 설명 소스를 분석합니다. Large Scale Movie Description Challenge (LSMDC) 데이터셋은 202개의 영화에서 118,114개의 문장과 비디오 클립을 포함하는 병렬 코퍼스를 제공합니다.
이 데이터셋을 특성화하기 위해, 다양한 비디오 설명 생성 방법을 벤치마킹한 결과, AD는 대본보다 더 시각적이고 정확하게 보이는 장면을 설명한다는 것을 발견했습니다. 대본은 영화 제작 전에 작성된 예정된 사건을 설명하는 반면, AD는 실제로 화면에 나타나는 내용을 설명합니다. 또한, ICCV 2015 워크숍에서 진행된 LSMDC 챌린지에 참여한 여러 팀의 결과를 제시하고 비교합니다.
3.3 The Large Scale Movie Description Challenge (LSMDC) 요약
LSMDC는 M-VAD와 MPII-MD 데이터셋을 결합하여 구성되었습니다. 두 데이터셋 간의 중복을 확인하여 동일한 영화가 훈련과 테스트 세트에 중복되지 않도록 했고, MPII-MD의 스크립트 기반 영화 정렬을 검증 및 테스트 세트에서 제외했습니다. 결합된 테스트 세트는 챌린지의 공개 테스트 세트로 사용되며, 20개의 추가 영화가 블라인드 테스트 세트로 제공됩니다. 이 추가 영화는 비디오 클립만 공개되고, 해당 문장은 제공되지 않습니다. 테스트 세트와 블라인드 테스트 세트는 Blu-ray 품질로 제공됩니다.
"We combined the M-VAD and MPII-MD datasets... The combined test set is used as a public test set of the challenge."
데이터셋 통계: LSMDC는 총 118,000개 이상의 문장-클립 쌍과 158시간의 비디오를 포함합니다. 훈련, 검증, 공개 테스트, 블라인드 테스트 세트는 각각 91,908, 6,542, 10,053, 9,578개의 비디오 클립으로 구성됩니다. 이 세트들은 영화 장르를 균등하게 분배하여 각 세트의 어휘 차이를 반영하도록 설계되었습니다.
"In total LSMDC dataset contains over 118K sentence-clips pairs and 158 hours of video."
어휘 통계: 어휘 크기, 명사, 동사, 형용사, 부사의 개수를 포함한 통계가 제공됩니다. 어휘 통계는 Stanford POS 태거와 스테머를 사용하여 계산되며, 형용사의 수가 동사의 수보다 많다는 점이 흥미로운 발견으로 제시됩니다. 이는 **AD(Audio Description)**가 영화에서 시각적 요소의 특성을 자세히 묘사하는 경향이 있음을 보여줍니다.
"The number of adjectives is larger than the number of verbs, which shows that the AD is describing the characteristics of visual elements in the movie in high detail."
3.4 Movie Description Dataset Statistics 요약
LSMDC 데이터셋 통계:
- MPII-MD: 68,337개의 클립과 68,375개의 문장
- M-VAD: 46,589개의 클립과 55,904개의 문장
- LSMDC: 118,114개의 문장-클립 쌍과 158시간의 비디오
훈련, 검증, 공개 테스트, 블라인드 테스트 세트의 비디오 클립 수는 각각 91,908, 6,542, 10,053, 9,578입니다.
3.5 Comparison to Other Video Description Datasets 요약
LSMDC 데이터셋은 MSR-VTT와 TGIF와 같은 다른 비디오 설명 데이터셋과 비교됩니다. 기존 데이터셋들의 주요 한계는 단일 도메인에 대한 한정성과 비디오 클립 수의 제한이었습니다. MSR-VTT는 YouTube 클립을 기반으로 하지만, 비디오 클립 수(10K)가 상대적으로 적습니다. TGIF는 GIF 시퀀스와 관련된 설명을 포함하는 대형 데이터셋입니다. 반면, LSMDC는 영화를 중심으로 한 데이터셋으로, 영화에 특화된 더 풍부한 설명을 제공합니다.
"Our proposed datasets focus on movies, while MSR-VTT and TGIF represent web-videos."
# MULTIVENT