파이톨치

Hierarchical Video-Moment Retrieval and Step-Captioning 본문

논문

Hierarchical Video-Moment Retrieval and Step-Captioning

파이톨치 2025. 4. 25. 15:05
728x90

# Motivation

 

최근에는 대규모 비디오 데이터베이스에서 텍스트 기반 검색을 통해 중요한 정보를 추출하는 연구가 활발히 진행되고 있다. 기존의 연구들은 주로 비디오 검색, 순간 검색, 비디오 요약, 그리고 비디오 캡션 생성 등의 작업을 각각 독립적으로 다루었으며, 각각의 작업에 대해 별도의 모델을 개발했다. 하지만 이러한 접근 방식은 현실적인 응용에서의 통합적인 정보 검색 및 요약을 제공하는데 한계가 있다.

따라서, 본 연구에서는 HIREST라는 새로운 데이터셋을 소개하고, 비디오 검색, 순간 검색, 순간 세분화, 그리고 단계별 캡션 생성의 네 가지 작업을 통합적으로 처리할 수 있는 새로운 벤치마크를 제시한다. 이를 통해 텍스트 기반 검색을 사용하여 관련 비디오를 찾아내고, 해당 비디오에서 중요한 순간을 추출하고, 그 순간을 세부 단계로 나누고, 각 단계를 캡션으로 설명하는 시스템을 구축할 수 있게 된다 .

 

핵심 인용문:

"There is growing interest in using machine learning systems to extract and summarize important information from large video corpora based on text queries... However, previous works have generally focused on solving these tasks independently. In this work, we introduce a new hierarchical benchmark that combines all four tasks to enable novel and useful real-world applications."

# Analysis

이 문제를 증명하기 위해 본 연구에서는 기존의 모델들을 평가하고, 새로운 HIREST 데이터셋에서의 성능을 측정하였다. 연구에서는 각 작업에 대해 BMTSwinBERT 같은 기존 모델을 활용한 실험을 진행했으며, 그 결과 데이터셋에서 요구하는 다양한 작업을 잘 처리할 수 있는 모델이 부족함을 확인했다. 특히, 비디오 검색, 순간 검색, 순간 세분화, 그리고 단계별 캡션 생성의 복잡한 계층적 작업을 수행하기 위해서는 모델의 성능을 크게 향상시킬 필요가 있었다.

실험 결과, 기존 모델들은 각각의 작업에 대해 개별적으로 좋은 성과를 보였지만, 여러 작업을 동시에 처리하는 시스템에서는 큰 성능 향상이 필요함을 발견했다. 또한, HIREST 데이터셋에 특화된 성능 향상 작업이 추가로 요구되며, 이는 모델의 훈련과 튜닝을 통해 성취될 수 있었다 .

핵심 인용문:

"On all four tasks, we find that finetuning models on HIREST improves performance; however, there exists a large room to improve performance." .

 

이 분석을 통해, 계층적 비디오 정보 검색 및 요약 시스템이 향후 연구에서 큰 잠재력을 가지고 있음을 알 수 있었다.

 

# 데이터셋 통계

 

tableHIREST 데이터셋과 다른 기존 비디오 데이터셋 간의 비교를 보여줍니다. 특히, 각 데이터셋에 포함된 비디오 개수, 단계별 캡션의 수, 단계당 캡션의 평균 단어 수, 비디오의 평균 길이 등이 나와 있습니다. HIREST는 다양한 단계별 캡션을 포함하고 있으며, 기존 데이터셋들이 가지고 있는 제한된 작업 이름과는 달리 다양한 주제와 캡션을 제공한다고 강조됩니다.

 

핵심 인용문:

"Table 1. Comparison of HIREST and other video datasets with step annotations. HIREST provides unique, diverse, high-quality instruction steps with timestamps written by human annotators."

 

# 모델 구조

 

HIREST 논문에서 제안된 joint model의 구조는 여러 개의 사전 학습된 모델을 결합하여 영상 검색, 순간 검색, 순간 세분화, 그리고 단계 캡션 생성을 한 번에 처리할 수 있는 멀티모달 시스템입니다. 이 모델은 다음과 같은 주요 구성 요소로 이루어져 있습니다:

1. 멀티모달 인코더 (Multimodal Encoder)

  • EVA-CLIP: 비디오와 텍스트를 처리하는 비주얼 인코더로 사용됩니다. 이 모델은 비디오 프레임을 텍스트 쿼리와 일치시키기 위한 영상 임베딩을 생성합니다.
  • Whisper: 음성 인식 모델로, 비디오의 음성 데이터를 텍스트로 변환하여 추가적인 텍스트 임베딩을 생성합니다.
  • MiniLM: 음성 텍스트 변환을 통해 얻어진 텍스트를 또 다른 텍스트 임베딩으로 변환합니다.
  • CLIP4Caption: 비디오 프레임에 대해 캡션 생성을 처리합니다.

이 멀티모달 인코더는 비디오, 텍스트, 음성 데이터를 결합하여 공동 임베딩 공간으로 변환합니다. 이를 통해 모델은 비디오, 텍스트, 음성 정보를 모두 결합하여 각 작업을 효과적으로 수행할 수 있습니다.

2. 작업별 예측 모듈 (Task-Specific Prediction Modules)

  • 순간 검색 (Moment Retrieval): 텍스트 쿼리에 맞는 비디오의 관련 순간을 찾아냅니다. 이 모듈은 비디오 내에서 특정 순간을 정확히 찾아내기 위해 start frameend frame을 예측합니다.
  • 순간 세분화 (Moment Segmentation): 선택된 순간을 여러 단계로 나누고 각 단계를 시작/끝 타임스탬프로 구분합니다. 이 모듈은 영상 내의 중요한 작업들을 식별하고 타임스탬프를 할당하는 작업을 합니다.
  • 단계 캡션 생성 (Step Captioning): 각 단계에 대해 짧은 텍스트 캡션을 생성합니다. 이 과정에서는 Cross-attention을 사용하여, 비디오의 시각적 정보와 텍스트 정보를 결합하여 각 단계에 대한 설명을 만듭니다.

3. 멀티태스크 학습 (Multi-task Learning)

이 모델은 다중 작업 학습 방식을 사용하여, 각 작업에 대해 다른 배치를 샘플링하고 이를 round-robin 방식으로 훈련합니다. 즉, 한 작업을 학습할 때 다른 작업의 데이터를 사용하지 않고 독립적으로 각 작업을 학습합니다.

모델 구조 요약

  • EVA-CLIP: 비디오와 텍스트 임베딩 생성
  • Whisper: 음성 텍스트 변환
  • MiniLM: 텍스트 임베딩 생성
  • CLIP4Caption: 비디오에서 단계별 캡션 생성
  • Task-Specific Modules: 비디오 검색, 순간 검색, 순간 세분화, 단계 캡션 생성 각각의 작업 수행

joint model은 여러 작업을 동시에 처리할 수 있도록 설계되어, 영상 검색, 순간 검색, 단계별 캡션 생성 등 다양한 작업을 하나의 모델에서 효율적으로 수행할 수 있습니다.

728x90