NL-163, PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling, ACL 2021

◼ Comment

  • 이 논문은, 평상시에 관심있었던 멀티모달 대화 데이터세트 구축 논문이다.
  • 이러한 데이터는 이전에 없었던 것으로 알고있고 이 논문에서도 처음으로 구축했다고 한다.
  • 쉽게 말해서 진짜 대화처럼 사진까지 포함하여 대화를 하는 것이다.
  • 이 논문은 2가지 테스크를 소개한다.
    • 1) 이미지를 공유할 타이밍 판단
    • 2) 공유할 이미지 검색
  • 1) 테스크인, 이미지를 공유할 타이밍이란게 아예 없진 않겠으나 이게 잘 작동할지 의문이다.
    • 왜냐하면 실제 사람은 이미지를 내킬때 보내는 느낌아닌가?
    • 이미지를 안보내도 될 타이밍이야 있긴 할 거 같다.
    • 즉 recall은 높을 수 있을것 같은데 precision은 낮을 수 있다는 생각이다.
    • 방법은 간단히 BERT or T5 등을 fine-tuning하는 것
  • 2) 공유할 이미지는 이미지 풀에서 찾는 것이다.
    • 방법은 dialogue vs image을 비교해서 찾는다.
    • 대화 텍스트 입력은, 근데 화자의 이전발화들이 concat되서 들어가는 것 같다.
    • 이미지쪽 입력은 image pixel, image label 두 개가 있다
    • image pixel은 말그대로 사진을 의미하고, image label은 사진속 object list가 text로 들어가는 것이다.
  • loss는 CE, hinge을 이용하고 negative sample도 배치내 샘플 or hard negative 샘플 등의 방식을 시도한다.
  • 사실 모델링은 베이스라인이 간단히만 알아두면 될거 같고, 이러한 데이터가 있다는 것을 기억해두자!

0 Abstract

  • 우리는 새로운 human-human 대화 데이터세트를 제안한다.
    • PhotoChat은 온라인 메시징에서 사진 공유 behavior을 조명하는 최초의 데이터세트입니다.
  • PhotoChat은 12k 대화들을 포함하고, 이것의 각각은 대화중에 공유된 user photo와 쌍을 이루고 있다.
  • 이 데이터세트를 기반으로, 우리는 image-text 모델링 연구에 용이한 2가지 테스크들을 제안한다.
    • a photo-sharing intent prediction task that predicts whether one intends to share a photo in the next conversation turn, and 
      • 다음 대화 턴에서 photo을 공유할지 말지를 예측하는 것
    • a photo retrieval task that retrieves the most relevant photo according to the dialogue context. 
      • 대화 컨텍스트에 따른 관련있는 photo을 검색하는 것
  • 게다가, 두 가지 테스크들에서 우리는 SoTA 모델을 사용한 baseline model을 제공하고 그들의 벤치마크 성능을 리포트한다.
  • 가장 좋은 image retrieval 모델은 10.4%의 recall@1 (1000개의 candidates중)을 달성하고 best photo intent prediction model은 58.1% F1 score을 달성하고, 이는 데이터 세트가 흥미롭지만 도전적인 real-world problems를 제시함을 나타냅니다.
  • We are releasing PhotoChat to facilitate future research work among the community.

1 Introduction

  • 인스턴트 메시징 도구가 최근 수십 년 동안 엄청난 인기를 얻으면서 온라인 메시징 대화의 참여를 강화하기 위한 접근 방식으로 사진을 공유하는 것이 일상적인 의사 소통 행위가 되었습니다(Lobinger, 2016).
  • 2010년에 실시된 조사에 따르면 미국 십대의 74%가 휴대전화를 사용하여 사진이나 비디오를 메시지로 보낸다고 보고했습니다(Lenhart et al., 2010). 
  • 영국에서는 2013년에 인터넷 사용자의 거의 70%가 사진을 공유했습니다(Dutton and Blank, 2013).
  • 사진 공유의 확산을 고려할 때 사용자가 이 프로세스에 효율적으로 참여하도록 지원할 수 있는 지능적인 시스템, 즉 가장 관련성이 높은 사진을 정확한 타이밍에 제안하는 것이 바람직합니다.
  • 이 목표를 달성하기 위해 지능형 시스템은 인간이 서로 의사 소통하는 방식, 인간이 말하는 자연어를 이해할 뿐만 아니라 이미지를 인간이 인식하는 것처럼 인식해야 합니다.
  • 이러한 다중 모드 시스템 구축을 용이하게 하는 방법이 이 문서의 목표입니다.
  • 최근에는 언어와 시각을 연결하기 위해 많은 이미지-텍스트 작업이 제안되고 활발히 연구되고 있지만, 대부분은 주어진 이미지에 대한 이해를 바탕으로 텍스트를 선택하거나 구성하는 것으로 공식화되고,
    • e.g. image captioning (Anderson et al., 2018), 
    • visual question answering (Antol et al., 2015), 
    • visual commonsense reasoning (Zellers et al., 2019), and 
    • image-grounded dialogue generation (Shuster et al., 2020). 
  • 이러한 작업과 달리 photo sharing task은 reverse process에 초점을 맞추고, 즉, 텍스트에 대한 이해를 바탕으로 이미지를 선택하고 다양하고 독특한 도전을 제안합니다.
  • 첫째, 위의 인기 있는 다중 모드 작업과 달리 사진 공유 작업에서 대화는 이미지에서 볼 수 있는 주요 내용을 명시적으로 언급하지 않는 경우가 많습니다.
    • 사진의 주요 대상 대신 때로는 인간의 상상력으로 보완되는 배경 이야기가 채팅의 초점이 될 수 있습니다.
    • 그림 1은 사진을 공유하는 사람이 이미지의 주 대상인 “레이디” 대신 이벤트 장소 “법원(court)”과 직업 “변호사(attorney)”를 설명하는 그러한 예를 보여줍니다.
    • 즉 사진의 명시적인 설명 혹은 객체 등이 대화의 초점이 아닐 수도 있다는 것인듯. 배경 이야기가 초점이 될 수도 있다?
  • 둘째, 대화가 이미지와 관련이 있다고 보장되지 않습니다.
    • 예를 들어, 그림 1의 처음 두 차례에서 볼 수 있듯이 종종 다른 주제의 인사말과 잡담이 포함됩니다.
    • 관련 사진을 제안하기 위해 스마트 시스템은 대화의 어느 부분을 이미지 제안에 사용할 수 있는지 결정해야 합니다.
    • 대조적으로, 전통적인 이미지-텍스트 작업에서는 올바른 텍스트가 이미지와 높은 상관관계를 갖도록 설계되었으며 산만하게 하는 내용이 거의 없습니다.
    • 이러한 사진 공유 특성으로 인해 이미지와 텍스트 발화 간의 연결을 추론하기가 어렵습니다.
    • 이러한 과제를 강조하기 위해 우리는 대화 중에 한 사람이 다른 사람에게 사진을 공유하는 인간-인간 대화 데이터세트인 PhotoChat을 만듭니다.
  • 우리가 아는 한, 사진 공유 활동을 캡처하는 첫 번째 데이터 세트입니다.
  • OpenImage V4 데이터 세트(Kuznetsova et al., 2020)에서 이미지를 공유 사진으로 선택하고 크라우드소싱 플러그인을 사용하여 대화당 평균 10턴으로 12,286개의 대화를 생성했습니다.
  • 대화 수집 중에는 사진을 공유하라는 지시를 받은 쪽에만 사진이 표시되고 공유된 후에는 양쪽 모두에게 사진이 표시됩니다.
  • 수집된 데이터 세트를 기반으로 사진 제안 시스템 구축에 필수적인 두 가지 작업을 제안합니다.
    • photo-sharing intent prediction task that predicts whether one intends to share the photo in the next conversation turn, and 
    • dialogue-based image retrieval task that retrieves the most relevant photo given the dialogue context
  • 둘 다 기본 모델을 구축하고 성능을 보고 및 분석합니다.
  • 최고의 photo-sharing intent prediction baseline은 58.2%의 정확도와 57.9%의 재현율로 58.1%의 F1 점수를 달성합니다.
  • 최고의 cross-attention image retrieval model은 1000명의 후보 중 10.4%의 recall@1을 달성합니다.
  • 또한 객체 레이블을 활용하여 이미지 기능을 인코딩하는 dual-encoder model을 제안합니다. 
    • 이는 w/o cross-attention mechanisms인 모든 모델 중에서 최고의 성능을 달성합니다.
  • In summary, our main contributions are:
    • We create the first human-human dialogue with photo-sharing acts via crowd-sourcing. 
    • We propose two new tasks to promote building an intelligent photo suggest system. 
    • We build baseline models and provide benchmarks for the new tasks. 우리가 제안한 이미지 검색 모델은 교차 주의 메커니즘이 없는 모든 이전 모델보다 성능이 뛰어납니다. 더 많은 통찰력을 제공하기 위해 포괄적인 분석 및 절제 연구를 구현합니다.

2 Related Work

  • 최근 딥 러닝의 발전으로 많은 이미지-텍스트 데이터 세트가 생성되었으며 이를 기반으로 새로운 이미지-텍스트 작업이 제안됩니다. 
  • 이러한 데이터 세트는 공동 이미지-텍스트 모델의 개발을 크게 자극했습니다. 
  • 이 섹션에서는 널리 사용되는 이미지 텍스트 데이터 세트와 이미지 텍스트 문제를 해결하기 위한 최첨단(SOTA) 접근 방식을 검토합니다.

2.1 Image-text Dataset

  • Image-captioning 데이터셋은 처음으로 image-text 공동 모델링에 널리 사용됩니다.
    • 각 이미지에 대해 5개의 캡션 설명이 포함된 MSCOCO 및 Flickr30k는 자동 캡션 생성 및 교차 모드 검색 작업에 사용되는 대표적인 것입니다.
    • 개념적 캡션은 또 다른 인기 있는 이미지 캡션 데이터세트이지만 MSCOCO보다 훨씬 더 많은 이미지를 포함합니다.
    • 이미지 캡션은 일반적으로 이미지의 주요 개체만 설명하고 세부 정보를 생략하기 때문에 Antol은 이미지의 세부 사항과 그에 대한 추론을 쉽게 이해할 수 있도록 각 이미지에 대해 3개의 질문 답변 쌍을 포함하는 VQA를 도입했습니다.
    • 추가 작업은 모델이 이미지에서 파생된 질문에 대답할 것을 요구할 뿐만 아니라 그 대답이 옳은 이유를 설명하는 근거를 제공하는 VCR입니다.
    • 모델이 세상에 대한 고차원적 인지와 상식적인 추론을 배우도록 가르치기 위해 만들어졌습니다.
  • 위의 작업에 비해 이미지에 기반을 둔 대화에 중점을 둔 Image-Chat과 IGA는 우리와 가장 관련이 있는 작업입니다.
    • IGA에는 4k 대화가 포함되어 있으며 각 대화에는 이미지에 대한 텍스트 설명과 함께 이미지에 대한 질문 및 응답이 포함되어 있습니다.
    • IGA는 규모가 작기 때문에 평가용으로만 사용할 수 있습니다. 
    • Image-Chat은 202k 이미지 기반 대화로 구성된 대규모 데이터 세트입니다. 

    • 그러나 둘 다 크라우드 작업자에게 공유 이미지에 대해 이야기하여 매력적인 대화를 생성하도록 요청하여 생성되었으며, 이는 대화 시작 시 한쪽에서만 사진에 액세스할 수 있는 사진 공유 시나리오와 다릅니다.
    • 따라서 어느 쪽도 사진 제안 시스템을 구축하는 데 사용할 수 없습니다. 
    • 우리 작업에서 우리는 사진 제안 시스템 구축의 어려움을 강조하고 우리가 아는 한 최초의 새로운 데이터 세트를 구축합니다.

2.2 Image-text Modeling

  • photo-suggest system의 과제는 텍스트 발화를 기반으로 가장 관련성이 높은 이미지를 검색하는 것이므로 교차 모드 검색에 대한 관련 작업만 검토합니다.
  • 주어진 이미지에서 가장 관련성이 높은 캡션을 검색하거나 그 반대의 경우도 마찬가지인 이미지 캡션 검색을 위해 많은 모델이 제안되었습니다.
  • 일반적인 아키텍처는 먼저 시각적 및 텍스트 임베딩을 생성하기 위해 이미지와 텍스트를 위한 두 개의 개별 인코더로 구성됩니다.
  • 그 위에 단순히 내적일 수 있는 융합 레이어를 사용하여 각 쌍에 대한 관련성 점수를 생성합니다.
  • 그런 다음 triplet ranking loss or cross-entropy loss을 사용하여 latent visual-semantic alignment을 학습합니다.
  • VSE++는 hinge loss의 최대값을 목표로 사용하여 가장 어려운 네거티브를 강조하고 상당한 성능 향상을 가져왔습니다.
  • Stacked Cross Attention Network(SCAN)는 이미지 영역과 단어 기능 사이에 교차 주의를 도입하여 성능을 더욱 향상시킵니다.
  • 최근 자기 지도 학습을 통해 대규모 이미지 텍스트 데이터 세트에 대해 사전 훈련된 교차 모드 변환기 기반 아키텍처는 시각적 및 텍스트 임베딩을 연결하는 데 큰 이점을 보여주었습니다.
  • 여러 동시 작업으로 이미지 텍스트 검색 작업에 대한 벤치마크 데이터 세트의 최고 기록이 새로 고쳐졌습니다.

3 Dataset Creation

  • We select photos from Open Image Dataset V4 (OID) (Kuznetsova et al., 2020) and collect open-ended conversations on Amazon Mechanical Turk. 
  • 아래에서는 데이터 품질을 보장하기 위한 자세한 이미지 필터링, 대화 생성 및 데이터 검증 단계에 대해 설명합니다.

3.1 Image-based Filtering

  • OID는 규모가 크고 포괄적이기 때문에 리모컨이나 소화전 관련 이미지만 있는 등 일상 대화에서 공유하기 힘든 이미지를 담고 있다.
  • 현실에 가까운 데이터 세트를 생성하기 위해 OID와 함께 제공되는 주석이 달린 객체 레이블을 기반으로 이미지를 필터링합니다.
  • 이미지 기반 대화 및 일상 경험에 대한 조사를 바탕으로 일반적으로 4가지 주제에 대한 사진이 공유됩니다.
    • 사람, 음식, 동물 및 제품(쇼핑 시나리오에서)은 데이터 세트 생성에 중점을 둡니다.
  • OID에 표시되는 모든 600개의 개체 레이블 중에서 먼저 네 가지 테마 중 하나에 속하고 일반적으로 공유되는 사진에 나타날 가능성이 높은 레이블을 등록합니다.
    • "신호등", "네일", "파충류"와 같은 레이블은 제외되고 "소녀", "베이글", "카메라"와 같은 레이블이 포함됩니다.
  • This process selects 89 object labels (Appendix). 
  • 그런 다음 목록에 있는 객체를 포함하는 이미지 풀을 선택하여 이미지 풀을 생성합니다.
  • 사람 카테고리의 개체에 대해 기본 개체여야 하는 또 다른 기준을 추가합니다. 
  • 즉, 배경으로 사람만 있는 이미지를 제외하기 위해 이미지의 여백에 위치하거나 매우 작은 3이 아닌 다른 기준을 추가합니다.
  • 이미지는 이미지 풀에서 무작위로 선택되어 다음 단계에서 대화를 생성합니다.

3.2 Conversation Generation

  • 주어진 이미지를 기반으로 대화를 생성하기 위해 무작위로 2명의 크라우드 워커를 할당했습니다. 
  • 이미지에는 이미지의 개체 레이블 목록을 나타내는 이미지 설명이 함께 제공됩니다. 
  • 이미지에 인간이 포함된 경우 작업자가 참조하고 스토리를 전개할 수 있도록 인간 중 한 명에게 임의의 이름과 관계를 할당합니다. 
  • 그들은 친구와 이야기하는 것을 상상하도록 지시받습니다. 
  • 작업을 시작할 때 한 쪽만 이미지에 액세스할 수 있으며 이미지를 다른 쪽과 공유하기에 적합할 때까지 대화를 진행하라는 지시를 받습니다(웹사이트 인터페이스는 부록에 표시됨). 
  • 교대로 메시지를 보내야 하는 것은 제한이 없으나 사진을 가지고 있는 작업자는 총 대화 회전수가 5회에 도달할 때까지 사진을 공유할 수 없습니다. 
  • 사진을 공유한 후 대화를 종료하고 대화를 제출할 때까지 계속 채팅할 수 있습니다.

3.3 Image&text-based Verification

  • 마지막으로 다른 사내 전문 크라우드 워커 세트를 사용하여 위 단계에서 생성된 잘못된 대화를 걸러냅니다. 
  • 사진 공유 배우의 콘텐츠가 부자연스럽거나 부적절한 단어, 너무 많은 오타 또는 깨진 영어가 포함되기 전에 이미지와 대화 간의 연관성이 분명하지 않은 경우 대화는 삭제됩니다. 
  • 그림 2는 규정된 데이터와 규정되지 않은 데이터의 예를 보여줍니다. 
  • 세 번째 부적격 대화는 실제 대화에서 발생할 수 있지만 사진이 공유될 때까지 이미지의 내용/이벤트는 언급되지 않습니다.
    • 이는 모델이 대화와 이미지의 연관성을 학습하고 사전에 사진을 제안하는 것을 불가능하게 만듭니다.
  • 이러한 대화는 이 단계에서 데이터세트에서 제거됩니다.

4 Dataset Statistics

  • 수집된 데이터 세트는 10,917개의 고유한 이미지와 12,286개의 대화로 구성됩니다.
  • 각 대화에는 하나의 이미지가 공유됩니다.
  • 공유된 이미지의 오브젝트 라벨을 기반으로 대화를 사람, 음식, 동물, 생활용품의 4가지 범주로 분류합니다.
  • 우리는 대화를 10,086개의 train, 1,000개의 development 및 1,000개의 test 세트로 분할하면서 분할 전체에서 카테고리의 대략 동일한 분포를 유지했습니다.
  • 각 분할 및 전체에 대한 자세한 통계는 표 1에 나와 있습니다.
  • 대화 상자에는 여러 범주 레이블이 있을 수 있습니다.
  • 예를 들어, 공유된 이미지가 개와 노는 소녀에 관한 것이라면 대화는 사람과 동물 범주에 모두 속합니다.
  • 따라서, 각 카테고리(사람/동물/음식/제품 다이얼 번호)의 대화의 합계는 테이블의 전체 대화 수(다이얼 번호)를 초과합니다.
  • 또한 훈련 세트의 일부 이미지는 여러 대화에서 사용됩니다.
  • 표의 통계에 따르면 대화당 평균 턴 수는 12.7이고 턴당 평균 토큰 수는 6.3입니다.
  • 양측이 교대로 말하는 것에 제한을 두지 않기 때문에, 다른 대화 데이터셋의 기존 설정인 같은 쪽의 연속적인 턴을 1턴으로 합치면, 대화당 평균 턴 수와 턴당 평균 토큰 수는 9.5 및 8.5가 됩니다.
  • 평균적으로 사람들은 사진을 공유하기 전에 7턴 동안 대화합니다.

5 Task Definition

  • 우리는 smart photo-suggest system을 설계하는 문제를 두 가지 개별 테스크로 분리한다.
  • 첫 번째는 user가 다음 턴에 photo을 공유할 intent을 가지고 있는지를 검출하는 것이고, 이는 우리가 photo-sharing intent prediction task로 부른다.
  • 두 번째는 대화 컨텍스트를 기반으로 photo을 검색하는 것이고, 이는 우리가 image-retrieval task로 부른다.
  • 아래는 문제 설정의 공식 공식을 설명합니다.
  • P = {p1, p2, ..., pM}은 photo set으로 각 pi = (ai , li), i ∈ [1, M]이고 image ai와 그의 objects 리스트 li로 구성된다.
  • 대화 D = {t1, ..., th, pk, th+1, ..., tN }가 주어지고, 두 명의 화자가 번갈아 말한다.
    • tj (j ∈ [1, N]) and pk ∈ P은 각각 turn j의 발화와 shared image을 나타낸다.
  • th는 photo sharing act 직전의 turn이다.
  • 우리는 speaker information S = {s1, s2, ..., sN } where sj (j ∈ [1, N])을 0 또는 1로 정의하고, turn j의 speaker을 가리킨다.
  • Photo-sharing intent prediction: 
    • intent prediction task의 골은 photo가 이전에 주어진 모든 turns에 대해 다음 턴에서 공유될지를 예측하는 것이다.
    • In equation, it’s formulated as a binary classification task:
    • 여기서 C는 intent prediction model로 이전의 모든 턴들의 발화와 speaker information을 입력으로써 취하고 binary value을 출력한다.
    • 즉 이전 발화와 화자 정보를 입력으로 가진다는 것
    • 위 케이스에서는, 오직 j=h일때에만 1로 예측하고 나머지에 대해서는 0이다.
    • 모델이 이전의 모든 turns과 스피커 정보를 사용하는지 여부는 모델 디자인에 따라 다릅니다.
    • We use F1 score, precision, and recall as the evaluation metrics for this task.
  • Image retrieval: 
    • 같은  세팅에서, image retrieval task의 model R은 대화가 주어졌을때 올바른 pk을 P로부터 검색하길 기대된다.
  • training중 후보 candidate pool P는 일반적으로 배치 이미지로 구성되는 반면 evaluation 중 P는 테스트 세트의 모든 이미지를 포함합니다.
    • 실제 데이터를 보면, candidate pool P가 따로 주어지는 것은 아니다.
    • 다른 학습샘플의 이미지가 negative sample이 되는 것 (마치 랜덤 네거티브 샘플링 느낌)
    • test할때는 모든 테스트 이미지들이 후보가 된다고 한다.
  • Karpathy와 Fei-Fei(2015)에 따라 평가 지표로 "상위 K개 결과 중에서 올바른 항목이 발견된 횟수"로 계산된 Recall@K(R@K)를 사용합니다.
  • 특히 R@1, R@5 및 R@10을 선택하고 모델을 평가하기 위해 "sum(R@1, 5, 10)"으로 표시하는 이들의 합을 선택합니다.

6 Baselines

6.1 Photo-sharing Intent Prediction Model 

  • 베이스라인들을 만들기 위해, 우리는 3가지 SoTA pretrained models을 fine-tune한다.
    •  BERT (Devlin et al., 2018a), ALBERT (Lan et al., 2020), and T5 (Raffel et al., 2020),
    • PLM들은 많은 NLP tasks에서 놀라운 성능을 달성해왔다.
  • BERT와 ALBERT을 우리의 세팅에 적용하기 위해, 우리는 모든 이전의 turn (t1:j in Equation 1)을 [SEP]에 의해 concatenate시키고 [CLS]을 prepend시켜서 입력을 생성하여 모델의 입력으로 넣는다.
  • 우리는 speaker information s1:j은 입력의 segment id로써 사용한다.
  • [CLS] 토큰의 출력은 두 개의 fully-connected layers에 넣게되고, 최종 예측을 생성하기위해 FC layer의 출력 dimension은 각각 128과 2이다.
    • 왜 출력이 2개인거지? 128 dimension의 용도는?
  • T5을 활용하기 위해, 우리는 [SEP]에 의해 t1:j을 concatenate하고 text앞에 "predict share intent:"을 prepend한 것이 모델의 입력이 된다.
    • 마치 prompt 느낌이네
  • 우리는 3가지 모델들에 대해 cross entropy loss을 사용한다.

6.2 Image Retrieval Model 

  • 우리의 베이스라인들은 statistical와 neural-based 접근법 두 개로 구성되고, 아래에서 자세히 설명된다.
  • Dual encoder: 
    • 우리는 Parekh; Gillick와 유사한 dual-encoder 모델을 설계하고, 이는 각각 SOTA pre-trained models을 활용하여 image와 text을 각각 인코딩한다.
    • 이것의 전체구조는 그림3에서 보여준다.
    • 즉, image와 image object list을 BERT, ResNet으로 벡터 추출하고, 이를 짬뽕해서 image embeddings을 만든다.
    • 화자의 이전봘하들을 (dialogue history가 아님) BERT로 embeddings을 만든다.
    • 이 두 개의 embeddings의 dot product으로 유사도 점수를 구한다.
  • 이미지를 인코딩하기 위해, 각 pi = (ai , li)에 대해, 우리는 먼저 image ai을 224x224로 resize하고 pretrained ResNet에 넣어서 Ai을 생성한다.
    • pretrained BERT는 li을 인코딩하는데 사용되어서 label embedding Li을 달성하고, 이는 [CLS] 토큰의 출력이다.
    • Li와 Ai는 concatenated되서 image embedding을 생성한다.
  • 대화 컨텍스트를 인코딩하기 위해, 우리는 두 번째 pretrained BERT을 사용한다. 
    • 이것의 입력은 photo을 공유한 speaker의 이전 모든 발화들을 concatenation을 한 것이다.
    • 상대방의 발화는 안넣네?
    • [CLS]의 출력은 contextual text embedding으로써 사용된다.
  • 두 개의 FC layers은 그리고나서 image와 text embeddings을 각각 joint image-text embedding space (dimension H)으로 project하는데 사용된다.
  • 그리고나서, normalized image embedding Bi와 text embedding Tj의 dot product는 유사도 점수 S(Bi , Tj )으로 사용된다.
  • Following Young et al. (2014); Gillick et al. (2018), bidirectional in-batch sampled cross entropy loss is employed:
    • where Bˆ i and Tˆ j are the image embeddings and text embeddings of the other examples in the batch.
    • 즉 같은 positive pair은 -S(Bi, Tj)가 loss이고 negative pair은 log e^(S(Bi,T^j))가 logg 개념이다.
    • 따라서 loss을 낮추든 것은 positive pair의 점수인 S(Bi, Tj)을 높게, negative pair의 score은 낮게해야한다.
  • We also experiment with bidirectional in-batch hinge loss, defined as: 
    • 이런식의 방식도 썼다?
    • where α is the margin parameter and [x]+ ≡ max(x, 0) .
  • 예비 실험에서 cross entropy 손실이 더 잘 작동하는 것을 관찰하고 대부분의 실험을 cross entropy 손실로 구현합니다.
  • VSE++: 
    • VSE++은 간단하고 효과적인 dual encoder model이다.
    • 이것은 image와 text을 인코딩한다.
      • 텍스트는 우리의 케이스에서 photo을 공유한 사람의 모든 이전 발화를 concatenation한 것이다.
      • 각각은 ResNet152와 GRU로 인코딩된다.
    • 이것은 그리고나서 linear projections을 따라 joint embedding space로 매핑된다.
    • 마침내, normalized embeddings의 dot product은 ranking scores을 계산하는데 사용된다.
    • 그들은 ranking loss function에서 쿼리에 가장 가까운 negatives인 가장 어려운 negatives을 혁신적으로 사용합니다.
    • where ˆT h j = argmax(S(Bi , Tˆj)) and ˆBh i = argmax(S(Bˆ i , Tj )) are the hardest negatives.
    • 즉 score 함수로 가장 가까운 negative sample에 대해서 loss을 계산했다는 것 같은데?
  • SCAN: 
    • SCAN은 image region과 텍스트 토큰 간의 세밀한 상호 작용을 캡처하여 이미지 텍스트 유사성을 추론하는 완전한 교차 주의 모델입니다.
    • ResNet-101과 함께 fastRCNN을 사용하여 image region  임베딩을 계산하고 양방향 GRU를 사용하여 텍스트 임베딩을 달성합니다.
    • VSE++와 마찬가지로 SCAN은 triple ranking loss function에서 hard negatives를 사용합니다.
    • 이미지 캡션 작업에서 VSE++를 능가하지만 교차 주의의 높은 계산 비용으로 인해 대규모 검색 문제로 확장되지 않습니다.
  • BM25: 
    • BM25는 문서 검색에 널리 사용되는 확률적 검색 기능입니다.
    • 이를 설정에 적용하기 위해 각 이미지 lj , j ∈ [1, m]의 object labels을 document item으로 직접 활용합니다.
    • 사진이 공유되기 전의 모든 발화는 연결되고 토큰화되어 이미지를 검색하는 쿼리 용어로 사용됩니다.
    • 그림에서 어떤 object가 있는지 text로 써있는 것을 document item으로 사용한듯? 즉 text-to-text 매칭?

7 Experiments 

7.1 Setup 

  • 사진 공유 의도 예측 작업에 대한 BERT, ALBERT 및 T5의 최대 시퀀스 길이는 512입니다.
  • 테스트 세트에 대한 평가를 위해 개발 세트에서 최고의 F1 점수를 얻은 체크포인트를 선택합니다.
  • 우리의 이중 인코더 모델의 경우, BERT의 최대 시퀀스 길이는 128이고, 결합 이미지-텍스트 임베딩 공간 H의 차원은 512이, 여백 매개변수 α는 모든 실험에 대해 0.2입니다.
  • 모든 매개변수는 훈련 가능합니다.
  • Adam 옵티마이저(β1 = 0.9, β2 = 0.999)와 5e-5에서 시작하여 1000단계마다 0.1%씩 감소하는 학습률을 사용합니다.
  • 모델은 복제본당 배치 크기가 4인 Cloud TPU V3 Pod의 32코어 Pod 슬라이스에서 학습됩니다.
  • 손실은 모든 복제본에서 집계된 항목 쌍에 대해 계산되며 이 경우 128개 샘플의 전역 배치를 초과합니다.
  • VSE++ 및 SCAN 모델의 경우 GRU는 사전 훈련된 인코더가 아니므로 PhotoChat에서 직접 훈련하면 불쾌한 결과가 나타납니다.
  • 따라서 먼저 MSCOCO에서 교육하고 PhotoChat에서 20 Epoch 동안 미세 조정합니다.
  • 우리는 MSCOCO에서 이미지 검색 작업을 가장 잘 수행하는 것으로 보고된 단일 모델과 동일한 설정을 사용합니다.
    • more specifically, VSE++ (ResNet, FT) and SCAN t-i AVG (λ1 = 9) following the annotations in the original papers.

7.2 Results of intent prediction

  • Table 2은 테스트세트에서 모델 성능을 보여준다.
  • 우리는 T5가 BERT와 ALBERT보다 모든 메트릭들에서 뛰어남을 관측한다.
  • 우리의 데이터세트는 class imbalanace으로 고통을 받고, 즉 negative 예제들이 positive 예제들보다 수가 많다, 이는 우리가 모든 모델들에 대해 낮은 precision을 유발한다고 생각한다.
  • 그림 4는 T5-3B 모델에 의해 예측된 예제들을 보여준다.
  •  
  • (e.g. “They were really pretty.” and the second to last turn in example 2) positive로 잘못 예측된 몇 가지 턴들을 통해, speaker가 실제 생활에서 이 차례 이후에 사진을 공유할 수 있습니다. 즉, 사진을 공유할 시기는 주관적이고 모델이 낮은 정밀도에서 제안하는 것보다 더 실용적일 수 있음을 나타냅니다.
    • 즉 오분류해도 이 때 사진을 공유하는 것은 말이 된다,,
    • 하지만, 이는 실제 모든 예에서 그런지 아닌지 알 수가 없음
  • 우리는 또한 만약 모델이 화자가 공유한 photos의 셋에 접근할 수 있다면, 그 정확도는 올라갈 것으로 기대한다.
    • 이 경우 모델은 그림 4의 예 1과 2의 사진이 음식과 동상에 대한 발언을 따를 가능성이 더 높다는 것을 추론할 수 있습니다.
    • 말은 되지만 실제 시나리오하고는 안맞는듯

7.3 Results of image retrieval

  • 테이블 4는 PhotoChat에 대한 실험 결과들을 리스팅한다.
    • 우리의 dual encoder 모델은 DE로 표기된다.
    • DEimg 및 DElabel은 그림 3의 기본 아키텍처와 비교하여 이미지 ai 또는 이미지 레이블 li만 입력으로 사용하는 절제 모델입니다. 
  • CE, SH, MH represents cross entropy loss, hinge loss, and hinge loss using hard negatives. 
  • 먼저 MSCOCO에서 DE 학습을 시도하고 PhotoChat에서 미세 조정을 시도합니다.
    • 이러한 모델은 특별히 *로 주석 처리됩니다.
  • We also experiment with different image encoders: 
    • ResNet-50 and ResNet-152, in combination with different label encoders: Bert-base and Bert-tiny
  • 표 4의 모델명 뒤 괄호 안에 주석이 달려 있습니다.
  • 모든 모델 중 SCAN은 10.4% R@1, 27% R@5, 37.1% R@10으로 최고의 성능을 보여 이전 작업과 일치하여 bottom-up 교차 주의의 힘을 보여줍니다.
  • Cross-attention이 없는 모든 모델 중에서 우리 모델 DE*(ResNet-152, Berttiny)가 가장 좋은 성능을 보이며 강력한 선행 작업인 VSE++를 능가하여 검색 작업에서 이미지 레이블을 사용하는 효율성을 나타냅니다.
  • Ablation study: 
    • DElabel(Bertbase)과 DEimg(ResNet-152)를 비교하여 이미지에 더 많은 정보가 포함되어 있기 때문에 이미지 레이블 features을 사용하는 것보다 이미지 features을 사용하는 것이 더 효과적이라는 것을 알 수 있습니다.
    • 이건 나름 신기. 어쨌든 image 정보를 담아냈다는 것이니까.. image pixel > image label
    • 이미지 픽셀 값만 사용하는 모델(DEimg(ResNet152))과 비교하여 레이블 기능을 추가하면 sum(R@1, 5, 10)에서 1.3% 증가하여 66.4%(DE(ResNet-152, Bert- 베이스)).
    • MSCOCO에서 모델을 사전 훈련하면 3.5% 더 향상됩니다.
  • Effect of encoders: 
    • 더 작은 모델(Bert-tiny)을 사용하여 이미지 레이블을 인코딩하면 손실 함수에 관계없이 더 나은 성능을 얻을 수 있습니다.
    • DE*(ResNet-152, Bert-tiny)는 교차 엔트로피 손실을 사용할 때 DE*(ResNet-152, Bert-base)에 비해 sum(R@1, 5, 10)을 1.2%, 힌지 손실을 사용할 때 2.4% 향상시킵니다. .
    • 그 이유는 레이블이 토큰의 간결한 목록이므로 더 작은 모델을 사용하면 과적합 문제가 완화되기 때문일 수 있습니다.
    • 반면 더 큰 이미지 인코더 ResNet-152를 사용하면 DEimg(ResNet-152)가 DEimg(ResNet-50)보다 sum(R@1, 5, 10)에서 4.2% 더 나은 결과를 얻을 수 있습니다.
  • Effect of loss function: 
    • 우리의 듀얼 인코더는 힌지 손실보다 교차 엔트로피 손실에서 훨씬 더 잘 작동하며 DE*(ResNet152, Bert-base) 및 DE*( ResNet-152, Bert-tiny) 모델은 서로 다른 손실 함수를 사용합니다.
  • Error analysis: 
    • 그림 5는 텍스트 쿼리에 대한 DE*(ResNet-152, Bert-tiny)의 정성적 결과를 보여줍니다.
    • 첫 번째 예에서 모델은 무시하기 쉬운 와인잔을 들고 있는 실제 이미지 대신 와인잔과 홍차 관련 이미지를 상위에 배치했습니다.
    • 두 번째 예에서 모델은 오리와 바다오리를 구별하지 못하고 키워드 "대서양"에서 배경을 추론하지 못합니다.
    • 이는 섹션 1에서 논의된 바와 같이 모델이 세부사항과 이벤트에 주의를 기울여야 한다는 대화 컨텍스트에서 이미지 검색 작업의 도전을 보여줍니다.
    • 그림 6은 모델에 의한 일부 잘못된 예측을 포함하여 더 많은 예측 결과를 보여줍니다.

8 Conclusion

  • 우리는 크라우드소싱을 통해 photo sharing 활동을 포함하는 높은 퀄리티의 12k 대화 데이터세트를 수집한다.
  • 똑똑한 photo-suggest system을 설계하는 연구를 위해, 우리는 2가지 새로운 챌린지 테스크들을 소개한다.
    • photo-sharing 경험을 향상시키는 것으로, photo-sharing intent prediction 테스크와 image retrieval task이다.
  • 즉, 대화가 주어졌을 때, 시스템은 user가 사진을 공유할 의도가 있는지를 예측하고 적절한 photo을 공유한다.
  • 우리는 두 가지 테스크들에 대한 베이스라인을 설계하고, 자세한 분석과 함께 성능을 리포트한다.
  • 두 가지 새로운 테스크이ㅗ에에도, 우리의 데티서테느는 다른 관련된 대화 테스크에서 사용될 수 있다. 
    • 예) 멀티모달 대화에서의 대화 생성, 다른 사람이 보낸 사진에 자동 답장을 작성합니다.
  • We hope our dataset and modeling work can be beneficial for studies that focus on the interplay between image and dialogue.

Reference

댓글