◼ Comment

이 논문은, 평상시에 관심있었던 멀티모달 대화 데이터세트 구축 논문이다.
이러한 데이터는 이전에 없었던 것으로 알고있고 이 논문에서도 처음으로 구축했다고 한다.
쉽게 말해서 진짜 대화처럼 사진까지 포함하여 대화를 하는 것이다.
이 논문은 2가지 테스크를 소개한다.

1) 이미지를 공유할 타이밍 판단
2) 공유할 이미지 검색

1) 테스크인, 이미지를 공유할 타이밍이란게 아예 없진 않겠으나 이게 잘 작동할지 의문이다.

왜냐하면 실제 사람은 이미지를 내킬때 보내는 느낌아닌가?
이미지를 안보내도 될 타이밍이야 있긴 할 거 같다.
즉 recall은 높을 수 있을것 같은데 precision은 낮을 수 있다는 생각이다.
방법은 간단히 BERT or T5 등을 fine-tuning하는 것

2) 공유할 이미지는 이미지 풀에서 찾는 것이다.

방법은 dialogue vs image을 비교해서 찾는다.
대화 텍스트 입력은, 근데 화자의 이전발화들이 concat되서 들어가는 것 같다.
이미지쪽 입력은 image pixel, image label 두 개가 있다
image pixel은 말그대로 사진을 의미하고, image label은 사진속 object list가 text로 들어가는 것이다.

loss는 CE, hinge을 이용하고 negative sample도 배치내 샘플 or hard negative 샘플 등의 방식을 시도한다.
사실 모델링은 베이스라인이 간단히만 알아두면 될거 같고, 이러한 데이터가 있다는 것을 기억해두자!

0 Abstract

우리는 새로운 human-human 대화 데이터세트를 제안한다.

PhotoChat은 온라인 메시징에서 사진 공유 behavior을 조명하는 최초의 데이터세트입니다.

PhotoChat은 12k 대화들을 포함하고, 이것의 각각은 대화중에 공유된 user photo와 쌍을 이루고 있다.
이 데이터세트를 기반으로, 우리는 image-text 모델링 연구에 용이한 2가지 테스크들을 제안한다.

a photo-sharing intent prediction task that predicts whether one intends to share a photo in the next conversation turn, and

다음 대화 턴에서 photo을 공유할지 말지를 예측하는 것

a photo retrieval task that retrieves the most relevant photo according to the dialogue context.

대화 컨텍스트에 따른 관련있는 photo을 검색하는 것

게다가, 두 가지 테스크들에서 우리는 SoTA 모델을 사용한 baseline model을 제공하고 그들의 벤치마크 성능을 리포트한다.
가장 좋은 image retrieval 모델은 10.4%의 recall@1 (1000개의 candidates중)을 달성하고 best photo intent prediction model은 58.1% F1 score을 달성하고, 이는 데이터 세트가 흥미롭지만 도전적인 real-world problems를 제시함을 나타냅니다.
We are releasing PhotoChat to facilitate future research work among the community.

1 Introduction

인스턴트 메시징 도구가 최근 수십 년 동안 엄청난 인기를 얻으면서 온라인 메시징 대화의 참여를 강화하기 위한 접근 방식으로 사진을 공유하는 것이 일상적인 의사 소통 행위가 되었습니다(Lobinger, 2016).
2010년에 실시된 조사에 따르면 미국 십대의 74%가 휴대전화를 사용하여 사진이나 비디오를 메시지로 보낸다고 보고했습니다(Lenhart et al., 2010).
영국에서는 2013년에 인터넷 사용자의 거의 70%가 사진을 공유했습니다(Dutton and Blank, 2013).
사진 공유의 확산을 고려할 때 사용자가 이 프로세스에 효율적으로 참여하도록 지원할 수 있는 지능적인 시스템, 즉 가장 관련성이 높은 사진을 정확한 타이밍에 제안하는 것이 바람직합니다.
이 목표를 달성하기 위해 지능형 시스템은 인간이 서로 의사 소통하는 방식, 인간이 말하는 자연어를 이해할 뿐만 아니라 이미지를 인간이 인식하는 것처럼 인식해야 합니다.
이러한 다중 모드 시스템 구축을 용이하게 하는 방법이 이 문서의 목표입니다.
최근에는 언어와 시각을 연결하기 위해 많은 이미지-텍스트 작업이 제안되고 활발히 연구되고 있지만, 대부분은 주어진 이미지에 대한 이해를 바탕으로 텍스트를 선택하거나 구성하는 것으로 공식화되고,

e.g. image captioning (Anderson et al., 2018),
visual question answering (Antol et al., 2015),
visual commonsense reasoning (Zellers et al., 2019), and
image-grounded dialogue generation (Shuster et al., 2020).

이러한 작업과 달리 photo sharing task은 reverse process에 초점을 맞추고, 즉, 텍스트에 대한 이해를 바탕으로 이미지를 선택하고 다양하고 독특한 도전을 제안합니다.
첫째, 위의 인기 있는 다중 모드 작업과 달리 사진 공유 작업에서 대화는 이미지에서 볼 수 있는 주요 내용을 명시적으로 언급하지 않는 경우가 많습니다.

사진의 주요 대상 대신 때로는 인간의 상상력으로 보완되는 배경 이야기가 채팅의 초점이 될 수 있습니다.
그림 1은 사진을 공유하는 사람이 이미지의 주 대상인 “레이디” 대신 이벤트 장소 “법원(court)”과 직업 “변호사(attorney)”를 설명하는 그러한 예를 보여줍니다.
즉 사진의 명시적인 설명 혹은 객체 등이 대화의 초점이 아닐 수도 있다는 것인듯. 배경 이야기가 초점이 될 수도 있다?

둘째, 대화가 이미지와 관련이 있다고 보장되지 않습니다.

예를 들어, 그림 1의 처음 두 차례에서 볼 수 있듯이 종종 다른 주제의 인사말과 잡담이 포함됩니다.
관련 사진을 제안하기 위해 스마트 시스템은 대화의 어느 부분을 이미지 제안에 사용할 수 있는지 결정해야 합니다.
대조적으로, 전통적인 이미지-텍스트 작업에서는 올바른 텍스트가 이미지와 높은 상관관계를 갖도록 설계되었으며 산만하게 하는 내용이 거의 없습니다.
이러한 사진 공유 특성으로 인해 이미지와 텍스트 발화 간의 연결을 추론하기가 어렵습니다.
이러한 과제를 강조하기 위해 우리는 대화 중에 한 사람이 다른 사람에게 사진을 공유하는 인간-인간 대화 데이터세트인 PhotoChat을 만듭니다.

우리가 아는 한, 사진 공유 활동을 캡처하는 첫 번째 데이터 세트입니다.
OpenImage V4 데이터 세트(Kuznetsova et al., 2020)에서 이미지를 공유 사진으로 선택하고 크라우드소싱 플러그인을 사용하여 대화당 평균 10턴으로 12,286개의 대화를 생성했습니다.
대화 수집 중에는 사진을 공유하라는 지시를 받은 쪽에만 사진이 표시되고 공유된 후에는 양쪽 모두에게 사진이 표시됩니다.
수집된 데이터 세트를 기반으로 사진 제안 시스템 구축에 필수적인 두 가지 작업을 제안합니다.

photo-sharing intent prediction task that predicts whether one intends to share the photo in the next conversation turn, and
dialogue-based image retrieval task that retrieves the most relevant photo given the dialogue context.

둘 다 기본 모델을 구축하고 성능을 보고 및 분석합니다.
최고의 photo-sharing intent prediction baseline은 58.2%의 정확도와 57.9%의 재현율로 58.1%의 F1 점수를 달성합니다.
최고의 cross-attention image retrieval model은 1000명의 후보 중 10.4%의 recall@1을 달성합니다.
또한 객체 레이블을 활용하여 이미지 기능을 인코딩하는 dual-encoder model을 제안합니다.

이는 w/o cross-attention mechanisms인 모든 모델 중에서 최고의 성능을 달성합니다.

In summary, our main contributions are:

We create the first human-human dialogue with photo-sharing acts via crowd-sourcing.
We propose two new tasks to promote building an intelligent photo suggest system.
We build baseline models and provide benchmarks for the new tasks. 우리가 제안한 이미지 검색 모델은 교차 주의 메커니즘이 없는 모든 이전 모델보다 성능이 뛰어납니다. 더 많은 통찰력을 제공하기 위해 포괄적인 분석 및 절제 연구를 구현합니다.

2 Related Work

최근 딥 러닝의 발전으로 많은 이미지-텍스트 데이터 세트가 생성되었으며 이를 기반으로 새로운 이미지-텍스트 작업이 제안됩니다.
이러한 데이터 세트는 공동 이미지-텍스트 모델의 개발을 크게 자극했습니다.
이 섹션에서는 널리 사용되는 이미지 텍스트 데이터 세트와 이미지 텍스트 문제를 해결하기 위한 최첨단(SOTA) 접근 방식을 검토합니다.

2.1 Image-text Dataset

Image-captioning 데이터셋은 처음으로 image-text 공동 모델링에 널리 사용됩니다.

각 이미지에 대해 5개의 캡션 설명이 포함된 MSCOCO 및 Flickr30k는 자동 캡션 생성 및 교차 모드 검색 작업에 사용되는 대표적인 것입니다.
개념적 캡션은 또 다른 인기 있는 이미지 캡션 데이터세트이지만 MSCOCO보다 훨씬 더 많은 이미지를 포함합니다.
이미지 캡션은 일반적으로 이미지의 주요 개체만 설명하고 세부 정보를 생략하기 때문에 Antol은 이미지의 세부 사항과 그에 대한 추론을 쉽게 이해할 수 있도록 각 이미지에 대해 3개의 질문 답변 쌍을 포함하는 VQA를 도입했습니다.
추가 작업은 모델이 이미지에서 파생된 질문에 대답할 것을 요구할 뿐만 아니라 그 대답이 옳은 이유를 설명하는 근거를 제공하는 VCR입니다.
모델이 세상에 대한 고차원적 인지와 상식적인 추론을 배우도록 가르치기 위해 만들어졌습니다.

위의 작업에 비해 이미지에 기반을 둔 대화에 중점을 둔 Image-Chat과 IGA는 우리와 가장 관련이 있는 작업입니다.

IGA에는 4k 대화가 포함되어 있으며 각 대화에는 이미지에 대한 텍스트 설명과 함께 이미지에 대한 질문 및 응답이 포함되어 있습니다.
IGA는 규모가 작기 때문에 평가용으로만 사용할 수 있습니다.
Image-Chat은 202k 이미지 기반 대화로 구성된 대규모 데이터 세트입니다.
그러나 둘 다 크라우드 작업자에게 공유 이미지에 대해 이야기하여 매력적인 대화를 생성하도록 요청하여 생성되었으며, 이는 대화 시작 시 한쪽에서만 사진에 액세스할 수 있는 사진 공유 시나리오와 다릅니다.
따라서 어느 쪽도 사진 제안 시스템을 구축하는 데 사용할 수 없습니다.
우리 작업에서 우리는 사진 제안 시스템 구축의 어려움을 강조하고 우리가 아는 한 최초의 새로운 데이터 세트를 구축합니다.

2.2 Image-text Modeling

photo-suggest system의 과제는 텍스트 발화를 기반으로 가장 관련성이 높은 이미지를 검색하는 것이므로 교차 모드 검색에 대한 관련 작업만 검토합니다.
주어진 이미지에서 가장 관련성이 높은 캡션을 검색하거나 그 반대의 경우도 마찬가지인 이미지 캡션 검색을 위해 많은 모델이 제안되었습니다.
일반적인 아키텍처는 먼저 시각적 및 텍스트 임베딩을 생성하기 위해 이미지와 텍스트를 위한 두 개의 개별 인코더로 구성됩니다.
그 위에 단순히 내적일 수 있는 융합 레이어를 사용하여 각 쌍에 대한 관련성 점수를 생성합니다.
그런 다음 triplet ranking loss or cross-entropy loss을 사용하여 latent visual-semantic alignment을 학습합니다.
VSE++는 hinge loss의 최대값을 목표로 사용하여 가장 어려운 네거티브를 강조하고 상당한 성능 향상을 가져왔습니다.
Stacked Cross Attention Network(SCAN)는 이미지 영역과 단어 기능 사이에 교차 주의를 도입하여 성능을 더욱 향상시킵니다.
최근 자기 지도 학습을 통해 대규모 이미지 텍스트 데이터 세트에 대해 사전 훈련된 교차 모드 변환기 기반 아키텍처는 시각적 및 텍스트 임베딩을 연결하는 데 큰 이점을 보여주었습니다.
여러 동시 작업으로 이미지 텍스트 검색 작업에 대한 벤치마크 데이터 세트의 최고 기록이 새로 고쳐졌습니다.

3 Dataset Creation

We select photos from Open Image Dataset V4 (OID) (Kuznetsova et al., 2020) and collect open-ended conversations on Amazon Mechanical Turk.
아래에서는 데이터 품질을 보장하기 위한 자세한 이미지 필터링, 대화 생성 및 데이터 검증 단계에 대해 설명합니다.

3.1 Image-based Filtering

OID는 규모가 크고 포괄적이기 때문에 리모컨이나 소화전 관련 이미지만 있는 등 일상 대화에서 공유하기 힘든 이미지를 담고 있다.
현실에 가까운 데이터 세트를 생성하기 위해 OID와 함께 제공되는 주석이 달린 객체 레이블을 기반으로 이미지를 필터링합니다.
이미지 기반 대화 및 일상 경험에 대한 조사를 바탕으로 일반적으로 4가지 주제에 대한 사진이 공유됩니다.

사람, 음식, 동물 및 제품(쇼핑 시나리오에서)은 데이터 세트 생성에 중점을 둡니다.

OID에 표시되는 모든 600개의 개체 레이블 중에서 먼저 네 가지 테마 중 하나에 속하고 일반적으로 공유되는 사진에 나타날 가능성이 높은 레이블을 등록합니다.

"신호등", "네일", "파충류"와 같은 레이블은 제외되고 "소녀", "베이글", "카메라"와 같은 레이블이 포함됩니다.

This process selects 89 object labels (Appendix).
그런 다음 목록에 있는 객체를 포함하는 이미지 풀을 선택하여 이미지 풀을 생성합니다.
사람 카테고리의 개체에 대해 기본 개체여야 하는 또 다른 기준을 추가합니다.
즉, 배경으로 사람만 있는 이미지를 제외하기 위해 이미지의 여백에 위치하거나 매우 작은 3이 아닌 다른 기준을 추가합니다.
이미지는 이미지 풀에서 무작위로 선택되어 다음 단계에서 대화를 생성합니다.

3.2 Conversation Generation

주어진 이미지를 기반으로 대화를 생성하기 위해 무작위로 2명의 크라우드 워커를 할당했습니다.
이미지에는 이미지의 개체 레이블 목록을 나타내는 이미지 설명이 함께 제공됩니다.
이미지에 인간이 포함된 경우 작업자가 참조하고 스토리를 전개할 수 있도록 인간 중 한 명에게 임의의 이름과 관계를 할당합니다.
그들은 친구와 이야기하는 것을 상상하도록 지시받습니다.
작업을 시작할 때 한 쪽만 이미지에 액세스할 수 있으며 이미지를 다른 쪽과 공유하기에 적합할 때까지 대화를 진행하라는 지시를 받습니다(웹사이트 인터페이스는 부록에 표시됨).
교대로 메시지를 보내야 하는 것은 제한이 없으나 사진을 가지고 있는 작업자는 총 대화 회전수가 5회에 도달할 때까지 사진을 공유할 수 없습니다.
사진을 공유한 후 대화를 종료하고 대화를 제출할 때까지 계속 채팅할 수 있습니다.

3.3 Image&text-based Verification

마지막으로 다른 사내 전문 크라우드 워커 세트를 사용하여 위 단계에서 생성된 잘못된 대화를 걸러냅니다.
사진 공유 배우의 콘텐츠가 부자연스럽거나 부적절한 단어, 너무 많은 오타 또는 깨진 영어가 포함되기 전에 이미지와 대화 간의 연관성이 분명하지 않은 경우 대화는 삭제됩니다.
그림 2는 규정된 데이터와 규정되지 않은 데이터의 예를 보여줍니다.
세 번째 부적격 대화는 실제 대화에서 발생할 수 있지만 사진이 공유될 때까지 이미지의 내용/이벤트는 언급되지 않습니다.

이는 모델이 대화와 이미지의 연관성을 학습하고 사전에 사진을 제안하는 것을 불가능하게 만듭니다.

이러한 대화는 이 단계에서 데이터세트에서 제거됩니다.

4 Dataset Statistics

수집된 데이터 세트는 10,917개의 고유한 이미지와 12,286개의 대화로 구성됩니다.
각 대화에는 하나의 이미지가 공유됩니다.
공유된 이미지의 오브젝트 라벨을 기반으로 대화를 사람, 음식, 동물, 생활용품의 4가지 범주로 분류합니다.
우리는 대화를 10,086개의 train, 1,000개의 development 및 1,000개의 test 세트로 분할하면서 분할 전체에서 카테고리의 대략 동일한 분포를 유지했습니다.
각 분할 및 전체에 대한 자세한 통계는 표 1에 나와 있습니다.
대화 상자에는 여러 범주 레이블이 있을 수 있습니다.
예를 들어, 공유된 이미지가 개와 노는 소녀에 관한 것이라면 대화는 사람과 동물 범주에 모두 속합니다.
따라서, 각 카테고리(사람/동물/음식/제품 다이얼 번호)의 대화의 합계는 테이블의 전체 대화 수(다이얼 번호)를 초과합니다.
또한 훈련 세트의 일부 이미지는 여러 대화에서 사용됩니다.
표의 통계에 따르면 대화당 평균 턴 수는 12.7이고 턴당 평균 토큰 수는 6.3입니다.
양측이 교대로 말하는 것에 제한을 두지 않기 때문에, 다른 대화 데이터셋의 기존 설정인 같은 쪽의 연속적인 턴을 1턴으로 합치면, 대화당 평균 턴 수와 턴당 평균 토큰 수는 9.5 및 8.5가 됩니다.
평균적으로 사람들은 사진을 공유하기 전에 7턴 동안 대화합니다.

5 Task Definition

우리는 smart photo-suggest system을 설계하는 문제를 두 가지 개별 테스크로 분리한다.
첫 번째는 user가 다음 턴에 photo을 공유할 intent을 가지고 있는지를 검출하는 것이고, 이는 우리가 photo-sharing intent prediction task로 부른다.
두 번째는 대화 컨텍스트를 기반으로 photo을 검색하는 것이고, 이는 우리가 image-retrieval task로 부른다.
아래는 문제 설정의 공식 공식을 설명합니다.
P = {p1, p2, ..., pM}은 photo set으로 각 pi = (ai , li), i ∈ [1, M]이고 image ai와 그의 objects 리스트 li로 구성된다.
대화 D = {t1, ..., th, pk, th+1, ..., tN }가 주어지고, 두 명의 화자가 번갈아 말한다.

tj (j ∈ [1, N]) and pk ∈ P은 각각 turn j의 발화와 shared image을 나타낸다.

th는 photo sharing act 직전의 turn이다.
우리는 speaker information S = {s1, s2, ..., sN } where sj (j ∈ [1, N])을 0 또는 1로 정의하고, turn j의 speaker을 가리킨다.
Photo-sharing intent prediction:

intent prediction task의 골은 photo가 이전에 주어진 모든 turns에 대해 다음 턴에서 공유될지를 예측하는 것이다.
In equation, it’s formulated as a binary classification task:
여기서 C는 intent prediction model로 이전의 모든 턴들의 발화와 speaker information을 입력으로써 취하고 binary value을 출력한다.
즉 이전 발화와 화자 정보를 입력으로 가진다는 것
위 케이스에서는, 오직 j=h일때에만 1로 예측하고 나머지에 대해서는 0이다.
모델이 이전의 모든 turns과 스피커 정보를 사용하는지 여부는 모델 디자인에 따라 다릅니다.
We use F1 score, precision, and recall as the evaluation metrics for this task.

Image retrieval:

같은 세팅에서, image retrieval task의 model R은 대화가 주어졌을때 올바른 pk을 P로부터 검색하길 기대된다.

training중 후보 candidate pool P는 일반적으로 배치 이미지로 구성되는 반면 evaluation 중 P는 테스트 세트의 모든 이미지를 포함합니다.

실제 데이터를 보면, candidate pool P가 따로 주어지는 것은 아니다.
다른 학습샘플의 이미지가 negative sample이 되는 것 (마치 랜덤 네거티브 샘플링 느낌)
test할때는 모든 테스트 이미지들이 후보가 된다고 한다.

Karpathy와 Fei-Fei(2015)에 따라 평가 지표로 "상위 K개 결과 중에서 올바른 항목이 발견된 횟수"로 계산된 Recall@K(R@K)를 사용합니다.
특히 R@1, R@5 및 R@10을 선택하고 모델을 평가하기 위해 "sum(R@1, 5, 10)"으로 표시하는 이들의 합을 선택합니다.

6 Baselines

6.1 Photo-sharing Intent Prediction Model

베이스라인들을 만들기 위해, 우리는 3가지 SoTA pretrained models을 fine-tune한다.

BERT (Devlin et al., 2018a), ALBERT (Lan et al., 2020), and T5 (Raffel et al., 2020),
PLM들은 많은 NLP tasks에서 놀라운 성능을 달성해왔다.

BERT와 ALBERT을 우리의 세팅에 적용하기 위해, 우리는 모든 이전의 turn (t1:j in Equation 1)을 [SEP]에 의해 concatenate시키고 [CLS]을 prepend시켜서 입력을 생성하여 모델의 입력으로 넣는다.
우리는 speaker information s1:j은 입력의 segment id로써 사용한다.
[CLS] 토큰의 출력은 두 개의 fully-connected layers에 넣게되고, 최종 예측을 생성하기위해 FC layer의 출력 dimension은 각각 128과 2이다.

왜 출력이 2개인거지? 128 dimension의 용도는?

T5을 활용하기 위해, 우리는 [SEP]에 의해 t1:j을 concatenate하고 text앞에 "predict share intent:"을 prepend한 것이 모델의 입력이 된다.

마치 prompt 느낌이네

우리는 3가지 모델들에 대해 cross entropy loss을 사용한다.

6.2 Image Retrieval Model

우리의 베이스라인들은 statistical와 neural-based 접근법 두 개로 구성되고, 아래에서 자세히 설명된다.
Dual encoder:

우리는 Parekh; Gillick와 유사한 dual-encoder 모델을 설계하고, 이는 각각 SOTA pre-trained models을 활용하여 image와 text을 각각 인코딩한다.
이것의 전체구조는 그림3에서 보여준다.
즉, image와 image object list을 BERT, ResNet으로 벡터 추출하고, 이를 짬뽕해서 image embeddings을 만든다.
화자의 이전봘하들을 (dialogue history가 아님) BERT로 embeddings을 만든다.
이 두 개의 embeddings의 dot product으로 유사도 점수를 구한다.

이미지를 인코딩하기 위해, 각 pi = (ai , li)에 대해, 우리는 먼저 image ai을 224x224로 resize하고 pretrained ResNet에 넣어서 Ai을 생성한다.

pretrained BERT는 li을 인코딩하는데 사용되어서 label embedding Li을 달성하고, 이는 [CLS] 토큰의 출력이다.
Li와 Ai는 concatenated되서 image embedding을 생성한다.

대화 컨텍스트를 인코딩하기 위해, 우리는 두 번째 pretrained BERT을 사용한다.

이것의 입력은 photo을 공유한 speaker의 이전 모든 발화들을 concatenation을 한 것이다.
상대방의 발화는 안넣네?
[CLS]의 출력은 contextual text embedding으로써 사용된다.

두 개의 FC layers은 그리고나서 image와 text embeddings을 각각 joint image-text embedding space (dimension H)으로 project하는데 사용된다.
그리고나서, normalized image embedding Bi와 text embedding Tj의 dot product는 유사도 점수 S(Bi , Tj )으로 사용된다.
Following Young et al. (2014); Gillick et al. (2018), bidirectional in-batch sampled cross entropy loss is employed:

where Bˆ i and Tˆ j are the image embeddings and text embeddings of the other examples in the batch.
즉 같은 positive pair은 -S(Bi, Tj)가 loss이고 negative pair은 log e^(S(Bi,T^j))가 logg 개념이다.
따라서 loss을 낮추든 것은 positive pair의 점수인 S(Bi, Tj)을 높게, negative pair의 score은 낮게해야한다.

We also experiment with bidirectional in-batch hinge loss, defined as:

이런식의 방식도 썼다?
where α is the margin parameter and [x]+ ≡ max(x, 0) .

예비 실험에서 cross entropy 손실이 더 잘 작동하는 것을 관찰하고 대부분의 실험을 cross entropy 손실로 구현합니다.
VSE++:

VSE++은 간단하고 효과적인 dual encoder model이다.
이것은 image와 text을 인코딩한다.

텍스트는 우리의 케이스에서 photo을 공유한 사람의 모든 이전 발화를 concatenation한 것이다.
각각은 ResNet152와 GRU로 인코딩된다.

이것은 그리고나서 linear projections을 따라 joint embedding space로 매핑된다.
마침내, normalized embeddings의 dot product은 ranking scores을 계산하는데 사용된다.
그들은 ranking loss function에서 쿼리에 가장 가까운 negatives인 가장 어려운 negatives을 혁신적으로 사용합니다.
where ˆT h j = argmax(S(Bi , Tˆj)) and ˆBh i = argmax(S(Bˆ i , Tj )) are the hardest negatives.
즉 score 함수로 가장 가까운 negative sample에 대해서 loss을 계산했다는 것 같은데?

SCAN:

SCAN은 image region과 텍스트 토큰 간의 세밀한 상호 작용을 캡처하여 이미지 텍스트 유사성을 추론하는 완전한 교차 주의 모델입니다.
ResNet-101과 함께 fastRCNN을 사용하여 image region 임베딩을 계산하고 양방향 GRU를 사용하여 텍스트 임베딩을 달성합니다.
VSE++와 마찬가지로 SCAN은 triple ranking loss function에서 hard negatives를 사용합니다.
이미지 캡션 작업에서 VSE++를 능가하지만 교차 주의의 높은 계산 비용으로 인해 대규모 검색 문제로 확장되지 않습니다.

BM25:

BM25는 문서 검색에 널리 사용되는 확률적 검색 기능입니다.
이를 설정에 적용하기 위해 각 이미지 lj , j ∈ [1, m]의 object labels을 document item으로 직접 활용합니다.
사진이 공유되기 전의 모든 발화는 연결되고 토큰화되어 이미지를 검색하는 쿼리 용어로 사용됩니다.
그림에서 어떤 object가 있는지 text로 써있는 것을 document item으로 사용한듯? 즉 text-to-text 매칭?

7 Experiments

7.1 Setup

사진 공유 의도 예측 작업에 대한 BERT, ALBERT 및 T5의 최대 시퀀스 길이는 512입니다.
테스트 세트에 대한 평가를 위해 개발 세트에서 최고의 F1 점수를 얻은 체크포인트를 선택합니다.
우리의 이중 인코더 모델의 경우, BERT의 최대 시퀀스 길이는 128이고, 결합 이미지-텍스트 임베딩 공간 H의 차원은 512이, 여백 매개변수 α는 모든 실험에 대해 0.2입니다.
모든 매개변수는 훈련 가능합니다.
Adam 옵티마이저(β1 = 0.9, β2 = 0.999)와 5e-5에서 시작하여 1000단계마다 0.1%씩 감소하는 학습률을 사용합니다.
모델은 복제본당 배치 크기가 4인 Cloud TPU V3 Pod의 32코어 Pod 슬라이스에서 학습됩니다.
손실은 모든 복제본에서 집계된 항목 쌍에 대해 계산되며 이 경우 128개 샘플의 전역 배치를 초과합니다.
VSE++ 및 SCAN 모델의 경우 GRU는 사전 훈련된 인코더가 아니므로 PhotoChat에서 직접 훈련하면 불쾌한 결과가 나타납니다.
따라서 먼저 MSCOCO에서 교육하고 PhotoChat에서 20 Epoch 동안 미세 조정합니다.
우리는 MSCOCO에서 이미지 검색 작업을 가장 잘 수행하는 것으로 보고된 단일 모델과 동일한 설정을 사용합니다.

more specifically, VSE++ (ResNet, FT) and SCAN t-i AVG (λ1 = 9) following the annotations in the original papers.

7.2 Results of intent prediction

Table 2은 테스트세트에서 모델 성능을 보여준다.
우리는 T5가 BERT와 ALBERT보다 모든 메트릭들에서 뛰어남을 관측한다.
우리의 데이터세트는 class imbalanace으로 고통을 받고, 즉 negative 예제들이 positive 예제들보다 수가 많다, 이는 우리가 모든 모델들에 대해 낮은 precision을 유발한다고 생각한다.
그림 4는 T5-3B 모델에 의해 예측된 예제들을 보여준다.
(e.g. “They were really pretty.” and the second to last turn in example 2) positive로 잘못 예측된 몇 가지 턴들을 통해, speaker가 실제 생활에서 이 차례 이후에 사진을 공유할 수 있습니다. 즉, 사진을 공유할 시기는 주관적이고 모델이 낮은 정밀도에서 제안하는 것보다 더 실용적일 수 있음을 나타냅니다.

즉 오분류해도 이 때 사진을 공유하는 것은 말이 된다,,
하지만, 이는 실제 모든 예에서 그런지 아닌지 알 수가 없음

우리는 또한 만약 모델이 화자가 공유한 photos의 셋에 접근할 수 있다면, 그 정확도는 올라갈 것으로 기대한다.

이 경우 모델은 그림 4의 예 1과 2의 사진이 음식과 동상에 대한 발언을 따를 가능성이 더 높다는 것을 추론할 수 있습니다.
말은 되지만 실제 시나리오하고는 안맞는듯

7.3 Results of image retrieval

테이블 4는 PhotoChat에 대한 실험 결과들을 리스팅한다.

우리의 dual encoder 모델은 DE로 표기된다.
DEimg 및 DElabel은 그림 3의 기본 아키텍처와 비교하여 이미지 ai 또는 이미지 레이블 li만 입력으로 사용하는 절제 모델입니다.

CE, SH, MH represents cross entropy loss, hinge loss, and hinge loss using hard negatives.
먼저 MSCOCO에서 DE 학습을 시도하고 PhotoChat에서 미세 조정을 시도합니다.

이러한 모델은 특별히 *로 주석 처리됩니다.

We also experiment with different image encoders:

ResNet-50 and ResNet-152, in combination with different label encoders: Bert-base and Bert-tiny.

표 4의 모델명 뒤 괄호 안에 주석이 달려 있습니다.
모든 모델 중 SCAN은 10.4% R@1, 27% R@5, 37.1% R@10으로 최고의 성능을 보여 이전 작업과 일치하여 bottom-up 교차 주의의 힘을 보여줍니다.
Cross-attention이 없는 모든 모델 중에서 우리 모델 DE*(ResNet-152, Berttiny)가 가장 좋은 성능을 보이며 강력한 선행 작업인 VSE++를 능가하여 검색 작업에서 이미지 레이블을 사용하는 효율성을 나타냅니다.
Ablation study:

DElabel(Bertbase)과 DEimg(ResNet-152)를 비교하여 이미지에 더 많은 정보가 포함되어 있기 때문에 이미지 레이블 features을 사용하는 것보다 이미지 features을 사용하는 것이 더 효과적이라는 것을 알 수 있습니다.
이건 나름 신기. 어쨌든 image 정보를 담아냈다는 것이니까.. image pixel > image label
이미지 픽셀 값만 사용하는 모델(DEimg(ResNet152))과 비교하여 레이블 기능을 추가하면 sum(R@1, 5, 10)에서 1.3% 증가하여 66.4%(DE(ResNet-152, Bert- 베이스)).
MSCOCO에서 모델을 사전 훈련하면 3.5% 더 향상됩니다.

Effect of encoders:

더 작은 모델(Bert-tiny)을 사용하여 이미지 레이블을 인코딩하면 손실 함수에 관계없이 더 나은 성능을 얻을 수 있습니다.
DE*(ResNet-152, Bert-tiny)는 교차 엔트로피 손실을 사용할 때 DE*(ResNet-152, Bert-base)에 비해 sum(R@1, 5, 10)을 1.2%, 힌지 손실을 사용할 때 2.4% 향상시킵니다. .
그 이유는 레이블이 토큰의 간결한 목록이므로 더 작은 모델을 사용하면 과적합 문제가 완화되기 때문일 수 있습니다.
반면 더 큰 이미지 인코더 ResNet-152를 사용하면 DEimg(ResNet-152)가 DEimg(ResNet-50)보다 sum(R@1, 5, 10)에서 4.2% 더 나은 결과를 얻을 수 있습니다.

Effect of loss function:

우리의 듀얼 인코더는 힌지 손실보다 교차 엔트로피 손실에서 훨씬 더 잘 작동하며 DE*(ResNet152, Bert-base) 및 DE*( ResNet-152, Bert-tiny) 모델은 서로 다른 손실 함수를 사용합니다.

Error analysis:

그림 5는 텍스트 쿼리에 대한 DE*(ResNet-152, Bert-tiny)의 정성적 결과를 보여줍니다.
첫 번째 예에서 모델은 무시하기 쉬운 와인잔을 들고 있는 실제 이미지 대신 와인잔과 홍차 관련 이미지를 상위에 배치했습니다.
두 번째 예에서 모델은 오리와 바다오리를 구별하지 못하고 키워드 "대서양"에서 배경을 추론하지 못합니다.
이는 섹션 1에서 논의된 바와 같이 모델이 세부사항과 이벤트에 주의를 기울여야 한다는 대화 컨텍스트에서 이미지 검색 작업의 도전을 보여줍니다.
그림 6은 모델에 의한 일부 잘못된 예측을 포함하여 더 많은 예측 결과를 보여줍니다.

8 Conclusion

우리는 크라우드소싱을 통해 photo sharing 활동을 포함하는 높은 퀄리티의 12k 대화 데이터세트를 수집한다.
똑똑한 photo-suggest system을 설계하는 연구를 위해, 우리는 2가지 새로운 챌린지 테스크들을 소개한다.

photo-sharing 경험을 향상시키는 것으로, photo-sharing intent prediction 테스크와 image retrieval task이다.

즉, 대화가 주어졌을 때, 시스템은 user가 사진을 공유할 의도가 있는지를 예측하고 적절한 photo을 공유한다.
우리는 두 가지 테스크들에 대한 베이스라인을 설계하고, 자세한 분석과 함께 성능을 리포트한다.
두 가지 새로운 테스크이ㅗ에에도, 우리의 데티서테느는 다른 관련된 대화 테스크에서 사용될 수 있다.

예) 멀티모달 대화에서의 대화 생성, 다른 사람이 보낸 사진에 자동 답장을 작성합니다.

We hope our dataset and modeling work can be beneficial for studies that focus on the interplay between image and dialogue.

Reference

https://aclanthology.org/2021.acl-long.479.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-163, PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling, ACL 2021

◼ Comment

0 Abstract

1 Introduction

2 Related Work

2.1 Image-text Dataset

2.2 Image-text Modeling

3 Dataset Creation

3.1 Image-based Filtering

3.2 Conversation Generation

3.3 Image&text-based Verification

4 Dataset Statistics

5 Task Definition

6 Baselines

6.1 Photo-sharing Intent Prediction Model

6.2 Image Retrieval Model

7 Experiments

7.1 Setup

7.2 Results of intent prediction

7.3 Results of image retrieval

8 Conclusion

댓글

댓글 쓰기