NL-160, Filtering before Iteratively Referring for Knowledge-Grounded Response Selection in Retrieval-Based Chatbots, Findings of EMNLP 2020
◼ Comment
- 이 논문은 노벨티가 그렇게 강한느낌은 없다.
- 개인적으로 느낀 참고할만한거는 2개가 있다.
- 첫 번째는 soft-filtering과 hard-selection 하는 것이다.
- 즉 knowledge (persona or document)와 context의 embedding을 비교해서 soft-filtering을 한다.
- 즉 embedding간의 attention을 계산해서 값이 작으면 그 만큼 weight가 적게 걸리니까 필터링이 된다는 것이다.
- context-aware, knolwedge-aware 각각 진행이 되는데, knowledge fitler (context-aware knowledge representation)에서는 추가적인 진행과정이 있다.
- 왜냐하면 knowledge 끼리는 서로가 관계가 없는 것이기 때문이다.
- 따라서 response와 knoweldge와의 관계를 계산해서, 이로 그 context을 aware할지 말지를 결정한다.
- threshold로 결정하며, 만약 threshold보다 작으면 그 context는 knowledge representation을 만들때 버려진다. (이 부분이 hard-selection 느낌)
- threshold는 당연 실험적으로 구하는 값이다.
- 두 번째는 반복적인 referring이다.
- 이 논문은 PLM을 사용한게 아니기 때문에 직접 모델을 설계한다.
- 근데 설계할 때, 같은 layer을 반복적으로 수행한다.
- 약간 transformer 처럼 한거 같기도 함.
- 아무튼 이렇게하면 좀 더 깊은 매칭을 끌어낼 수 있다고 주장한다.
- 실험적으로 이는 3이 최적으로 보인다.
0 Abstract
- knowledge-grounded retrieval-based chatbots을 설계하는데 챌린지는 어떻게 background knowledge 기반으로 대화를 어떻게 하는지와 response candidates와 context, knowledge을 동시에 매칭시킬지가 챌린지이다.
- 이 논문에서 Filtering before Iteratively REferring (FIRE)로 불리는 방법을 제안한다.
- 이 방법에서 context filter와 knowledge filter가 먼저 설계되고, 이는 knowledge-aware context represntations와 context-aware knowledge representations을 각각 global 및 bidirectional attention으로 각각 이끌어낸다.
- 게다가 대화와 관련이 없는 항목은 knowledge filter에 의해 삭제됩니다.
- 그 후, 응답 후보를 채점하기 위한 deep matching features을 수집하기 위해 context 와 response representations 사이뿐만아니라 knowledge와 response representations사이가 반복적으로 referring가 수행됩니다.
- Experimental results show that FIRE outperforms previous methods by margins larger than 2.8% and 4.1% on the PERSONA-CHAT dataset with original and revised personas respectively, and margins larger than 3.1% on the CMU DoG dataset in terms of top-1 accuracy.
- 또한 지식 기반 프로세스를 시각화하여 FIRE가 더 해석 가능하다는 것을 보여줍니다.
1 Introduction
- 지능을 갖춘 대화형 에이전트를 구축하는 것은 Apple Siri, Google Now 및 Microsoft Cortana와 같은 개인 비서의 등장으로 상당한 주목을 받았습니다.
- 한 가지 접근 방식은 검색 기반 챗봇을 구축하는 것으로, 대화 컨텍스트가 주어진 후보 집합에서 잠재적인 응답을 선택하는 것을 목표로 합니다(Lowe et al., 2015; Wu et al., 2017; Zhou et al., 2018b; Gu et al., 2018b). al., 2019a, Tao et al., 2019, Gu et al., 2020a).
- 그러나 실제 인간의 대화는 종종 외부 지식을 기반으로 합니다.
- 사람들은 현재 대화에 따라 관련 배경 지식을 연관시킨 다음 컨텍스트와 지식을 기반으로 응답할 수 있습니다.
- 최근에 지식 기반 응답 선택 작업(Zhang et al., 2018a; Zhou et al., 2018a)이 이 시나리오를 시뮬레이션하기 위해 설정되었습니다.
- 이러한 작업에서 에이전트는 주어진 컨텍스트뿐만 아니라 관련 지식에 따라 응답해야 하며 지식은 일반적으로 실제로 공통적인 구조화되지 않은 항목으로 표시됩니다.
- 예는 그림 1에 나와 있습니다.
- 이러한 작업을 해결하기 위해 몇 가지 방법이 제안되었습니다(Mazare et al. ', 2018; Zhao et al., 2019; Gu et al., 2019b).
- 이러한 방법에서 컨텍스트, 지식 및 응답 후보의 의미론적 표현은 일반적으로 처음에는 모델을 인코딩하여 파생됩니다.
- 그런 다음 응답 후보와 {context, knowledge} 쌍의 매칭 정도가 신경망에 의해 계산됩니다.
- 이러한 방법은 응답을 선택할 때 외부 지식을 활용할 수 있지만 여전히 몇 가지 결함이 있습니다.
- 첫째, 대부분은 문맥과 지식을 분리하여 인코딩하고, comprehend the knowledge based on the conversation와 conversation on the knowledge를 소홀히 한다.
- Zhao(2019)는 각 {context utterance, knowledge entry} 쌍 간의 로컬 일치 정보를 표현에 융합하여 이 문제를 완화할 것을 제안했습니다. 그러나 각 발화 또는 항목은 대화에서 다른 기능을 수행합니다.
- 그림 1의 예에서 볼 수 있듯이 일부 발화는 배경 지식과 밀접한 관련이 있고 일부 발화는 지식과 관련이 없지만 인사와 같이 연결 역할을 합니다.
- 게다가 Year, Director and Critical 응답과 같은 일부 항목은 중복되어 대화에서 전혀 언급되지 않습니다.
- 이러한 발화 및 항목의 전역 기능은 기존의 모든 방법에서 무시되었습니다.
- 둘째, 응답 후보와 {context, knowledge} 쌍의 일치 정도를 계산하기 위해 이전 방법에서 사용된 모델 구조는 일반적으로 얕은 구조로 모델이 이들 간의 심층 일치 관계를 학습하는 데 제약이 있었습니다.
- 따라서 본 논문에서는 이러한 문제를 해결하기 위해 Filtering before Iteratively REferring(FIRE)이라는 방법을 제안한다.
- 첫째, 이 방법은 인코딩 단계에서 컨텍스트 필터와 지식 필터를 설계한다.
- 이 부분이 내가 하는 것과 살짝 비슷해보이는데?
- Zhao(2019)와 달리 이러한 필터는 all context utterances and all knowledge entries간의 global matching information 를 양방향으로 수집합니다.
- 특히 context 필터는 context가 knowledge을 참조하도록 하고 knowledge-aware context 표현을 유도합니다.
- 반면에 지식 필터는 동일한 global attention mechanism을 사용하여 context-aware knowledge representations을 유도합니다.
- 지식 항목은 서로 독립적이고 중복 항목은 응답 일치의 어려움을 증가시킬 수 있다는 점을 고려하여 지식 필터는 각 항목과 전체 컨텍스트 간의 유사도를 계산하여 결정된 관련 없는 항목을 버립니다.
- 과연 여기서는 grounding label이 없는데 어떻게 했을까?
- 둘째, 이 방법은 응답 후보와 {context, knowledge} 쌍 사이의 매칭 정도를 계산하기 위해 반복적으로 참조하는 네트워크를 설계합니다.
- 이 네트워크는 응답이 컨텍스트와 지식을 동시에 참조하는 이중 매칭 프레임워크(Gu et al., 2019b)를 따릅니다.
- AoA(Attention-over-Attention) 및 IoI(Interaction-over-Interaction) 모델에 대한 이전 연구에 영감을 받아 이 네트워크는 deep matching information를 도출하기 위해 참조 작업을 반복적으로 수행합니다.
- 특히, 각 반복의 출력은 다음 반복의 입력으로 활용됩니다.
- 그런 다음 모든 반복의 출력은 점수를 매기기 위해 matching feature vectors 세트로 집계됩니다.
- PERSONA-CHAT(Zhang et al., 2018a) 및 CMU DoG(Zhou et al., 2018a) 데이터 세트에서 제안된 방법을 평가합니다.
- 실험 결과에 따르면 FIRE는 PERSONA-CHAT 데이터 세트에서 원본 및 수정된 페르소나의 경우 각각 2.8% 및 4.1% 이상의 마진으로 이전 방법을 능가하고 CMU DoG 데이터 세트의 경우 top-1 accuracy 측면에서 3.1% 이상의 마진으로 두 작업 모두에서 새로운 최첨단 성능을 제공합니다.
- In summary, the contributions of this paper are three-fold.
- (1) A Filtering before Iteratively REferring (FIRE) method is proposed, which employs two filtering structures based on global and cross attentions for representing contexts and knowledge, together with an iteratively referring network for scoring response candidates.
- (2) Experimental results on two datasets demonstrate that our proposed model outperforms state-of-the-art models on the accuracy of response selection.
- (3) Empirical analysis further verifies the effectiveness of our proposed method.
2 Related Work
2.1 Response Selection
- 응답 선택은 검색 기반 챗봇을 구축하는 데 있어 중요한 문제입니다.
- 응답 선택에 대한 기존 작업은 단일 회전 대화(Wang 2013) 또는 다중 회전 대화 처리에 따라 분류할 수 있습니다.
- 최근 연구에서는 실제 적용을 위한 보다 실용적인 설정인 멀티턴 대화에 초점을 맞췄습니다.
- Wu는 순환 신경망에 의해 발화-응답 매칭 정보를 축적한 순차 매칭 네트워크(SMN)를 제안했다.
- Zhou et al. (2018b)는 스택형 self-attention을 사용하여 서로 다른 세분성에서 표현을 구성하기 위해 DAM(Deep Attention Matching Network)을 제안했습니다.
- Gu(2019a)는 컨텍스트와 응답 간의 양방향 및 글로벌 상호 작용을 수행하기 위해 IMN(Interactive Matching Network)을 제안했습니다.
- Tao(2019)는 여러 상호작용 블록을 쌓아 매칭을 수행하는 IoI(Interaction Over Interaction) 모델을 제안했습니다.
- Gu(2020a)는 사전 훈련된 언어 모델에서 화자 변경 정보를 모델링하기 위해 화자 인식 BERT(SA-BERT)를 제안했습니다.
2.2 Knowledge-Grounded Chatbots
- 잡담 모델은 일반적으로 매우 최근의 대화 기록만 주어진 상태에서 발언을 생성하도록 훈련되기 때문에 명시적 장기 기억이 부족합니다.
- 최근 일부 연구에 따르면 background 지식을 바탕으로 잡담 모델을 더 다양하고 매력적으로 만들 수 있습니다.
- Zhang(2018a)은 화자의 프로필 정보를 배경 지식으로 사용하는 PERSONA-CHAT 데이터 세트를 출시했습니다.
- Zhou(2018a)는 인기 영화에 대한 Wikipedia 기사를 배경 지식으로 채택한 CMU DoG 데이터 세트를 구축했습니다.
- Mazare(2018)는 Reddit 기반의 대규모 코퍼스를 사용하여 모델을 사전 훈련할 것을 제안했습니다.
- Zhao et al. (2019)는 각 컨텍스트 발화를 각 지식 항목과 융합하여 표현하는 DGMN(Document-grounded matching network)을 제안했습니다.
- Gu(2019b)는 응답과 컨텍스트 간, 응답과 지식 간의 상호작용적 매칭을 수행하는 이중 상호작용적 매칭 네트워크(DIM)를 제안했습니다.
- 본 논문에서 제안하는 FIRE 모델은 최첨단 DIM 모델을 크게 두 가지 개선한 것이다(Gu et al., 2019b).
- 첫째, 컨텍스트 필터와 지식 필터는 컨텍스트와 지식의 표현이 서로를 인식하도록 구축됩니다.
- 둘째, 반복적으로 참조하는 네트워크는 응답을 채점하기 위해 심층적이고 포괄적인 일치 정보를 수집하도록 설계되었습니다.
3 Task Definition
- 데이터 세트 D가 주어지면 예는 (c, k, r, y)로 표시됩니다.
- 구체적으로, c = {u1, u2, ..., unc }는 {um}을 발화로, nc를 발화 번호로 사용하는 컨텍스트를 나타냅니다.
- k ={e1, e2, ..., enk }는 {en}이 항목으로, nk가 항목 번호인 지식 설명을 나타냅니다.
- r은 응답 후보를 나타냅니다. y ∈ {0, 1}은 레이블을 나타냅니다.
- y = 1은 r이 (c, k)에 대한 적절한 응답임을 나타냅니다. 그렇지 않으면 y = 0입니다.
- 우리의 목표는 D로부터 매칭 모델 g(c, k, r)를 학습하는 것입니다.
- 모든 문맥 지식 응답 트리플(c, k, r)에 대해 g(c, k, r)는 (c, k)와 r 사이의 일치 정도를 측정합니다.
4 FIRE Model
- 그림 2는 제안된 모델의 개요 아키텍처를 보여줍니다.
- 1) 컨텍스트 발화, 지식 입력 및 응답은 먼저 문장 인코더에 의해 인코딩됩니다.
- 2) 그런 다음 컨텍스트와 지식은 서로 참조하여 공동 필터링됩니다.
- 이게 핵심인거 같음..
- 나머지는 사실 크게 다른점은 없어보임
- 3) 다음으로 응답은 필터링된 컨텍스트와 지식 표현을 반복적으로 참조합니다.
- 4) 각 iteration의 출력은 일치하는 특징 벡터로 aggregation되고 동시에 다음 반복의 입력으로 활용됩니다.
- 5) 마지막으로, 응답 후보를 채점하기 위해 모든 반복의 일치 기능이 누적됩니다.
- 자세한 내용은 다음 하위 섹션에 나와 있습니다.
4.1 Word Representation
- 우리는 DIM(Gu et al., 2019b)에 사용된 설정을 따릅니다.
- 이 설정은 일반적인 pre-trained word embeddings, task-specific training set에서 추정된 word embeddings, character-level embeddings을 결합하여 단어 표현을 구성합니다.
- out-of-vocabulary issue 를 처리합니다.
- 형식적으로, 컨텍스트에서 m번째 발화의 임베딩, knowledge description에서 n번째 항목 및 응답 후보는 Um = {um,i} , En = {en,j} 및 R = {rk}로 표시됩니다.
- 여기서 lum, len 및 lr은 각각 Um, En 및 R의 단어 수입니다.
- 각 um,i, en,j 또는 rk는 임베딩 벡터입니다.
4.2 Sentence Encoder
- 인코더는 모든 기존 인코딩 모델일 수 있습니다.
- 이 논문에서 context utterances, knowledge entries and response candidate는 양방향 장단기 기억(BiLSTM)에 의해 인코딩됩니다(Hochreiter 및 Schmidhuber, 1997).
- 지면이 협소하여 자세한 계산은 생략합니다.
- 그 후, U¯m = {u¯m,i}, E¯ n = {¯en,j} 및 R¯ = {¯rk}로 각각 표시된 발화, 항목 및 응답에 대한 인코딩된 표현을 얻을 수 있습니다.
- 각 um,i,¯en,j 또는 rk는 d 차원의 임베딩 벡터입니다.
- 이 세 가지 BiLSTM의 매개변수는 구현에서 공유됩니다.
4.3 Context and Knowledge Filters
- 그림 1에서 볼 수 있듯이 모든 컨텍스트 발화가 knowledge을 참조하는 것은 아니며 대화에서 모든 knowledge entry가 언급되는 것도 아닙니다.
- 지식에 기반한 대화와 대화에 기반한 지식을 이해하기 위해 FIRE 모델에 컨텍스트 필터와 지식 필터를 구축합니다.
- 이 두 필터는 context-aware knowledge 표현 C0 와 컨텍스트 인식 knowledge 표현 K0 을 얻습니다.
- 이는 응답과 일치시키기 위해 추가로 사용됩니다.
- Context Filter
- 이 필터는 먼저 whole context와 all knowledge entries 사이의 global attention에 의해 각 컨텍스트 토큰이 참조하는 knowledge 을 결정합니다.
- 그런 다음 relevant knowledge의 표현으로 각 컨텍스트 토큰의 표현을 향상시킵니다.
- 문장 인코더에 의해 인코딩된 일련의 발화 표현 {U¯m}이 주어지면, 우리는 그것들을 연결하여 lc = Pnc를 갖는 컨텍스트 표현 C¯ = {¯ci}를 형성합니다.
- 또한 lk = Pnk인 지식 표현 K¯ = {k¯ j}는 {E¯ n}을 연결하여 유사하게 형성됩니다.
- 그런 다음 각 튜플 {¯ci , k¯ j} 사이의 주의 가중치를 다음과 같이 계산하여 소프트 정렬을 수행합니다.
- relevance 표현 C~로 컨텍스트 표현 C-를 향상시키기 위해 {C- , C~} 사이의 element-wise difference and multiplication을 계산한 다음 원래 벡터와 연결합니다.
- 이 향상 작업은 다음과 같이 작성할 수 있습니다.
- 즉 기존의 context 표현 c-과, knowledge으로 강화한 표현 context 표현 c~을 이용해서 concat, element wise 뺄셈, 곱셈을 해서 C^을 만든다.
- Finally, we compress C^ and obtain the knowledge-aware context representation C¯0 as
- 위의 작업들을 요약하는 context filter operations을 다음과 같이 쓴다.
- where C¯ acts as the query, and K¯ acts as the key and value of the referring function respectively.
- 즉, 따로 레이블로 hard filtering이 아니라, soft filtering의 개념으로 attention weight가 약한 것들은 사용을 덜 하는 그런 개념
- Knowledge Filter
- 유사하게, 이 필터는 관련 컨텍스트의 표현으로 각 지식 토큰의 표현을 향상시킵니다.
- 컨텍스트 필터와 달리 entries이 서로 독립적이므로 컨텍스트와 관련성이 낮은 지식 entries을 직접 필터링하기 위해 additional selection operation이 수행됩니다.
- 먼저 위에서 소개한 참조 기능도 다음과 같이 수행되는데,
- K¯0' is the context-aware knowledge representation (이를 en-0'의 집합으로 표기)
- 또한 이 항목을 필터링할지 여부를 결정하기 위해 각 항목과 전체 대화 간의 관련성이 계산됩니다.
- 즉 여기서는 이를 바로 사용하지 않는데, 이유는 entries들이 서로 독립적이기 때문이라고 한다.
- 먼저 섹션 4.2에서 sentence encoder가 제공한 utterances 및 entries 의 표현에 대해 마지막 숨김 상태 풀링을 수행합니다.
- 그런 다음 {u¯m}을 포함하는 발화 및 {¯en}을 포함하는 항목을 얻습니다.
- 다음으로 각 발화 항목 쌍에 대한 관련성 점수를 다음과 같이 계산합니다.
- M ∈ R d×d is a matrix that needs to be estimated.
- 즉 여기서 u는 utterance embeding이고 e는 entry embedding이다.
- en entry라함은 knowledge description에서 n번째에 해당하는 것을 말한다.
- 각 항목과 전체 대화 간의 전체 관련성 점수를 얻으려면 집계 작업이 필요합니다.
- 여기서 우리는 하나의 항목이 대화에서 한 번만 언급된다고 가정합니다.
- 따라서 주어진 항목에 대해 대화와의 관련성 점수는 해당 항목과 모든 발화 간의 최대 관련성 점수로 정의됩니다.
- 수학적으로 우리는
- 여기서 σ는 시그모이드 함수이고 sgn은 부호 함수입니다.
- 즉, 발화와 knowledge entry와의 관계를 계산한다. (smn)
- 그 중 가장 관련이 크다고 판단된 entry에 해당하는 점수를 뽑는다. (sn)
- 이의 sigmoid 값이 특정값보다 크면, En-0'을 가져가고, 아니면 0으로 바꾼다.
- 즉 K¯0'이 필터링이 되는 부분
4.4 Iteratively Referring
- Zhao et al. (2019) 및 Gu et al. (2019b)는 컨텍스트와 응답 간의 참조 작업과 지식과 응답 간의 참조 작업이 모두 응답 선택에 유용한 일치 정보를 제공할 수 있음을 보여주었습니다. 그러나 각 응답 후보가 모델에서 컨텍스트 또는 지식을 한 번만 참조했기 때문에 이러한 방법으로 수집된 일치 정보는 매우 얕고 제한적이었습니다.
- 이 논문에서는 응답이 필터링된 컨텍스트와 지식을 반복적으로 참조하도록 하는 반복 참조 네트워크를 설계합니다.
- 각 반복은 이전 항목을 기반으로 추가 일치 정보를 캡처할 수 있습니다. 이러한 반복을 누적하면 응답 선택을 위한 심층적이고 포괄적인 일치 기능을 도출하는 데 도움이 될 수 있습니다.
- 컨텍스트-응답 일치를 예로 들어 보겠습니다. 여기에서 채택된 일치 전략은 두 시퀀스 간의 전역 및 양방향 일치를 고려합니다.
- 즉 4.3에서 context, knowledge관계를 통해 적당히 필터링하고, 이를 response와의 attention을 한다.
- 방식은 REFER인 것을 보아 4.3과 같아보이고, 이를 반복적으로 수행한다.
4.5 Aggregation
- 컨텍스트의 발화는 시간순으로 정렬되므로 발화 임베딩 {uu l m} nc m=1은 컨텍스트의 발화 순서에 따라 다른 BiLSTM으로 전송됩니다. 결합된 최대 풀링 및 마지막 숨김 상태 풀링 작업은 컨텍스트 임베딩 ¯c l 을 유도하기 위해 수행됩니다. 반면에 지식 항목은 서로 독립적이므로 주의 기반 집계는 지식 임베딩 k l 을 유도하도록 설계되었습니다. 독자는 Gu et al. 자세한 내용은 (2019b). l번째 반복의 일치하는 특징 벡터는 다음과 같이 컨텍스트, 지식 및 응답 임베딩의 연결입니다.
4.6 Prediction
- 각 일치하는 특징 벡터 ml는 MLP(다층 퍼셉트론) 분류기로 전송됩니다.
- 여기서 MLP는 l번째 반복에서 r과 (c,k) 사이의 매칭 정도 g l (c, k, r)을 예측하도록 설계되었다.
- 모든 응답 후보에 대한 확률 분포를 반환하기 위해 MLP에 softmax 출력 레이어가 채택되었습니다.
- 모든 L개의 일치하는 특징 벡터로부터 계산된 확률 분포는 순위를 위한 최종 분포를 도출하기 위해 평균화됩니다.
4.7 Model Learning
- Tao에서 영감을 얻은 FIRE의 모델 매개변수는 모든 반복에서 MLP의 교차 엔트로피 손실 합계를 최소화하여 학습됩니다.
- 이를 통해 각 일치하는 특징 벡터는 훈련 세트의 레이블에 의해 직접 감독될 수 있습니다.
- 또한 Szegedy에서 영감을 받아 모델이 과신하는 것을 방지하기 위해 모든 후보에게 작은 추가 신뢰도를 할당하여 레이블 평활화 전략을 사용합니다.
- Θ를 FIRE의 매개변수로 표시합니다.
- 학습 목표 L(D, Θ)은 다음과 같이 공식화됩니다.
5 Experiments
5.1 Datasets
5.2 Evaluation Metrics
- 우리는 이전 작업에서와 동일한 평가 메트릭을 사용했습니다(Zhang et al., 2018a; Zhao et al., 2019).
- 각 모델은 주어진 컨텍스트와 지식에 대해 사용 가능한 후보 중에서 k개의 가장 일치하는 응답을 선택하는 것을 목표로 했습니다.
- 그런 다음 R@k로 표시된 참 긍정 응답의 회수가 측정값으로 계산됩니다.
5.3 Training Details
- PERSONA-CHAT 및 CMU DoG 데이터 세트 모두에 대한 FIRE 교육을 위해 몇 가지 공통 구성이 다음과 같이 설정되었습니다.
- 최적화를 위해 Adam 방법(Kingma and Ba, 2015)을 사용했습니다. 학습률은 0.00025로 초기화되었으며 5000단계마다 0.96씩 기하급수적으로 감소했습니다.
- 0.2의 비율로 드롭아웃(Srivastava et al., 2014)이 단어 임베딩 및 모든 은닉 레이어에 적용되었습니다.
- 단어 표현은 300차원 GloVe 임베딩(Pennington et al., 2014), Word2Vec 알고리즘(Mikolov et al., 2013)을 사용하여 훈련 세트에서 추정된 100차원 임베딩 및 150차원 임베딩의 연결이었습니다.
- 50개의 필터로 구성된 CNN 네트워크에서 추정한 문자 수준 임베딩과 창 크기를 각각 {3, 4, 5}로 설정했습니다.
- 학습 중에 단어 임베딩이 업데이트되지 않았습니다.
- LSTM의 모든 숨겨진 상태에는 200개의 차원이 있습니다.
- 예측 계층의 MLP에는 ReLU(Nair and Hinton, 2010)가 활성화된 256개의 은닉 유닛이 있습니다. 레이블 평활화에 사용된 값은 0.05로 설정되었습니다.
- 검증 세트는 테스트에 가장 적합한 모델을 선택하는 데 사용되었습니다.
- 이 두 데이터 세트의 특성에 따라 일부 구성이 다릅니다.
- PERSONA-CHAT 데이터 세트의 경우 단어의 최대 문자 수, 문맥 발화의 단어, 문맥 발화, 응답 단어, 지식 항목의 단어 및 지식 설명 항목의 최대 문자 수 각각 18, 20, 15, 20, 15, 5로 설정되었습니다.
- CMU DoG 데이터 세트의 경우 이러한 매개변수는 각각 18, 40, 15, 40, 40 및 20으로 설정되었습니다.
- 문맥의 발화 수와 지식 설명의 지식 항목 수가 최대값 미만인 경우 Zero-padding이 채택되었습니다.
- 그렇지 않으면 마지막 컨텍스트 발화 또는 마지막 지식 항목을 유지했습니다.
- 배치 크기는 PERSONA-CHAT의 경우 16, CMU DoG의 경우 4로 설정되었습니다. 하이퍼 매개변수 γ는 그림 4와 같이 검증 세트에서 조정된 원본 페르소나의 경우 0.3, PERSONA-CHAT 데이터 세트의 수정된 페르소나의 경우 0.2, CMU DoG 데이터 세트의 경우 0.2로 설정되었습니다.
- iterations L은 PERSONA-CHAT 데이터 세트의 원본 및 수정된 페르소나에 대해 3으로 설정되었고, 그림 5와 같이 검증 세트에서 조정된 CMU DoG 데이터 세트에서 3으로 설정되었습니다.
- 모든 코드는 TensorFlow 프레임워크( Abadi et al., 2016) 그리고 우리의 결과를 복제하는 데 도움이 되도록 출판되었습니다.
5.4 Experimental Results
- 이 논문에서, 우리는 검색기반 챗봇에서 대화 에이전트의 background knowledge을 위해 Filtering before Iteratively REferring (FIRE)을 제안한다.
- 이 방법에서, context filter과 knowledge filter은 먼저 context and knowledge 의 representation을 서로서로 인식하게한다.
- 두 번째로, 반복적인 referring network는 response candidates을 점수내기위해 deep and comprehensive matching information을 수집하도록 설계된다.
- 실험 결과들은 FIRE가 두 개의 데이터세트에서 SoTA 성능을 달성함을 보여준다.
- 추후, 우리는 knowledge-grounded response selection을 위해 pretrained LMs을 우리의 제안한 방법과 결합하는 좀 더 좋은 방법을 탐구할 것이다.
Reference
댓글
댓글 쓰기