NL-123, Toward Improving Coherence and Diversity of Slogan Generation (2021, NLE)

◼ Comment

  • 논문 리뷰를 하면서 살펴보았다. (NLE에 억셉주었고 실제로 억셉되었다.)
  • 슬로건 생성이라는 테스크는 처음보지만, 과정은 data-to-text 생성분야하고 크게 다르지 않다.
  • 데이터 프리프로세싱 관점에서 컨트리뷰션이 있는거 같다.
    • HTML을 크롤링해서 전처리한 것인데.. 실제로 얼마나 퀄리티 있는지는 잘 모르고 앞으로의 인용수를 보면 되지 않을까? 싶다.
    • 뭐 유명한 방법이지만, delexcialization을 기억해두면 좋을거 같다.
  • NLI을 통해 평가하는 방법도 기억해두면 괜찮을 거 같다.
    • BERTScore 등과 비슷한 방법이나, supervised 학습 방법이다.

0 Abstract

  • 슬로건 생성의 이전 연구들은 기존의 slogans으로부터 추출된 slogan skeletons을 활용하는데에 집중했었다.
  • 생성된 일부 슬로건들이 눈에 띄지만, 그들은 다른 회사의 슬로건으로부터 추출된 스켈레톤들이기 때문에 마케팅 커뮤니케이션 전반에 걸쳐 회사의 초점이나 스타일과는 종종 연관성이 없는 경우가 있다.
  • 우리는 seq2seq transformer 모델을 제안하여 회사 설명으로부터 슬로건을 생성한다.
  • 슬로건 생성에 대해 finetune된 기본적인 seq2seq 모델은 잘못된 정보를 소개하는 경향이 있다.
  • 우리는 company name의 deleicalisation와 entity masking을 사용하여 이 문제를 최소화하고 생성된 슬로건의 퀄리티와 신뢰성을 향상시킨다.
  • 게다가, 우리는 첫 번째 단어의 POS tag을 기반으로 conitional training을 적용하여 의미론적으로 다양한 슬로건들을 생성한다.
  • 우리의 best 모델은 ROUGE-1/-2/-L F 1 score of 35.58/18.47/33.32을 달성한다.
  • 게다가, automatic과 human evaluations은 우리의 방법이 LSTM과 transformer seq2seq 베이스라인들보다 더욱 factual, diverse하고 눈에 띄는 슬로건들을 생성함을 가리킨다.

1. Introduction 

  • 광고들은 시장 기회들과 제품 기능들을 기반으로 생성된다.
  • 그들의 목적은 viewer의 관심을 끌고 그들을 원하는 action을 (스토어로가거나 온라인 광고를 클릭하는 것) 수행하도록 격려하는 것이다.
  • 슬로건들은 광고에서 중요 요소이다.
  • 심리학 및 마케팅 분야의 초기 연구에서 성공적인 슬로건은 간결하고 창의적이라는 것이 밝혀졌습니다.
  • 말장난, 은유, 운율 및 속담은 광고 헤드라인에 사용되는 인기 있는 수사적 장치 중 하나입니다.
  • 그러나, White가 말하길, 광고에서 창작 과정은 "엄격한 파라미터 내"라고 했다.
    • 즉, 슬로건은 창의성을 추구하기 위해 광고하는 제품/서피스로부터 너무 벗어나야하지 않는 것이다.
  • 또 다른 고려해야할 광고의 필요요소는 fatigue(피로)이다.
  • 광고의 효율성은 사용자가 반복적으로 볼수록 감소한다.
  • 이것은 광고주들이 개인화되고 상황에 맞는 광고들을 전달하도록 동기부여를 한다.
  • 광고주들은 12개의 대체 이미지를 손쉽게 제공하고 다른 광고 레이아웃을 사용하여 새로운 광고를 동적으로 생성한다.
    • 광고의 헤드라인은 보통 수동으로 구성해야한다.
  • Figure 1 shows sample ads composed by professional ad creative designers, each having a different image and ad headline.
  • 자동 슬로건 생성에서 이전의 연구는 기존의 슬론건들을 새로운 키워드나 구들로 바꿔서 하는 것으로 집중했었다.
    • 이 접근법은 생성된 슬로건들이 기존의 슬로건들로부터 추출된 스켈레톤에 의존함으로써 잘 구성화되고 매력적이다.
    • 즉, “The NN of Vintage” 스켈레톤은 제품이 훌륭함(우아함, 고귀함)을 표현한다.
    • 이것은 새로운 슬로건들 (“The Phone of Vintage” or “The Car of Vintage”)와 같이 인스턴스화할 수 있다.
  • 그러나, 스켈레톤은 인퍼런스 타임동안 가능한 슬롯들의 수를 기반으로 선택되고 이것이 회사 혹은 제품과 연관성이 있다는 보장을 하지 않는다.
    • 이 예제에서, 사람들이 vintage cars을 적절하다고 생각하지만, “The Phone of Vintage”의 구는 phone이 구식이라는 것을 암시하기 때문에 부정적인 의미를 가질 수 있다.
    • 이러한 미묘함은 품사 태그 시퀀스나 구문 구문 분석으로 표현되는 스켈레톤에서 포착할 수 없습니다.
  • 이 연구에서, 우리는 슬로건 생성 시스템의 일관성과 다양성의 향상에 집중한다.
  • We define coherence in two dimensions. 
  • 첫 째로, 생성된 슬로건들은 광고주의 온라인 커뮤니케이션 스타일과 컨텐츠와 일관되어야 한다.
    • 즉, 눈에 띄기는 하지만 말장나는 상해 법률 회사에 적절한 슬로건이 아닐 것이다.
    • 끝으로, 우리는 seq2seq transformer 모델을 제안해서 간단한 회사 설명으로부터 슬로건을 생성한다. (랜덤 슬로건 스켈레톤이 아닌)
  • 두 번 째 일관성 관점은 생성된 슬로건들이 신뢰할수 없는 정보를 담지 않고 있어야 한다. (예를들어, 회사의 이름 혹은 위치에 대한 오해)
    • 그래서 우리는 입력 시퀀스에서 회사의 이름과 엔티티들을 delexicalise하여 지원하지 않는 정보를 모델이 소개하는 것을 막는다.
  • 광고 피로와 개인화가 가능하게 하려면 다양한 슬로건을 생성해야한다.
  • 우리는 데이터세트에 있는 대부분의 슬로건이 그다지 눈에 띄지 않는 평범한 명사구임을 관찰했습니다.
    • 이것은 우리가 conditional 학습을 통해 구문 구조를 명시적으로 컨트롤하도록 동기를 부여하고, 이는 슬로건들의 다양성과 이해도를 향상시킨다.
  • 우리는 제안된 방법의 효과성을 양적/질적 평가를 통해 검증한다.
  • 우리의 가장 좋은 모델은 ROUGE-1/-2/-L F 1 score of 35.58/18.47/33.32을 달성한다.
  • 게다가, 포괄적인 평가는 또한 우리의 방법이 다양한 베이스라인들보다 신뢰할만하고 다양하고 주목할 슬로건들을 생성함을 밝힌다.
  • 메인 컨트리뷰션은 다음과 같다.
    • 1) transformer-based encoder-decoder 모델을 짧은 회사 설명으로부터 슬로건들을 생성하도록 적용한다.
    • 2) 간단하고 효과적인 접근법으로 슬로건의 신뢰성을 향상시켜 entity mention hallucination을 감소시킨다.
    • 3) 새로운 테크닉을 제안하여 슬로건을 구문적으로 다양하게 향상시킨다. (conditional training을 통하여)
    • 경쟁력있는 베이스라인과 벤치마크 데이터세트를 제공한다.

2. Related Work

3. Datasets

  • 대형 광고 에이전시에서는 수십만개의 ad 캠페인을 가지고 있을 것이고 오래된 광고와 슬로건들을 접근할 수 있겠지만, 이러한 데이터세트는 연구 커뮤니티에서는 사용할 수 없다.
    • 데이터의 개인정보때문에 미래에도 릴리즈되기는 어려울 것이다.
  • 반면에, 온라인 슬로건 데이터베이스와 (Textart.ru와 같은) 슬로건 허브들은 수백-수천개의 슬로건들을 가지고 있고, 이는 특정 도메인으로 제한하지 않는한, 일반적인 슬로건 생성 학습 데이터를 구성하기에 너무 적다.
  • 게다가, 이러한 데이터베이스는 회사 설명들을 포함하고 있지 않다.
    • 일부는 회사나 제품에 대응하는 것을 구체적으로 지정안한 슬로건들의 리스트들도 있다.
  • 그들은 아마도 슬로건 발화와 같은 언어 모델을 생성하는 것을 학습하는데 사용될 것이나, 이것은 우리가 생성된 슬로건의 컨텐츠를 컨트롤할 수 없기 때문에 실용적이지 못할 것이다.
  • 우리는 많은 회사 웹사이트가 회사 이름과 슬로건을 HTML 페이지 제목으로 사용하는 것을 관찰했습니다.
    • 예를 들어, “Skype | Communication tool for free calls and chat” 와 “Virgin Active Health Clubs - Live Happily Ever Active”. 이다.
    • 게다가, 많은 회사들은 또한 HTML tag의 "description" field에 간단한 설명을 제공한다.
  • 그래서, 우리의 모델의 입력과 출력 시퀀스는 잠재적으로 회사 웹사이트들로부터 크롤링될 수 있다.
  • 우리는 HTML tag에서 title와 description filed을 크롤링했다. (Beautiful Soup library h from the company URLs in the Kaggle 7+ Million Company Dataset i .)
    • 데이터세트는 추가적인 fields을 제공하나, 우리는 오직 회사 이름과 URL만 이 연구에서 사용한다.
    • The crawling took around 45 days to complete using a cloud instance with two vCPUs. 
    • Out of the 7M companies, we could crawl both the tag description and the page title for 1.4M companies. 
  • 데이터세트는 많은 노이즈를 가지고 있다. 왜냐하면 모든 회사가 HTML 페이지 title에 그들의 슬로건을 포함하고 있지 않기 때문이다.
    • 우리는 다양한 키워드, lexicographical, semantic rules을 기반으로 여러 cleaning/filtering steps을 수행한다.
    • The procedure is detailed in Appendix A. 
  • cleaning과 filtering steps 이후에, 모든 (description, slogan) 쌍의 수는 340k이고, 사용가능한 슬로건 데이터베이스보다 최소 2배이상 크다.
  • 우리는 validatoin과 test을 각각 대략 2%로 할당한다.
    • 남은 96%의 데이터는 학습에 쓰인다 (328k pairs)
    • The validation set contains 5,412 pairs. 
  • 테스트 세트의 경우 이 문서의 첫 번째 저자는 테스트 세트에서 처음 1,467개의 회사 슬로건을 수동으로 선별하여 1,000개의 그럴듯한 슬로건(68.2%)을 생성했습니다.
    • 그가 걸러낸 가장 빈번한 사례는 "Managed IT Services, Network Security, Disaster Recovery"와 같은 제품/서비스의 긴 목록이 포함된 매력적이지 않은 슬로건이다.
    • 즉 다음과 같은 케이스: delexicalised에 실패한 대체 회사 이름과 주소와 같은 기타 노이즈한 내용을 포함하는 HTML 제목.
  • 우리는 우리의 valdiation과 손수 작업한 test dataset을 미래의 비교를 위해 퍼블리시한다.
  • 우리는 학습 데이터세트에대한 데이터 분석을 통하여 데이터에 대해 더욱 잘 이해한다.
  • We first tokenise the dataset with BART’s subword tokeniser. 
  • Figure 2 shows the distribution of the number of tokens in slogans and descriptions.
    • description의 시퀀스 길이는 대략 정규분포이나, 슬로건의 길이는 약간 오른쪽으로 치우쳐있다.
    • 이것은 슬로건들이 보통 간결하거나 적은 단어들을 가지고 있기 때문일 것이다.
    • 우리는 분포에 의존하여 description의 최소한의 시퀀스 길이를 80으로 선택하고 슬로건은 20으로 선택한다. 
  • 학습 데이터세트는 149개의 유니크한 산업들의 회사들을 커버한다. (Kaggle 데이터세트의 'industry' field을 기반으로)
  • 그림 3은 각 산업에 속한 회사들의 수에 대한 분포이다. (log-10 scale)
    • As we can see, most industries contain between 10^2 (100) and 10^3.5 (3,162) companies. 
  • 테이블 1은 가장 빈번한 10개의 산업군에서 회사의 수와 그에 대한 %이다.
  • 많은 산업들의 많은 수의 데이터세트에 대해 학습된 모델은 다양한 입력을 관찰하면서 보지 않은 회사들을 일반화할 것이다.
  • 게다가, 우리는 다음의 질문들을 조사하여 테스크의 성격과 추상적임을 조사한다.
    • (1) 순수 추출 접근 방식을 사용하여 슬로건의 몇 퍼센트를 생성할 수 있습니까? 즉, 슬로건이 description에 포함되어 있습니까?
    • (2) 슬로건에 있는 유니그램 단어의 몇 퍼센트가 설명에서 발생합니까?
    • (3) description의 몇 퍼센트에 회사 이름이 포함되어 있습니까? (우리는 모든 슬로건에서 회사 이름을 제거했습니다).
    • (4) 슬로건과 설명의 몇 퍼센트가 엔티티를 포함합니까? 엔티티 유형은 무엇입니까?
    • (5) 슬로건의 엔터티의 몇 퍼센트가 설명에 나타나지 않습니다.
    • (6) 검증과 수동으로 선별된 테스트 세트 사이에 양적 차이가 있어 둘 중 하나를 더 어렵게 만드는가?
  • 먼저, 두 validation과 test set의 슬로건의 11.2%는 descriptions에 포함되어 있다. (우리는 이 때 대소문자를 무시함)
    • 이것은 대략적으로 슬로건의 90프로가 다른 방식의 abstraction을 요구한다는 것을 가리킨다.
  • 평균적으로 validateion set 슬로건들에서 word unigrams의 62.7%가 해당되는 descriptions에 포함된다. (test set에서는 59%이다.)
  • validation 및 test 세트의 description 중 63.1% 및 66.6%에 회사 이름이 포함되어 있습니다.
    • 이것은 회사들이 description에 그들의 name을 포함하는 경향이 있고, 이러한 규칙성을 활용할 필요가 있다.
    • 우리는 Stanza fine-grained NER을 사용한다, 이는 18 entity 타입을 가지고 있어서 descriptions과 slogans에서 모든 entities을 태깅한다.
  • Table 2 presents the percentage of text containing each type of entity k . 
    • Besides ORGANIZATION, the most frequent entity types are GPE , DATE , CARDINAL , LOCATION, and PERSON. 
  • 슬로건에서의 많은 엔티티들은 해당하는 description에서 나타나지 않는다.
  • 데이터 세트를 사용하여 seq2seq 모델을 훈련하면 추상적인 요약에서 일반적으로 관찰되는 개체 환각을 조장할 가능성이 있음을 시사합니다.
  • 우리는 표 3에서 서로 다른 경우에 속하는 샘플(설명, 슬로건) 쌍을 보여줍니다.
  • 테스트 데이터 세트를 더 어렵게 만들 수 있는 유일한 주목할만한 차이점은 검증 데이터 세트보다 설명에 발생하지 않는 유니그램 단어의 비율이 약간 더 높다는 것입니다(41% 대 37.3%).
  • 그러나 이 차이는 상대적으로 작으며 검증 데이터 세트에서 측정된 성능은 손으로 선별한 데이터 세트를 사용할 수 없을 때 신뢰할 수 있는 참고 자료라고 생각합니다.

4. Model 

  • 우리는 Transformer-based seq2seq 모델을 적용하여 슬로건들을 생성한다.
    • 모델의 입력은 짧은 회사 description이다. 
  • 우리는 (bidirectional encoder과 autoregressive decoder을 가진) BART 인코더 디코더 모델을 선택한다. (GPT?)
  • BART는 BERT와 같이 bidirectional context representation을 캡쳐하는 장점이 있고 특별히 language generation tasks에 강력하다.
  • 우리는 DIstilBART을 사용하고, 이느 6 layers의 인코더와 디코더들을 가지고 있고 230M 파라미터들을 가진다.
  • 모델은 BART-LARGE의 distilled 버전으로 허깅페이스 팀에서 학습되었고 구조는 BART-BASE와 동일하다.
  • 우리 애플리케이션은 웹 기반 사용자 인터페이스에서 실시간으로 다양한 슬로건을 생성해야 하기 때문에 생성 품질과 대기 시간의 균형을 맞추기 위해 이 비교적 작은 모델을 선택합니다.
  • 이 description에 해당하는 seq2seq 슬로건 생성은 추상적인 요약과 비슷하다.
    • 그래서, 우리는 모델의 weights을 CNN/DailyMail 데이터세트에서 학습된 요약 모델로부터 초기화한다. (비지도 학습 objective을 사용해서 pre-trained 모델대신)
    • 우리는, 마지막 두 번째 layer까지 (embedding layer을 포함해서) freeze시키고, 마지막 encoder와 decoder layer만 fine-tune한다.
  • 우리가 전체 모델을 fine-tune하지 않는 이유는 다음의 2가지이다.
    • 1) we do not want the model to unlearn its ability to perform abstractive summarisation 
    • 2) by freezing a large portion of the parameters, we require much less RAM and can train using a much larger batch size.

5. Generating Truthful Slogans

  • 2.3절에서 강조했듯이, 허위 또는 관련 없는 정보를 포함하는 슬로건을 생성하는 것은 자동 슬로건 생성 시스템에서 심각한 문제입니다. 
  • 이 섹션에서 우리는 생성된 슬로건의 품질과 진실성을 향상시키기 위한 두 가지 접근 방식, 즉 회사 이름을 용어 해독(섹션 5.1)하고 명명된 엔터티 마스킹(섹션 5.2)을 제안합니다.

5.1 Company Name Delexicalisation

  • 슬로건들은 간결해야하고 불필요한 정보를 포함하지 않아야 한다.
  • 우리는 모든 슬로건들에서 회사 이름을 삭제하는 프리프로세싱을 했음에도 불구하고, 우리는 baseline seq2seq 모델은 종종 description으로부터 회사이름을 복사하여 slogan을 생성한다.
  • 테이블 4는 seq2seq 모델에 의해 이러한 생성된 예제를 보여준다.
    • 두 예제는 title을 대소문자로 바꾸는 것을 제외하고는 추출된 것으로 보인다.
    • 두 번째 예제는 특별히 반복적이나 그럴싸한 슬로건이 아니다.
  • 섹션 3에서 보여주듯이, description의 60%가 넘게 회사 이름을 포함한다.
    • 그래서 이 문제를 해결하는 방법은 필수적이다.
  • 우리는 간단한 대처법으로 모델이 회사 이름을 포함하는 슬로건을 생성하는 것을 막는다.
    • descriptions에서 언급된 company name을 delexicalsing하고 그들을 일반적인 mask token으로 대체한다.
  • 모델이 슬로건을 생성하고 난 후, 모든 mask token은 원래 surface text으로 대체된다.
  • 우리는 delexicalisation인 2가지 방법으로 모델을 도운다고 가정한다.
    • 먼저, 이것은 모델이 회사 이름을 생성하는 것을 피하게 한다. (입력 시퀀스에서 마스킹해서)
    • 둘 째로, 마스크 토큰은 모델이 주변 context에 집중하기 쉽게 만들고 슬로건을 생성하기 위해 중요한 정보를 선택할 수 있다.
  • 회사 이름은 새 광고주가 계정에 등록할 때 필요하기 때문에 시스템에서 쉽게 사용할 수 있습니다.
  • 그러나, 우리는 회사들이 종종 그들의 official/legal 이름대신에 줄임말을 사용하는 것을 안다.
    • 예로는 거의 독점적으로 "Google LLC"은 "Google"이라고 하고 종종 "Prudential Assurance Company Singapore(Pte) Limited"은 "Prudenti"라고 한다.
    • 따라서 description 에서 발생하는 회사 이름의 가장 긴 prefix 단어 시퀀스를 마스크 토큰으로 대체합니다.
    • 프로세스는 알고리즘 1에 설명되어 있습니다(간단함을 위해 회사 이름에서 대/소문자를 처리하는 세부 사항과 구두점을 생략합니다).
  • delexicalised text 외에도, 알고리즘은 또한 delexicalised company name의 surface text을 리턴하고, 이는 인퍼런스동안 mask을 replace할 것이다.
  • 이것은 또한 좀 더 정교한 delexicalisation 접근법이 사용가능한다. (knowledge base 혹은 company directory (Crunchbase와 같은)와 같은 것에 의존해서 회사 이름을 대체할 것을 찾는 등) 
  • 그러나 간단한 대체 알고리즘은 우리의 사용 사례로 충분합니다.
  • Table 5 shows an example description before and after delexicalisation.

5.2 Entity Masking

  • 슬로건에서 회사 이름을 포함시키는 거 보다 연관없는 엔티티들을 도입하는 것이 좀 더 어려운 챌린지이다.
    • 이것은 abstractive summarisation 쪽에서 entity hallucination이라고 부른다.
  • 최근 human study에서, Gabriel은 entity hallucination이 transformer encoder-deocder 모델이 만들어내는 factual errors의 흔한 타입이라고 말한다.
  • 우리는 먼저 Stanza을 사용하여 named entity tagging을 descriptions과 slogans에 대해서 수행한다.
  • 우리는 Table2을 기반으로한 description들과 slogan들 둘다 최소한 1%에 존재하기 때문에 다음의 entity type들을 (GPE , DATE , CARDINAL , LOCATION, and PERSON) 제한한다. (즉 이를 마스킹한다는뜻?)
  • 추가적으로, 우리는 NORP (nationalities/religious/political group)을 포함한다. 왜냐하면 슬로건에서 이 타입의 엔티티가 많은 확률로 description에 대응되서 나타나기  때문이다.
  • 우리는 많은 단어들이 ORGANIZATION으로 잘못 태깅되는 것을 관측했고, 이는 슬로건들과 descriptions들이 종종 대문자인 경우가 많기 때문이다.
    • 그래서, 우리는 ORGANIZATION가 가장 흔한 엔티티 타입이지만 이를 제외한다.
  • 각 (설명, 슬로건) 쌍 내에서 각 엔터티 유형에 대한 숫자(counter)를 유지 관리합니다.
  • 우리는 각각의 새로운 엔터티를 같은 엔터티 유형의 모든 이전 엔터티와 비교합니다.
    • 만약, 이전의 엔티티의 substring이라면, (그 반대도) 우리는 새로운 엔티티를 이전의 엔티티의 ID로 할당한다. (테이블 6보면 됨)
    • 그것이 아니라면, 우리는 counter을 증가시키고 새로운 ID을 획득한다.
  • 우리는 만약 첫 번째 엔티티라면 유니크한 mask token [entity_type]으로 바꾸고, 그 이후에는 [entity_type id]으로 바꾼다.
    • 우리는 reverse mapping을 저장하고 mask tokens을 생성된 슬로건에서 기존 entity mention으로 바꾼다.
  • 우리는 또한, simple rule-based post-processing을 적용한다.
    • 또한 누락된 경우 닫는 괄호(']')를 완성하고 매핑에 없는 잘못된 마스크 토큰 및 마스크 토큰을 제거하는 등 간단한 규칙 기반 후처리를 적용합니다.
  • 실험 동안, 우리는 우리가 기존의 upper-cased entity type names을 사용할 때, seq2seq 모델이 이상한 토큰들인 [gPE], [GPA]을 생성하는 경우가 있음을 관측했다.
    • 그래서, 우리는 tag names을 lower-cased word로 매핑하고, 이는 싱글 토큰으로 구성된다.
    • 우리가 사용하느 매핑은 {GPE:country, DATE:date, CARDINAL:number, LOCATION:location, PERSON:person, NORP:national}이다.
  • table 6은 entity masking 과정의 예제를 보여준다. 
  • 표 2에서 볼 수 있듯이, 슬로건에서 상당한 비율의 엔티티가 설명에 존재하지 않습니다.
  • 설명에서 슬로건의 엔터티를 찾을 수 없는 경우 교육 데이터 세트에서 (설명, 슬로건) 쌍을 삭제합니다.
  • 이 절차는 훈련 데이터의 약 10%를 제거하지만 모델이 조작된 엔터티 대신 소스 설명에 있는 엔터티를 생성하도록 권장합니다.
  • 다른 모델과 결과를 비교할 수 있도록 검증 및 테스트 세트에 필터링을 적용하지 않습니다.

6. Generating Diverse Slogans With Syntactic Control

  • 광고 피로를 피하고 개인화를 하는데 있어서 다양한 슬로건을 생성하는 것은 중요하다.
  • 그러나, 우리는 입력 description이 주어지면, 우리의 모델이 서로서로 비슷한 슬로건들을 생성하는 경향을 관측했다. 마치 몇 개의 단어들을 바꾸거나, 약간 다른표현을 사용하는 것처럼..
  • 게다가, 출력들은 종종 눈에띄지 않는 간단하고, noun phrases이다.
    • 이유를 조사하기 위해, 우리는 part-of-speech (POS) tagging을 우리의 학습 데이터세트에서 모든 슬로건들에 대한 태깅을 수행한다.
  • Table 7 shows the most frequent POS tag sequences among the slogans o . 
    • 상위 50개 POS 태그 시퀀스 중 하나만(#46) 명사구가 아닙니다(VB PRP$ NN, 예: Boost Your Business).
    • 즉 학습 데이터세트의 슬로건들이 대부분 명사구로 이루어진 것
    • 이것은 우리가 구문 제어를 이용하여 생성된 슬로건의 다양성을 증가시킬 동기가 된다.
  • CTRL으로부터 영감을 받아, 우리는 P(slogan|description)부터 P(slogan|description , ctrl) 으로 생성을 바꾼다.
    • 즉 추가적인 구문 제어 코드를 조건으로 한다.
    • (집합의 크기) cardinality를 작게 유지하기 위해 슬로건의 첫 번째 단어의 거친 POS 태그 p를 컨트롤 코드로 사용합니다.
  • 추가적으로, 우리는 형용사와 부사를 합치고 자주 나타나는 5개의 tags에 포함되지 않는 모든 POS tags을 합친다.
    • Table 8 shows the full list of control codes.
    • fine-grained POS 태그 또는 태그 시퀀스를 컨트롤 코드로 사용할 수 있지만 long-tail 분포가 있으며 많은 값에는 모델이 학습하기에 너무 적은 소수의 예제만 있습니다.
  • Munigala은 우리와 비슷한 아이디어를 적용해서 verb을 시작으로 설득력있는 텍스트를 생성하였다.
    • 그러나 동사로 시작하는 일반 언어 모델을 제한하는 규칙을 적용합니다.
  • 우리는 conditional training을 적용해서 다양한 POS tags에 속하는 단어들을 시작으로 슬로건의 특성을 학습한다.
    • 우리는 컨트롤 코드를 입력 시퀀스 앞에 special token으로 붙여서 컨트롤 코드와 입력 시퀀스를 분리한다.
    • 우리는 학습동안 타겟 시퀀스로부터 도출해낸 컨트롤 코드를 사용하는 반면에, 인퍼런스때는 우리는 컨트롤 코드들을 무작위로 샘플링해서 다양한 슬로건들을 구문적으로 생성한다.
  • Our method differs from Keskar et al. (2019) in two slight ways: 
    • 1) CTRL uses an autoregressive transformer similar to GPT-2 (Radford et al. 2019) while we use an encoder-decoder transformer with a bi-directional encoder. 
    • 2) The control codes were used during pretraining in CTRL while we prepend the control code only during fine-tuning for slogan generation.

7. Experiments

  • 제안된 방법에 대한 포괄적인 평가를 수행합니다.
  • 섹션 7.1에서는 정량적 평가를 수행하고 제안된 방법을 ROUGE -1/-2/-L F1 점수 측면에서 다른 규칙 기반 및 인코더 디코더 기준과 비교합니다.
  • 섹션 7.2에서 더 큰 모델의 성능을 보고합니다.
  • 특히 섹션 7.3 및 섹션 7.4에서 생성된 슬로건의 진실성과 다양성을 연구합니다.
  • 마지막으로 섹션 7.5에서 세분화된 인간 평가를 수행하여 모델에서 생성된 슬로건의 품질을 추가로 검증합니다.
  • Hugging Face 라이브러리(Wolf et al. 2019)에서 DistilBART 및 BARTLARGE 구현을 사용하고 교육 배치 크기는 DistilBART의 경우 64, BARTLARGE의 경우 32입니다.
  • 우리는 워밍업(He et al. 2019)과 1e-4의 최대 학습률과 함께 코사인 감쇠 학습률을 사용합니다.
  • 학습률은 Fastai의 학습률 측정기로 선택됩니다(Howard and Gugger 2020).
  • 우리는 세 epoch 동안 모든 BART 모델을 훈련합니다. 우리의 관찰에 따르면, 모델은 약 2-3 에포크 내에서 수렴합니다.
  • We use greedy decoding unless otherwise mentioned. 
  • We also add a repetition penalty θ = 1 .2 following Keskar et al. (2019).

7.1 Quantitative Evaluation

  • 데이터 세트의 각 입력 설명에 대해 단일 참조 슬로건만 있으므로 다양성 평가는 섹션 7.4로 남겨두고, 이는 다양한 슬로건을 생성하는 시스템에 불이익을 줄 것입니다. 
  • 제안된 방법을 다음 5가지 기준과 비교합니다.
    • first sentence: 
      • 설명에서 첫 번째 문장을 슬로건으로 예측하는 것은 간단하지만 놀랍게도 문서 요약에 경쟁력이 있습니다(Katragadda et al. 2009). 첫 번째 문장을 추출하기 위해 Spacy 라이브러리 q의 문장 분할기를 사용합니다.
    • first-k words: 
      • 설명에서 첫 번째 k 단어를 슬로건으로 예측합니다. 검증 데이터 세트에서 가장 높은 ROUGE-1 F 1 점수를 산출하는 k를 선택합니다. 설명의 첫 번째 문장이 일반적으로 일반적인 슬로건보다 훨씬 길기 때문에 이 기준선을 추가합니다.
    • Skeleton-Based (Tomašic et al. 2014): 
      • 유전자 알고리즘과 다양한 휴리스틱 기반 스코어링 기능을 이용한 스켈레톤 기반 슬로건 생성 시스템 훈련 데이터 세트에서 임의의 호환 가능한 슬로건 골격을 샘플링하고 회사 설명에서 추출한 키워드로 슬로건을 구현합니다. 우리는 Tomašic et al을 따릅니다. (2014)의 구현을 밀접하게. 그러나 자주 사용되는 문법적 관계에 대한 데이터베이스와 미국현대영어 코퍼스에서 파생된 빅그램 함수는 자료가 부족하여 생략한다.
    • Encoder-Decoder (Bahdanau et al. 2015): 
      • 강력하고 다양한 GRU 인코더-디코더 베이스라인. Misawa et al.과 동일한 하이퍼 매개변수를 사용합니다. (2020) 모델을 직접 비교할 수 있도록 재구성 손실 및 복사 메커니즘을 제거합니다. 특히 이 모델에는 양방향 인코더와 자동 회귀 디코더 모두에 대해 단일 은닉 레이어가 있습니다. 레이어 사이에 0.5의 드롭아웃을 적용합니다. 임베딩 차원과 은닉 차원은 각각 200과 512이며 어휘에는 30K 가장 자주 사용되는 단어가 포함됩니다. 임베딩 행렬은 무작위로 초기화되고 모델과 함께 학습됩니다. 우리는 학습률이 1e-3인 Adam 옵티마이저를 사용하고 10 Epoch 동안 훈련합니다(Encoder-Decoder 모델은 모델이 무작위로 초기화되기 때문에 변환기 모델보다 수렴하는 데 더 많은 Epoch가 소요됨).
    • Pointer-Generator (See et al. 2017): 
      • 알 수 없는 단어를 처리하는 복사 메커니즘이 있는 인코더-디코더 모델. Misawa et al. (2020) 재건 손실이 제거되었습니다.
    • Misawa et al. (2020):
      • 슬로건 생성을 위한 GRU 인코더-디코더 모델로, 고유한 슬로건을 생성하기 위한 추가 재구성 손실과 알려지지 않은 단어를 처리하기 위한 복사 메커니즘.
  • 표 9는 검증 및 수동으로 선별된 테스트 데이터 세트 모두에 대한 다양한 모델의 ROUGE -1/-2/-L 점수를 보여줍니다.
  • 첫 번째 k 단어 기준선은 슬로건과 설명이 어느 정도 겹치는 정도를 보여 합리적인 성능을 달성했습니다.
  • 그림 4는 k를 변경하여 첫 번째 k 단어 기준선의 ROUGE F 1 점수가 어떻게 변하는지 보여줍니다. k가 클수록 더 좋다는 것은 분명합니다.
    • k가 범위 (9, 12)에 있을 때 최고의 ROUGE 점수를 얻습니다.
    • 첫 번째 k 단어 기준선은 잘림으로 인해 불완전한 구문을 출력할 수 있지만 첫 번째 문장 기준선보다 더 높은 ROUGE 점수를 달성했습니다.
  • 스켈레톤 기반 방법은 모든 베이스라인 중 가장 성능이 좋지 않았다.
    • 설명에서 중요한 키워드를 복사하는 경우가 많지만 POS 시퀀스 및 종속성 구문 분석 골격에 의존하고 컨텍스트를 무시하기 때문에 비문법적이거나 무의미한 출력을 생성하기 쉽습니다.
  • 세 개의 GRU 인코더-디코더 기준선을 비교하면 Pointer-Generator의 복사 메커니즘이 ROUGE 점수를 일관되게 개선했음이 분명합니다.
  • 그러나 Misawa et al. (2020) 성능이 저하되는 것 같습니다.
  • 우리는 슬로건이 입력 설명보다 훨씬 짧다고 가정합니다.
  • 따라서 슬로건에서 설명을 재구성하면 모델이 중요하지 않은 입력 단어에 주의를 기울일 수 있습니다.
  • 전반적으로 Pointer-Generator 기준선의 성능은 첫 번째 k 단어 기준선과 동등하지만 변압기 기반 모델과 비교할 때 희미합니다.
  • delexicalization과 엔티티 마스킹은 모두 DistilBART의 성능을 더욱 향상시켰습니다.
  • 최종 모델은 큐레이트된 테스트 세트에서 ROUGE -1/-2/-L 점수 35.58/18.47/33.32를 달성하여 ROUGE 점수에서 거의 10% 정도 최고의 GRU 인코더-디코더 모델을 능가했습니다.
  • 표 10은 무작위로 샘플링된 회사 설명에서 생성된 슬로건을 보여줌으로써 다양한 모델의 행동에 대한 보다 직관적인 개요를 제공합니다.
  • 첫 번째 k 단어 기준선은 때때로 원래 슬로건과 상당한 단어 중복이 있지만 그 스타일은 종종 슬로건과 다릅니다.
  • Pointer-Generator와 DistilBART는 때때로 유사한 슬로건을 생성합니다.
    • 그러나 Pointer-Generator는 세 번째 예에서와 같이 반복을 생성하는 경향이 있습니다.
    • 또한 훨씬 더 많은 환각을 나타냅니다. 첫 번째 예에서 회사는 멕시코 레스토랑입니다.
    • Pointer-Generator가 생성한 슬로건은 유창하지만 전혀 관련이 없습니다.
  • 마지막 예에서는 학교의 위치를 ​​환각하고 DistilBART는 정확한 정보를 보존했습니다.
    • 그냥 DistilBART 아케틱쳐의 효과라고 볼 수도 있을듯
  • 요약 모델로 그냥 돌린 결과는? / 요약 모델을 초기값으로 사용안했을 때는?

7.2 Larger Model Results

  • Lewis et al. (2020) 및 Zhang et al. (2020a), 더 큰 모델인 BARTLARGE의 성능을 보고합니다. 
  • DistilBART와 비교하여 BARTLARGE는 더 많은 레이어(L: 6 → 12)와 더 큰 숨겨진 크기( H: 768 → 1024)를 모두 가지고 있습니다. 
  • 우리는 DistilBART와 같은 정확한 교육 절차를 따릅니다. 
  • 표 11은 DistilBART와 BART-large의 성능을 비교합니다.
    • GPT2의 방식은?
    • delex + ent 보다 아키텍쳐의 힘이 더 큰거?
    • 그렇다면, 베이스라인보다 좋은건 당연한거아닌가.
  • 우리는 BART-LARGE가 약 2% ROUGE 점수만큼 더 작은 DitilBART 모델보다 성능이 떨어지는 것을 관찰하고 놀랐습니다. 
  • 훈련 중에 BART-LARGE는 DistilBART보다 훈련 손실이 낮았지만 검증 손실은 거의 같은 값으로 안정되어 큰 모델이 훈련 데이터를 과적합하는 경향이 더 높을 수 있음을 시사합니다. 
  • 우리는 광범위한 하이퍼파라미터 튜닝을 수행하지 않았고 DistilBART와 동일한 학습률을 사용했습니다. 
  • DistilBART가 이 작업에 더 적합하다고 결론을 내릴 수는 없지만 더 큰 모델을 사용한다고 해서 항상 성능이 향상되는 것은 아닙니다.

7.3 Truthfulness Evaluation 

  • 이 섹션에서는 섹션 5에서 제안한 방법이 실제로 진실성을 개선했는지 검증하기 위해 자동 진실성 평가 메트릭을 사용합니다.
  • 섹션 2.3에서 간략히 설명한 것처럼 자동 진실성 평가 메트릭에는 주로 entailment, information extraction, and QA의 세 가지 범주가 있습니다.
    • 1) 최근 벤치마크(Pagnoni et al. 2021)를 기반으로 한 인간 판단과 가장 높은 상관 관계를 산출하고, 
    • 2) 슬로건이 종종 매우 짧고 때로는 술어를 포함하지 않아, QA 기반 접근 방식에 대한 질문을 자동으로 생성하고 정보 추출 기반 접근 방식에 대한 추출(주제, 동사, 목적어) 튜플을 생성하는 것을 불가능하게 만듭니다.
  • 우리가 사용하는 첫 번째 모델은 Maynez et al.에 이어 Multi-Genre NLI(MNLI) 데이터 세트(Williams et al. 2018)에서 미세 조정된 수반 분류기입니다. (2020).
    • 그러나 BERT-LARGE(Devlin et al. 2019) 대신 미세 조정된 RoBERTa-LARGE 체크포인트(Liu et al. 2019)를 사용합니다. 
    • MNLI 데이터 세트(90.2 vs. 86.6)에서 더 높은 정확도를 달성했기 때문입니다.
    • 입력된 설명과 생성된 슬로건 간의 함축 확률을 계산하여 진실성을 측정합니다.
  • 우리가 사용하는 두 번째 모델은 생성된 요약이 소스 문서와 일치하는지 예측하는 사전 훈련된 FactCC(Kryscinski et al. 2020) 분류기입니다.
    • 엔티티 또는 대명사 스왑과 같이 수동으로 정의된 규칙을 사용하여 참조 요약에 노이즈를 추가하여 합성된 대규모 세트에서 훈련되었습니다.
    • FactCC는 Pagnoni et al에서 가장 성능이 좋은 메트릭입니다. (2021)의 벤치마크입니다. 그것은 또한 자동 진실성 평가 메트릭으로 여러 후속 작업에서 사용되었습니다(Dong et al. 2020; Cao et al. 2020).
  • 우리는 진실성을 측정하기 위해 "일관된" 범주에 대한 예측 확률을 사용합니다.
  • 표 12는 검증 및 테스트 데이터 세트 모두에 대한 평균 수반 및 FactCC 점수를 나타냅니다.
  • 두 메트릭 모두 우리가 제안한 방법이 강력한 통계적 유의성을 가진 DistilBART 기준선보다 입력 설명과 함께 더 진실한 슬로건을 산출함을 시사합니다.
  • 섹션 7.1의 결과와 비교하여 제안한 방법과 기준 DitilBART 모델 사이에 더 큰 격차가 있습니다. 
    • ROUGE와 같은 n-gram 오버랩 메트릭은 로컬 사실 오류에 그다지 민감하지 않기 때문일 수 있습니다. 
    • 예를 들어 참조 시퀀스가 "뉴질랜드의 디지털 마케팅 회사"이고 예측 시퀀스가 "뉴 컬럼비아의 디지털 마킹 회사"라고 가정하면 83.3/80.0/의 높은 ROUGE-1/-2/-L 점수를 받게 됩니다. 83.3. 
  • 그러나 수반 및 사실성 모델은 그러한 사실적 불일치를 식별하고 매우 낮은 점수를 할당합니다.
  • 그러면 여기서 BART-LARGE는?

7.4 Diversity Evaluation

  • 6장에서는 제어 코드를 이용하여 구문적으로 다양한 슬로건을 생성하는 방법을 제안하였다.
  • 먼저 제어 코드가 생성에 효과적인지 여부를 평가하고자 합니다.
  • 생성된 슬로건의 첫 번째 단어가 특정 POS 태그와 일치하는 빈도를 측정하는 ctrl 정확도를 계산합니다.
    • 테스트 세트의 각 입력에 6개의 제어 코드를 각각 적용하고 greedy 디코딩을 사용하여 다양한 슬로건을 생성합니다.
  • 그런 다음 생성된 슬로건에 POS 태깅을 적용하고 6절과 동일한 방법으로 첫 번째 단어의 거친 POS 태그를 추출합니다.
    • 거친 POS 태그가 지정된 제어 코드와 일치하면 성공한 것으로 간주합니다. 
  • 표 13은 각 제어 코드에 대한 ctrl 정확도를 나타냅니다.
  • 훈련 데이터 세트의 제어 코드 분포는 표 8과 같이 매우 왜곡되어 있습니다.
    • 가장 빈도가 높은 코드(NN)는 가장 빈도가 낮은 코드(OTHER)보다 27배 더 많은 데이터를 포함합니다.
    • 따라서 NN 이외의 코드를 사용하여 예제를 100k로 무작위로 업샘플링하여 또 다른 실험을 수행했습니다.
    • 그런 다음 총 훈련 단계를 대략적으로 동일하게 유지하기 위해 3개의 epoch 대신 1개의 epoch 동안 훈련했습니다.
    • 결과를 표 13의 두 번째 행에 표시합니다. 
  • 게다가 nucleus 샘플링(Holtzman et al. 2019) 기준선과 비교합니다.
    • 우리는 Holtzman et al.에 따라 topp = 0.95를 사용합니다. (2019) 인간의 당혹감 t에 맞게 조정되었기 때문입니다.
    • 우리의 방법으로 동일한 수의 슬로건(6개)을 생성하고 그 결과를 표 13의 세 번째 행에 제시합니다.
    • nucleus 샘플링은 제어 코드를 조건으로 하지 않기 때문에 ctrl 정확도는 우리 방법과 직접 비교하기 위한 것이 아니라 조건부 훈련 없이 무작위 기준선으로 사용됩니다.
  • 다양성을 다음과 같이 계산합니다. 동일한 입력에서 생성된 각 슬로건 세트에 대해 총 토큰 및 고유 토큰 수를 계산합니다.
    • 우리는 하위 단어 토큰화 대신 Spacy의 단어 토큰화를 사용합니다.
    • 또한 모든 단어를 소문자로 처리하므로 단순히 대소문자를 변경하는 것만으로는 다양성에 포함되지 않습니다.
    • 각 세트의 다양성 점수는 고유 토큰의 총 수를 총 토큰 수로 나눈 값입니다. (이게 정말 diversity을 나타내는가?, 이상적인 점수는 어떻게 판단하는가? 꼭 높다고 좋은게 아닌것처럼, godl references의 diversity는 어떻게 되는가? 이것과 비교해보면 대략적인 감이 있을거 같다.)
    • 전체 테스트 세트에 대한 다양성 점수를 평균화하여 최종 다양성 점수를 생성합니다.
    • 100%에 가까운 다양성 점수는 중요한 키워드와 중지 단어가 다양한 슬로건에서 발생하고 발생해야 하기 때문에 비현실적입니다.
    • 그러나 1/6에 가까운 다양성 점수(16.67%)는 모델이 거의 동일한 슬로건을 생성하고 다양성이 거의 없음을 나타냅니다.
    • 결과는 우리의 방법이 제어 코드 JJ 및 VB를 제외하고 완벽한 ctrl 정확도에 근접했음을 보여줍니다.
  • PR 및 OTHER와 같은 일부 제어 코드는 예가 훨씬 적지만 가능한 값도 적고 형용사 및 동사보다 배우기 쉽습니다(예: 대명사 수가 제한됨).
    • 강력한 구문 제어 정확도는 사전 훈련된 언어 모델이 내부적으로 언어적 특징을 포착한다는 최근 연구의 발견을 검증했습니다(Tenney et al. 2019; Rogers et al. 2020). 
    • 업샘플링은 컨트롤 정확도나 다양성 모두에 도움이 되지 않는 것 같습니다.
    • 우리의 방법과 비교할 때 nucleus 샘플링은 다양성이 훨씬 낮습니다.
  • 상위 p 어휘 중에서 샘플링을 수행하지만 분포가 정점에 도달하면 거의 항상 동일한 단어를 샘플링합니다. 
    • 온도를 1.0 이상으로 높이면 잠재적으로 다양성이 증가할 수 있지만 생성 품질과 일관성이 손상됩니다(Holtzman et al. 2019).
    • 또한, 우리는 입력 설명에 없는 생성된 슬로건 토큰의 수를 생성된 슬로건 토큰의 수로 나눈 추상성을 테스트 세트의 모든 후보 및 예제에 대해 평균화하여 계산합니다.
    • 다양성에 대한 최적화의 부산물로서 우리 모델이 훨씬 더 추상적임을 알 수 있습니다.
    • 마지막으로 생성된 슬로건 u의 품질을 수동으로 평가하도록 주석가를 초대합니다.
  • 테스트 세트에서 무작위로 50개 회사를 샘플링하고 제안된 방법과 핵 샘플링에서 생성된 6개의 슬로건을 얻어 300개의 슬로건 쌍을 얻습니다.
    • 그런 다음 어노테이터에게 어떤 슬로건이 더 나은지 표시하도록 요청합니다("결정할 수 없음" 옵션 사용).
    • 위치 편향을 제거하기 위해 슬로건의 순서를 무작위로 지정했습니다. 
    • 부록 C에 주석 UI를 제시하고 표 14에 주석 결과를 제시한다.
  • "NN"을 제외한 모든 제어 코드는 p = 0.05인 nucleus 샘플링 기준선보다 훨씬 더 나은 슬로건을 산출했습니다. 
    • "NN"이 데이터 세트에서 가장 일반적이고 제어 코드 "NN"을 사용하면 욕심 많은 디코딩 또는 핵 샘플링과 유사한 출력이 생성되기 때문에 예상됩니다.
  • Munigala et al. (2018)은 동사로 시작하는 문장이 더 설득력이 있으며, 다른 POS 태그로 시작하는 문장도 슬로건에 바람직한 특성을 가질 수 있다고 주장했습니다.
    • 예를 들어, 형용사로 시작하면 더 생생합니다. 
    • 한정자로 시작하면 더 확고해집니다. 
    • 대명사로 시작하면 더 개인화됩니다.
    • 놀랍게도 애노테이터는 많은 롱테일 POS 태그를 묶음에도 불구하고 제어 코드 "OTHER"로 생성된 슬로건을 높게 평가했습니다.
    • 이게 정말 영향이 있는 수준인가?
  • "OTHER" 제어 코드는 종종 질문 단어, 서수(예: "#1") 또는 전치사 "for"(예: "For All Your Pain Relief Needs")로 시작하는 슬로건을 생성합니다.
    • 독자에게 시스템 동작을 더 잘 이해할 수 있도록 표 15에 서로 다른 제어 코드로 생성된 시스템 샘플을 제시합니다.
    • 슬로건의 첫 번째 단어가 제어 코드에 지정된 POS 태그와 항상 일치하지 않을 수 있음을 알 수 있습니다.
  • 그러나 생성된 슬로건은 구문 구조와 내용 모두에서 다양하다.
    • 더 다양하고 고품질의 슬로건을 생성하는 것 외에도 nucleus 샘플링에 대한 접근 방식의 또 다른 주요 이점은 순전히 임의성에 의존하는 대신 생성된 슬로건의 구문 구조를 더 많이 제어할 수 있다는 것입니다.

7.5 Human Evaluation

  • 이전 섹션에서 수행한 평가를 기반으로 섹션 5와 6에서 소개한 모든 방법, 즉 회사 이름 해독, 엔티티 마스킹 및 첫 번째 슬로건 토큰의 POS 태그를 기반으로 한 조건부 교육을 최종 모델에 포함합니다.
    • 참조 슬로건이 엔티티 마스크 토큰으로 시작하는 경우를 커버하기 위해 추가 제어 코드 "ENT"를 통합합니다. 
    • 7.4절의 결과를 기반으로 추론 시간 동안 집합 {JJ, VB, DT, PR, OTHER}에서 제어 코드를 무작위로 샘플링합니다.
    • 마지막으로 5.2절에서 설명한 대로 최종 슬로건을 생성하기 위해 입력 설명에서 유도된 역 사전을 사용하여 슬로건(있는 경우)의 엔티티 마스크 토큰을 교체합니다.
  • 테스트 세트에서 무작위로 50개 회사를 샘플링하고(섹션 7.4의 샘플과 다름) 우리 모델에서 예측된 슬로건과 함께 첫 번째 문장, 스켈레톤 기반, 포인터 생성기 및 DistilBART의 다른 4가지 기준을 얻었습니다.
    • 따라서 총 250개의 슬로건을 평가해야 합니다.
  • 우리는 두 명의 인간 주석가를 초대하여 세 가지 세부적인 측면인 일관성(coherence), 잘 형성됨(well-formedness), 캐치니스(catchiness)를 기반으로 독립적으로 슬로건에 점수를 매겼습니다.
    • 그들은 각 측면에 대해 1-3(나쁨, 수용 가능, 좋음)의 척도로 점수를 할당합니다.
    • 애노테이터가 슬로건이 설명과 일치하는지 여부를 평가할 수 있도록 슬로건과 함께 입력 설명을 표시합니다.
  • 또한 위치 편향을 제거하기 위해 슬로건의 순서를 무작위로 지정합니다.
  • 주석 지침은 부록 B에 표시되고 주석 UI는 부록 C에 표시됩니다.
  • Cohen의 카파 계수를 사용하여 주석 간 일치를 측정합니다(Cohen 1960).
    • Coherence, well-formedness, catchiness에 대한 κ 값은 각각 0.493(보통), 0.595(보통), 0.164(약간)입니다.
    • "catchiness" 측면은 훨씬 더 주관적이기 때문에 κ 값이 낮습니다.
    • 일반적으로 주석가는 매력적이지 않은 슬로건에 동의하지만, 이해도에 대한 기준은 다른 경향이 있습니다. 할당된 점수가 1(나쁨)일 때 일치도가 높은 그림 5를 설명할 수 있습니다.
    • 그러나 애노테이터 1에 점수 1(나쁨)을 할당하고 애노테이터 2에 점수 2(허용)를 할당한 예가 많이 있습니다.
  • 주석이 반대 레이블을 할당한 슬로건은 19개(7.6%)에 불과합니다.
    • 따라서 우리는 낮은 일치가 주로 주석 노이즈보다는 개인차에 기인한다고 생각합니다.
    • 두 애노테이터가 할당한 점수의 평균을 구하고 그 결과를 표 16에 제시합니다.
  • 첫 번째 문장 기준선은 낮은 잘 구성과 캐치니스 점수를 받았습니다.
  • 앞서 언급했듯이 설명의 첫 문장은 일반적인 슬로건보다 훨씬 길어서 슬로건의 간결함을 만족시키지 못하는 경우가 많습니다. Lucas(1934)는 슬로건이 길수록 기억에 잘 남지 않고 매력적이라는 사실을 관찰했는데, 이는 낮은 캐치도 점수로 입증됩니다.
    • 스켈레톤 기반 접근 방식은 첫 번째 문장 기준선에 대한 캐치도를 합리적인 마진으로 개선했습니다.
    • 하지만 스켈레톤의 한계로 인해 가장 낮은 완성도 점수를 받았고, 가끔 비문법적이거나 무의미한 슬로건을 생성하기도 했다.
    • 또한 LSTM 또는 Transformer seq2seq 모델보다 일관성 점수가 훨씬 낮습니다. 
    • 이는 무작위 슬로건 골격에 의존하는 대신 seq2seq 프레임워크를 적용하는 주요 동기입니다.
  • Pointer-Generator 기준선은 모든 측면에서 이전 두 기준선을 능가했습니다.
    • 한편으로는 현대 딥 러닝 모델의 기능을 보여줍니다.
    • 반면에 단어 중복 기반 평가 지표의 한계를 드러냅니다.
  • 섹션 7.1에서만 보고된 ROUGE 점수를 기반으로 하면 첫 번째 문장 또는 첫 번째 k 단어 기준선에 대한 포인터 생성기 모델의 우월성을 결론지을 수 없습니다.
    • DistilBART 모델은 Pointer-Generator 기준선보다 특히 잘 형성됨 측면에서 더욱 향상되었습니다.
    • 이는 광범위한 사전 교육과 문법적이고 사실적인 텍스트를 생성하는 능력 때문일 수 있습니다.
  • 우리가 제안한 방법은 DistilBART와 유사한 일관성 및 잘 형성된 점수를 받았습니다. 
    • 그러나 포착도에서 다른 모든 방법을 크게 능가했습니다.
    • 일관성의 개선이 통계적으로 유의미하지는 않지만 반드시 delexicalization 및 엔티티 마스킹 기술이 도움이 되지 않는다는 것을 의미하지는 않습니다.
  • 섹션 7.4에서 논의한 바와 같이, 우리의 방법은 훨씬 더 다양한 슬로건을 생성하고 생성은 DistilBART 기준선보다 훨씬 더 추상적입니다.
    • 이전 작업은 추상성과 진실성 간의 균형을 강조했습니다(Durmus et al. 2020).
    • 우리가 제안하는 방법은 진실성과 다양성을 개선하기 위한 접근 방식을 결합하여 진실성이나 정형성을 희생하지 않으면서 더 눈에 띄고 다양한 슬로건을 생성합니다.

9. Conclusion 

  • 이 작업에서는 회사 설명을 입력으로 하는 seq2seq transformer 모델을 사용하여 슬로건 생성을 모델링합니다.
  • 생성된 슬로건과 회사의 마케팅 커뮤니케이션 간의 일관성을 보장합니다.
  • 또한, 생성된 슬로건의 truthfulness을 향상시키기 위해 회사명 delexicalisation 및 엔티티 마스킹을 적용했습니다.
  • 또한 더 다양한 슬로건을 생성하기 위해 간단한 conditional 훈련 방법을 도입했습니다.
  • 우리 모델은 수동으로 선별된 슬로건 데이터 세트에서 35.58/18.47/33.32의 ROUGE -1/-2/-L F1 점수를 달성했습니다.
  • 종합적인 평가를 통해 제안한 방법이 보다 truthful되고 다양한 슬로건을 생성하는 것으로 나타났습니다.
  • 인간 평가를 통해 우리 시스템에서 생성된 슬로건이 다양한 기준선보다 훨씬 더 눈에 띄는 것으로 확인되었습니다.
  • 진행 중인 작업으로 style (Jin et al. 2020) 및 sentence parse (Sun et al. 2021)과 같은 제어 가능한 다른 측면을 탐색하고 있습니다.
  • 또한 광고에서 본문으로 사용할 수 있는 더 긴 텍스트(Hua et al. 2021)를 생성하도록 방법을 확장하는 작업도 진행 중입니다.

Reference

댓글