NL-170, Label Noise in Context, ACL demo 2020

◼ Comment

  • 이 논문은 레이블링된 데이터에서 노이즈 데이터를 검출하는 것을 설명한다.
  • 직관적인 아이디어는, 일단 그냥 기존 데이터로 분류기를 학습시킨다.
  • 그리고 분류기로, 학습 데이터를 다시 인퍼런스 시킨다.
    • 그러면 정확도가 100이 아니기 때문에, 분류기의 예측 결과와 주어진 레이블이 다른 경우가 존재할 것이다.
    • 그렇다면 뭔가 이상한 예제라는 것이다. (이것을 의심스러운 예제라고 표현)
    • 왜냐하면 분류기는 데이터 전체로 학습되기 때문에 전체적인 데이터 분포? 통계를 학습할텐데
    • 그 통계, 분포에서 벗어난 학습 샘플이라는 것이기 때문..
    • 분류기 하나로만 하면 애매하니까 여러 분류기를 학습시켜서 앙상블로 사용한다.
  • 이렇게 예측 클래스와 실제 클래스가 다르다고 무조건 필터링 시키는 것은 아니다.
    • 일단 먼저, 각 데이터 샘플을 사전 학습된 모델로 인코딩시킨다.
    • 인코딩된 벡터를 기반으로 각 데이터에 대해 주변 데이터를 찾는다.
    • 코사인 유사도로 모든 데이터쌍을 계산하고, 유사도 높은 데이터가 이웃이라고 간주하는 것이다.
    • 아무튼 의심스러운 예제가 있을 때, 이 주변의 예제(데이터)를 봐서 모두 같은 레이블로 지정되면 이는 의심스러운 것은 아니라는 것이다.
    • 즉 의심스러운 예제이면서 + 주변의 데이터와 다른 레이블을 가진다? --> 의심스러운 예제니까 재태깅해야한다! 이런 느낌이다.
  • 이 과정속에서 재태깅할 예제는 주변의 데이터로부터 수정할 레이블을 보여줄 수도 있고
    • 어떠한 예제들이 비슷한 것인지 보여주기 때문에 제안한 noise 필터링 알고리즘이 설명이 가능하다고 언급한다.
  • 약간 논문적으로는 태클 걸 부분이 꽤 있다고 생각한다.
    • 코사인 유사도를 구하기 위해, 발화 임베딩 (USE) 알고리즘이 신뢰할만한가?
    • 학습데이터로 학습하고 학습데이터로 다시 인퍼런스하여 의심예제를 찾는 뭔가 이상한 느낌?
    • 데모 논문이기도 하고, 이 분야는 처음이라 잘못 이해한 부분이 있을 수 있지만, 컨셉만 기억하고 넘어가자!

0 Abstract

  • label noise
    • 부정확하고 애매하게 레이블링된 학습샘플들을 의미
    • 이는 모델 성능에 부정적인 영향을 끼칠 수 있다.
  • noise detection 테크닉은 수십년동안 사용되어왔지만, 실무자들은 manual noise 개선은 지루한 프로세스이기 때문에 그들을 드물게 적용한다.
  • 예제들은 부정확하게 noise로 잘못 플래그된 예제들은 리뷰어들의 시간을 낭비하게하고, 가이던스없이 label noise을 수정하는 것은 어려운 일이다. 
  • 우리는 LNIC을 제안한다.
    • noise-detection 방법으로 학습 세트사이의 예제의 neighborhood을 사용하는 것이다.
    • (a) reduce false positives and 
    • (b) provide an explanation as to why the example was flagged as noise. 
  • 우리는 여러 short-text classification datasets에서 LNIC가 precision과 F0.5-score의 측정에서 SoTA보다 뛰어남을 입증한다.
  • 우리는 LNIC의 학습 세트 컨텍스트가 리뷰어가 understand하고 데이터세트의 label noise을 수정하는 데 어떻게 도움되는지 보여준다.
  • LNIC tool은 레이블 노이즈 수정에 대한 장벽을 낮추어 NLP 실무자를 위한 유용성을 높입니다.

1 Introduction 

  • 레이블 노이즈(훈련 세트에서 레이블이 부정확하거나 모호한 예)는 학습된 모델의 성능을 저하시켜 부정확한 예측을 초래합니다(Frenay and Verleysen 2014).
  • 자동화된 데이터 수집은 noisy 데이터 세트를 생성할 위험이 있으며, 사람이 주석을 달면 주의나 전문성 부족으로 인해 노이즈가 발생할 수 있습니다.
  • Automatic noise-detection algorithms은 훈련 세트를 분석하고 레이블이 잘못 레이블링될 가능성이 있는 "의심스러운(suspicious)" 예제들에 플래그를 지정합니다(Brodley 및 Friedl, 1999; Frenay 및 Verleysen, 2014).
  • 의심스러운 예는 삭제되거나 알고리즘에 의해 자동으로 수정되거나 사람이 검토할 수 있습니다.
  • Human review는 이러한 mitigation 옵션 중 가장 효과적이지만 비교적 비용이 많이 듭니다.
  • 사람이 검토하는 데 시간이 많이 소요되는 두 가지 문제, 즉 false positives와 a lack of explanation이 있습니다.
  • False positives은 노이즈로 잘못 플래그가 지정된 예입니다. 
    • 이러한 예를 검토하는 것은 애노테이터의 시간을 낭비합니다.
  • reviewer에게 설명 없이 의심스러운 예를 보여주는 것은 가장 간단한 경우에 효과적이지만 데이터에 대한 더 깊은 이해가 필요한 명확하지 않은 노이즈의 일반적인 경우에는 difficulty과 frustration을 유발할 수 있습니다.
    • 현재까지 사람의 review를 염두에 두고 설계된 노이즈 감지 알고리즘은 거의 없습니다.
    • 즉, 알고리즘으로 레이블이 잘못됐을거 같은 의심스러운 예제를 찾는다.
    • 이를 사람이 검토하면 좋긴하지만, 데이터에 대한 이해가 필요한 (전문영역) 경우엔 이 또한 어렵다.
    • 또한 false positive, lack of explanation에 의해 사람의 검토가 시간이 많이 든다.
    • 실제로 사람의 리뷰를 염두에 두고 설계된 노이즈 알고리즘은 거의 없기도 하다.
  • Sluban은 human review process에 사용하기 위한 노이즈 감지 알고리즘이 정확성을 강조해야 한다는 사실을 인식한 유일한 작업입니다 (즉, reduce the proportion of false positives).
  • 그러나 우리는 감지된 label noise의 설명 가능성을 해결하는 기존 작업을 알지 못합니다.
    • 이게 왜 label noise 인지를 설명하는 알고리즘?
  • 우리는 Label Noise in Context 시스템 혹은 LNIC을 소개하고, 이는 precision과 explainability 모두를 향상시키기 위해 학습 세트에서 의심스러운 예제들을 둘러산 neighborhood을 사용한다.
    • 데이터세트의 similarity 매트릭스를 계산함으로써, 우리는 이상한 예제의 neighborhood을 식별할 수 있고 nearest-neighbors classifier와 유사한 방법으로 falsse positives을 필터링한다.
  • 간단한 휴리트식의 셋을 같은 similarity matrix에 적용하는 것은 우리가 훈련 세트 컨텍스트를 구성할 수 있게 한다. (테이블1)
  • 고립된 상태에서 볼 때, 스포츠 클래스에 속하는 것으로 표시된 달리기 능력에 대한 예는 명백히 잘못된 것이 아닙니다.
    • 그러나 피트니스 클래스에 유사한 예가 더 많기 때문에 어노테이터가 그녀가 그것을 보고 있다는 것을 이해하면 더 나은 레이블이 있다는 것이 분명해집니다.
    • 즉, 고립된 샘플로 보면 꼭 틀렸다고 볼 수 있는 예제는 아니지만, 다른 예제들을 보면 달리기는 피트니스 클래스로 레이블링 되어있는 것이 더 많기 때문에.. 피트니스로 바꿔야한다?
  • The main contributions of this work are 
    • 우리는 LNIC의 nearest-neighbors-based 알고리즘으로 자동으로 검출된 label noise의 precision과 explainability을 향상시키는 것을 설명한다. (섹션 3)
    • 우리는 noise 검출이후 neigborhood-based 필터링이 5개의 short-text 분류 데이터세트에서 SoTA보다 precision과 F0.5을 향상시킴을 보여준다. (섹션 4, 5)
    • 우리는 context에서 noise을 리뷰하기 위한 LNIC 툴을 소개하고, label noise을 수정하고 이해하기 위한 설명의 가치를 보여준다.
    • 데모 비디오는 https://www.youtube.com/watch?v=20cigQaCc_k
    • live 웹 데모는 http://lnic.mybluemix.net/

2 Related Work 

  • Noise Detection. 
    • Frenay와 Verleysen은 레이블 노이즈를 감지하고 해결하는 다양한 접근 방식에 대한 포괄적인 조사를 수행했습니다. 
    • 많은 작업에서 모델 성능을 향상시키기 위해 레이블 노이즈 제거를 옹호합니다.
    • Teng(2000)은 자동 재라벨링을 옹호하는 반면, 다른 사람들은 인간 참여 루프 및 하이브리드 기술의 사례를 제시합니다.
    • 우리와 동시대 작업에서 Northcutt(2019)는 분류기의 신뢰도가 낮은 예를 제거합니다.
    • 가장 직접적으로 관련된 작업은 Brodley와 Friedl(1999)로 분류기의 앙상블에서 예측을 사용하여 노이즈 감지 방법을 설명하고 Sluban(2010)은 High Agreement Random Forest(HARF) 시스템을 제안했습니다.
    • 두 시스템 모두 섹션 3.1에 자세히 설명되어 있습니다. 
    • Brodley와 Friedl(1999)은 의심스러운 예를 삭제했지만 대신 향후 작업으로 수정을 제안합니다.
    • Sluban(2010)은 인간이 모든 의심스러운 사례를 검토할 때 노이즈 감지의 정확도가 중요하다고 지적합니다.
    • Garcia(2016)의 실험은 HARF가 다양한 데이터 세트에서 최첨단 F1 점수를 달성했음을 보여줍니다.
  • Active Learning 
    • 레이블 노이즈 수정과 유사하게 active learning(Settles, 2014)은 모델 성능을 개선하기 위해 데이터 레이블 지정 활동에 사람이 소비해야 하는 노력을 최소화하려고 합니다.
    • 그러나 active learning은 다음에 레이블을 지정할 가장 유익한 레이블이 지정되지 않은 데이터를 선택하는 것을 목표로 하는 반면, 레이블 노이즈 감지는 추가 labeling 노력이 필요할 수 있는 이미 레이블이 지정된 데이터를 식별합니다.
    • 강력한 모델 개선 흐름 내에서 함께 짜여질 수 있는 보완 기술로 활성 학습 및 레이블 노이즈 감지를 고려합니다.
    • 기술 수준에서 일부 활성 학습 및 레이블 노이즈 감지 기술은 similar foundations을 기반으로 합니다.
    • Query By Committee(QBC)(Seung 1992) active learning은 분류기의 앙상블을 사용하여 앙상블이 레이블 지정에 동의하지 않는 예를 선택합니다.
    • 유사하게 앙상블 기반 노이즈 감지 알고리즘은 앙상블이 일치하는(하지만 주어진 레이블에 동의하지 않는) 예제를 선택합니다.
    • 최소 신뢰도, 마진 및 엔트로피와 같은 많은 효과적인 활성 학습 전략을 뒷받침하는 모델 불확실성은 cleanlab(Northcutt, 2019)과 같은 라벨 노이즈 감지 방법의 기초이기도 합니다.
  • Explainability. 
    • 점점 더 복잡해지는 분류 모델의 등장으로 분류기 예측을 설명하는 것이 많은 관심을 받았습니다.
    • 아마도 가장 잘 알려진 시스템은 LIME(Ribeiro 2016)일 것입니다.
    • LIME 작성자는 분류기 예측을 설명하면 인간의 신뢰가 높아지고 모델을 개선하는 데 사용할 수 있는 통찰력을 제공한다고 언급했습니다.
    • 특정 예에 대한 분류기의 예측을 설명하기 위해 알고리즘은 근처의 예와 이에 대한 모델의 예측을 수집합니다.
    • 이 데이터의 더 간단한 표현에 대해 선형 모델을 훈련하여 분류기의 결정에서 중요한 단어 또는 슈퍼 픽셀을 나타낼 수 있습니다.
    • NLP 및 기계 학습의 수많은 최근 작업은 설명 가능성을 강조합니다.
    • Dhurandhar(2018)는 예를 할당된 클래스로 밀어내는 포지티브 기능과 그 부재로 인해 예가 다른 클래스에 배치되는 것을 방지하는 네거티브 기능으로 분류기 예측을 설명했습니다.
    • Lei(2016)는 감정 예측 및 유사한 질문 검색 작업에 대한 근거를 생성하기 위해 생성기와 인코더를 공동으로 훈련했습니다.
    • Mullenbach(2018)는 컨볼루션 신경망을 사용하여 특허 발생에 대한 임상 메모가 주어진 환자의 진단 및 치료를 설명하는 코드를 예측했습니다.
    • 그들의 어텐션 메커니즘은 시스템의 정밀도와 F1을 향상시켰을 뿐만 아니라 각 코드와 가장 관련성이 높은 텍스트를 강조했습니다.
    • Chiyah Garcia(2018)의 시스템은 전문가가 생성한 의사 결정 트리와 일련의 템플릿을 사용하여 자율 수중 차량이 수행하는 작업과 그 이유에 대한 자연어 설명을 생성했습니다.
    • 설명 가능한 모델에 대한 관심에도 불구하고 우리가 알고 있는 어떤 작업도 감지된 레이블 노이즈를 설명 가능하게 만들려고 시도하지 않았습니다.

3 Algorithms 

  • LNIC는 3단계 프로세스를 사용합니다.
  • 첫째, 노이즈 감지 알고리즘은 의심스러운 예제에 플래그를 지정합니다.
  • 둘째, neighborhood-based 필터는 이러한 예제 중 무시할 예제와 사람의 검토를 위해 표시할 예를 결정합니다.
  • 마지막으로 사용자에게 표시할 neighbors을 선택하는 규칙을 사용하여 컨텍스트를 생성합니다.

3.1 Noise-Detection Algorithms 

  • LNIC의 noise-detection phase는 어떠한 noise-dection 알고리즘을 사용할 수 있다.
  • 여기서 우리는 문헌으로부터 3개의 앙상블 알고리즘을 리포트한다.
    • consensus 
    • agreed correction
    • HARF (Sluban et al., 2010).
  • 앙상블 노이즈 검출 알고리즘은 학습 세트의 cross-validation splits에 대해 여러 분류기들을 학습한다.
  • 각 분류기는 left-out (남겨진) 예제들을 위한 레이블들을 예측한다.
  • 예측된 레이블은 예제에 대한 분류기의 "투표"이다.
  • 현재 레이블과 일치하는 경우 분류자는 예제가 의심스럽지 않다고 투표했습니다. 
    • 그렇지 않으면 분류자가 그렇다고 투표했습니다. 
    • 주어진 레이블이 있고, 분류기가 판단한 레이블이랑 다르면 의심스러운 것?
    • 근데 분류기는 기존의 레이블로 학습된 것인데..
    • 분류기는 어쨌든 전체 샘플을 기준으로 학습되니, 전체적인 통계에서 벗어난 녀석이 의심스러운 것으로 본다는 느낌일듯
  • Brodley와 Friedl(1999)의 consensus algorithm에서 모든 투표가 예제가 의심스럽다는 데 동의하면 알고리즘은 해당 예를 의심스럽다고 표시합니다.
  • agreed correction variant은 앙상블의 모든 투표가 예시가 잘못 표시되었을 뿐만 아니라 올바른 라벨이 무엇인지에 동의해야 합니다.
  • HARF는 랜덤 포레스트가 결정 트리의 앙상블이라는 사실에 의존합니다. 
    • 대다수의 트리가 의심스러운 것으로 투표하면 예제를 의심스러운 것으로 표시합니다.

3.2 Neighborhood Filtering 

  • Neighborhood filtering은 노이즈로 잘못 플래그가 지정된 예의 수를 줄입니다.
  • 예제의 대부분의 neighbors에 해당 예제와 동일한 레이블이 있는 경우 해당 예제에 레이블이 올바르게 지정된 것이므로 LNIC는 의심스러운 예제 목록에서 해당 예제를 필터링합니다.
    • 어떤 샘플에 대해, 그 근처의 샘플들과 레이블이 같다면, 이 샘플은 제대로 레이블링 된 것이다.
    • 따라서 해당 샘플은 의심스러운 예제에서 제외한다. (아니라는 것)
  • neighborhood 필터는 학습 데이터에 있는 모든 예제의 쌍별로 cosine similarity을 계산한 다음 각 의심스러운 예제 s에 가장 가까운 k개의 이웃을 찾습니다. 
    • 여기서 k는 조정 가능한 하이퍼 매개변수입니다.
    • 각 샘플간의 주변 샘플이란 것을 알기 위해, 샘플들의 쌍별로 코사인 유사도를 계산한다. 
    • 그래서 k개가 주변 예제로 보는 것. (k개는 하이퍼파라미터)
    • 근데 여기서 어떤 벡터를 기준으로 유사도를 계산하는거지?
  • s의 현재 레이블 yc가 해당 neighbors 중에서 가장 일반적인 경우, s는 의심스러운 예제 풀에서 false positive으로 필터링되고, 그렇지 않으면 사람의 검토를 위해 s가 표시됩니다.
    • 의심스러운 예제가 3.1에서 검출됐을 때, 위 말대로 주변 샘플들의 레이블과 일치하다면 의심스러운 예제가 아닌 것으로 판명
    • 그런게 아니라면 의심스러운 예제이기 때문에 사람의 검토를 위해 flag처리한다.
  • LNIC는 기능 이웃 또는 활성화 이웃에 대한 필터링을 지원합니다.
  • feature neighborhood은 original feature vector(여기서는 USE 임베딩(Cer et al., 2018))를 사용하여 각 예를 나타냅니다.
    • USE 임베딩이 각 샘플의 벡터를 나타내는 것?
  • activation neighborhood은 전체 데이터 세트에 대해 훈련된 neural classifier의 최종 계층 활성화를 사용하여 훈련 세트의 각 예를 나타냅니다. 
    • 아이디어는 훈련 예제들을 classification space에 투영하는 것입니다.
    • activation neighborgood란 발화의 임베딩을 activation 이후의 벡터를 사용해서 구한 이웃이란 듯

3.3 Context Generation  

  • LNIC 알고리즘의 마지막 단계는 neighborhood에 휴리스틱을 적용하여 training 세트 컨텍스트를 생성하는 것입니다.
    • 컨텍스트를 어떻게 생성한다는 것이지? --> 아래
  • 이 컨텍스트는 
    • (a) 의심스러운 예제에 대해 더 나은 레이블로 제안된 noise-detection 앙상블의 클래스와 
      • 의심스러운 예제한테 더 나은 레이블로 제안된 noise-detection 앙상블 클래스를 보여준다.
    • (b) 현재 클래스와 제안된 클래스에서 가장 유사한 예를 보여주는 설명 역할을 합니다.
      • 실제 클래스와 제안된 클래스 사이에서 가장 유사한 예제들을 보여준다.
      • 제안된 클래스란 noise-detection 앙상블 클래스를 의미하는 것일듯
      • 즉 이렇게 의심 예제에 대해, 제안할 수정 레이블과 그 수정 레이블에서 가장 유사한 예들을 보여주는데, 이 예제가 컨텍스트라는 것
  • 노이즈 감지 알고리즘의 앙상블은 각 의심스러운 예에 대한 예측 레이블 목록을 생성합니다.
    • 의심스러운 예제라는 것은, 분류기가 실제 레이블과 다른 레이블로 예측했다는 것이고, 이 예측 레이블 목록을 보여준다?
  • 이러한 레이블과 예제의 현재 레이블은 해당 예제에 대해 허용된 레이블을 구성합니다.
  • 휴리스틱은 의심스러운 예에 가장 가까운 각 허용된 레이블에서 예를 선택합니다.
  • 허용된 레이블이 k개 미만인 경우(여기서 k는 원하는 컨텍스트 크기임) 허용된 레이블에서 나머지 k - n개의 가장 가까운 이웃을 선택하여 컨텍스트의 균형을 채웁니다.
  • 활성화 이웃과 기능 이웃 모두를 기반으로 설명을 작성합니다. 
  • 활성화 컨텍스트에 이미 나타나는 예는 기능 컨텍스트에서 생략되고 다음으로 가장 가까운 이웃으로 대체됩니다.
  • 그림 4와 5는 이러한 상황 설명의 예를 보여줍니다.

4 Experiments

  • 우리는 노이즈 감지 후 이웃 기반 필터를 추가하면 진정한 노이즈 예제를 유지하면서 오 탐지 비율을 줄일 수 있다는 가설을 세웁니다.
  • 우리는 데이터 세트에 노이즈를 주입하고 데이터 세트에 대해 알고리즘을 실행하고 올바르게 플래그가 지정된 의심스러운 예제를 측정하여 이를 테스트합니다.

4.1 Datasets  

  • 표 2에 나열된 짧은 텍스트 분류 데이터 세트를 평가합니다.
  • 평가의 1단계에서는 데이터 세트를 효과적으로 "손상"시키는 레이블 노이즈를 도입합니다.
  • 도입된 레이블 노이즈의 양은 잘못된 레이블로 설정된 훈련 세트의 비율로 해석되는 오류율 매개변수에 의해 제어되었습니다.
  • 레이블 노이즈를 도입하기 위해 무작위 및 차선책이라는 두 가지 전략을 사용했습니다. 둘 다 라벨을 잘못 지정할 교육 데이터의 무작위 샘플을 선택했습니다.
  • 임의 전략은 선택된 각 예에 임의의 잘못된 레이블을 할당했습니다.
  • 차선책 전략은 전체 열차 세트에서 훈련된 분류기에 의해 예측된 대로 "차선" 잘못된 레이블을 할당했습니다. 이것은 혼란스러운 인간 레이블러가 수행할 수 있는 것처럼 최선의 노력이지만 잘못된 레이블 지정을 시뮬레이션합니다.

4.2 Metrics 

  • 알고리즘의 목표는 인간의 시간 낭비를 피하는 것이기 때문에 우리의 평가는 오탐을 무겁게 처벌해야 합니다.
  • 따라서 각 알고리즘의 정밀도를 측정합니다.
  • 우리는 또한 Sluban(2010)을 따라 재현율보다 정밀도를 두 배로 평가하는 F-점수인 F0.5를 보고합니다.
  • 모든 상황에서 정밀도가 재현율의 두 배로 평가되는 것은 아닙니다.
  • 따라서 정밀도와 재현율을 동등하게 중요시하고, 정밀도를 재현율보다 5배, 정밀도를 10배 더 중시하는 사용자의 선호도를 반영하기 위해 β ∈ {1.0, 0.2, 0.1}에 대한 Fβ(Rijsbergen, 1979)도 보고합니다.

5 Results 

  • 그림 1은 5개 데이터 세트의 평균 정밀도와 F0.5 점수를 보여주고, 표 3은 오류율을 평균화하여 요약합니다.
  • 부록 B는 데이터 세트 및 오류율로 분할된 결과를 보여줍니다.
  • 표 3은 데이터 세트 및 오류율 전반에 걸쳐 평균화한 모든 종류의 이웃 필터링을 추가하면 모든 기본 알고리즘의 정밀도가 향상됨을 보여줍니다. 
  • 임의로 생성된 노이즈의 경우 F0.5에서도 마찬가지입니다.
  • 그림 1a는 또한 이웃 활성화 필터가 세 가지 노이즈 감지 알고리즘 모두에 대해 정밀도를 크게 향상시키고 특징 이웃 필터가 작지만 여전히 관찰 가능한 이점을 제공한다는 것을 보여줍니다. 
  • next-best의 경우 기능 이웃 필터링을 추가하면 F0.5가 향상되지만 활성화 이웃 필터링은 F0.5를 약간 악화시킵니다.
  • 그림 1d의 그래프에서 활성화 이웃 필터링은 낮은 오류율에서 F0.5의 이점이 있지만 오류율이 증가함에 따라 다른 시스템에 비해 감소하여 15%에 가까운 오류율에서 교차한다는 것이 분명합니다.
  • next-best 노이즈를 너무 많이 추가하면 수정되지 않은 데이터에 대해 훈련된 신경망에 부정적인 영향을 미쳐 활성화 공간이 왜곡됩니다.
  • 이 왜곡은 정밀도에 해를 끼치지 않지만 재현에는 해롭습니다.
  • 랜덤 노이즈와 차선 노이즈 모두에 대해 활성화 이웃 필터링을 사용한 합의된 수정은 최고의 평균 정밀도를 달성합니다.
  • 랜덤 노이즈의 경우 활성화 이웃 필터링이 있는 HARF는 노이즈 비율에서 최상의 F0.5를 제공합니다.
  • 그러나 next-best의 경우 HARF는 오류율이 약 12%를 초과할 때 리콜이 크게 손실되어 전체 F0.5가 낮아졌습니다(그림 1d).
  • 이것은 랜덤 포레스트가 배깅을 사용하기 때문일 수 있습니다. 
  • 트리의 하위 집합이 많은 양의 비랜덤 노이즈가 있는 샘플에 대해 학습하는 경우 해당 트리는 체계적으로 오분류하는 방법을 배울 수 있습니다.
  • 특징 이웃 필터링으로 합의된 수정은 차선 잡음에 대해 가장 높은 평균 F0.5를 제공했습니다.
  • 오류율이 증가함에 따라 정밀도가 상승하는 추세는 동일한 핵심 오탐지가 지속적으로 감지됨을 나타냅니다.
  • 오류율이 높을수록 참 긍정의 수가 증가함에 따라 거짓 긍정의 핵심은 의심스러운 것으로 표시된 총 예제 수의 작은 부분을 차지합니다.
  • 표 4는 Fβ 점수를 나열합니다.
  • 예상대로 사용자에게 표시되는 의심스러운 예의 수를 줄이는 이웃 필터를 사용하는 것은 정확도가 재현율보다 더 중요할 때(F0.2 및 F0.1) 특히 유리합니다.
    • 그러나 재현율과 정밀도가 똑같이 중요할 때 종종 비용을 추출합니다(F1.0).
  • 따라서 이웃 필터가 없는 합의된 보정은 차선 노이즈를 사용할 때 F1.0을 최적화하는 최상의 시스템입니다.
  • 그럼에도 불구하고 랜덤 노이즈에 대한 F1.0의 가장 강력한 시스템은 여전히 활성화 이웃 필터링이 있는 HARF이며 활성화 이웃 필터링과의 합의가 밀접하게 뒤따릅니다.

6 The LNIC Tool

  • LNIC 도구는 위에서 설명한 알고리즘을 구현하고 컨텍스트에서 레이블 노이즈를 검토하기 위한 웹 인터페이스를 제공합니다.
  • 인터페이스는 데이터 세트 내의 전체 레이블 노이즈를 시각적으로 요약하고 컨텍스트에서 의심스러운 예 그룹에 대한 링크를 제공합니다. 
  • LNIC의 잡음 요약 표현(그림 2)은 혼동 행렬과 유사합니다.
  • 레이블 노이즈 매트릭스에서 각 셀은 컨텍스트가 행과 열로 지정된 클래스를 포함하는 곳에서 발견된 노이즈 예제의 수를 나타냅니다.
  • 셀을 클릭하면 사용자가 노이즈로 플래그가 지정된 예제 목록으로 이동합니다. 
  • 이러한 각 예는 그림 3과 4에 나와 있는 것처럼 컨텍스트를 보여주기 위해 확장될 수 있습니다.
  • Stack Exchange의 데이터는 컨텍스트가 검토자가 데이터 세트의 문제를 이해하는 데 어떻게 도움이 되는지 보여줍니다.
  • 경우에 따라 컨텍스트에서 예의 레이블이 잘못 지정되었음을 알 수 있습니다. 
  • 컨텍스트가 없으면 주석 작성자가 신화의 존재에 대한 질문이 역사 수업에 속하는지 여부를 확신하기 어렵습니다. 
  • 결국 그것은 역사적 문명에 관한 질문입니다.
  • 그러나 그림 4의 맥락에서 볼 때 신화의 역사에 대한 질문도 신화로 분류되어 있음이 분명하므로 일관성을 유지하기 위해 예제의 레이블을 변경해야 합니다.
  • 다른 경우에는 컨텍스트가 데이터의 클래스 구조와 관련된 더 복잡한 문제를 드러낼 수 있습니다.
  • 그림 5는 노이즈 감지 알고리즘이 피트니스 클래스에 속할 수 있다고 제안하는 건강 클래스의 의심스러운 예를 보여줍니다.
  • 문맥을 보면 실제로 두 클래스 모두 운동과 관련된 식사 시간에 대한 질문이 포함되어 있음을 알 수 있습니다.
  • 인간 검토자는 이 두 클래스 사이의 경계가 어디에 있는지 결정하고 이러한 발화를 한 클래스에 일관되게 할당해야 합니다.

7 Conclusion  

  • NLP 실무자는 레이블 노이즈가 성능에 해를 끼치고 노이즈 감지 알고리즘을 오랫동안 사용할 수 있다는 것을 알고 있지만 감지된 오류를 사람이 검토하는 것이 어렵고 시간이 많이 걸리기 때문에 이 기술은 실제로 적용되지 않습니다. 
  • LNIC는 가능한 레이블 노이즈에 대한 사람의 검토를 보다 쉽고 효율적으로 만듭니다. 
  • 여러 짧은 텍스트 데이터 세트에서 최첨단 정밀도와 F0.5를 제공하여 검토자가 확인해야 하는 잘못된 긍정 예의 수를 줄입니다. 
  • 그리고 모델이 예를 의심스러운 것으로 표시한 이유에 대한 설명을 제공함으로써 레이블 노이즈 감지기의 출력을 이해하고 실행 가능하게 만듭니다.

Reference

댓글