◼ Comment

이 논문은 레이블링된 데이터에서 노이즈 데이터를 검출하는 것을 설명한다.
직관적인 아이디어는, 일단 그냥 기존 데이터로 분류기를 학습시킨다.
그리고 분류기로, 학습 데이터를 다시 인퍼런스 시킨다.

그러면 정확도가 100이 아니기 때문에, 분류기의 예측 결과와 주어진 레이블이 다른 경우가 존재할 것이다.
그렇다면 뭔가 이상한 예제라는 것이다. (이것을 의심스러운 예제라고 표현)
왜냐하면 분류기는 데이터 전체로 학습되기 때문에 전체적인 데이터 분포? 통계를 학습할텐데
그 통계, 분포에서 벗어난 학습 샘플이라는 것이기 때문..
분류기 하나로만 하면 애매하니까 여러 분류기를 학습시켜서 앙상블로 사용한다.

이렇게 예측 클래스와 실제 클래스가 다르다고 무조건 필터링 시키는 것은 아니다.

일단 먼저, 각 데이터 샘플을 사전 학습된 모델로 인코딩시킨다.
인코딩된 벡터를 기반으로 각 데이터에 대해 주변 데이터를 찾는다.
코사인 유사도로 모든 데이터쌍을 계산하고, 유사도 높은 데이터가 이웃이라고 간주하는 것이다.
아무튼 의심스러운 예제가 있을 때, 이 주변의 예제(데이터)를 봐서 모두 같은 레이블로 지정되면 이는 의심스러운 것은 아니라는 것이다.
즉 의심스러운 예제이면서 + 주변의 데이터와 다른 레이블을 가진다? --> 의심스러운 예제니까 재태깅해야한다! 이런 느낌이다.

이 과정속에서 재태깅할 예제는 주변의 데이터로부터 수정할 레이블을 보여줄 수도 있고

어떠한 예제들이 비슷한 것인지 보여주기 때문에 제안한 noise 필터링 알고리즘이 설명이 가능하다고 언급한다.

약간 논문적으로는 태클 걸 부분이 꽤 있다고 생각한다.

코사인 유사도를 구하기 위해, 발화 임베딩 (USE) 알고리즘이 신뢰할만한가?
학습데이터로 학습하고 학습데이터로 다시 인퍼런스하여 의심예제를 찾는 뭔가 이상한 느낌?
데모 논문이기도 하고, 이 분야는 처음이라 잘못 이해한 부분이 있을 수 있지만, 컨셉만 기억하고 넘어가자!

0 Abstract

label noise

부정확하고 애매하게 레이블링된 학습샘플들을 의미
이는 모델 성능에 부정적인 영향을 끼칠 수 있다.

noise detection 테크닉은 수십년동안 사용되어왔지만, 실무자들은 manual noise 개선은 지루한 프로세스이기 때문에 그들을 드물게 적용한다.
예제들은 부정확하게 noise로 잘못 플래그된 예제들은 리뷰어들의 시간을 낭비하게하고, 가이던스없이 label noise을 수정하는 것은 어려운 일이다.
우리는 LNIC을 제안한다.

noise-detection 방법으로 학습 세트사이의 예제의 neighborhood을 사용하는 것이다.

(a) reduce false positives and
(b) provide an explanation as to why the example was flagged as noise.

우리는 여러 short-text classification datasets에서 LNIC가 precision과 F0.5-score의 측정에서 SoTA보다 뛰어남을 입증한다.
우리는 LNIC의 학습 세트 컨텍스트가 리뷰어가 understand하고 데이터세트의 label noise을 수정하는 데 어떻게 도움되는지 보여준다.
LNIC tool은 레이블 노이즈 수정에 대한 장벽을 낮추어 NLP 실무자를 위한 유용성을 높입니다.

1 Introduction

레이블 노이즈(훈련 세트에서 레이블이 부정확하거나 모호한 예)는 학습된 모델의 성능을 저하시켜 부정확한 예측을 초래합니다(Frenay and Verleysen 2014).
자동화된 데이터 수집은 noisy 데이터 세트를 생성할 위험이 있으며, 사람이 주석을 달면 주의나 전문성 부족으로 인해 노이즈가 발생할 수 있습니다.
Automatic noise-detection algorithms은 훈련 세트를 분석하고 레이블이 잘못 레이블링될 가능성이 있는 "의심스러운(suspicious)" 예제들에 플래그를 지정합니다(Brodley 및 Friedl, 1999; Frenay 및 Verleysen, 2014).
의심스러운 예는 삭제되거나 알고리즘에 의해 자동으로 수정되거나 사람이 검토할 수 있습니다.
Human review는 이러한 mitigation 옵션 중 가장 효과적이지만 비교적 비용이 많이 듭니다.
사람이 검토하는 데 시간이 많이 소요되는 두 가지 문제, 즉 false positives와 a lack of explanation이 있습니다.
False positives은 노이즈로 잘못 플래그가 지정된 예입니다.

이러한 예를 검토하는 것은 애노테이터의 시간을 낭비합니다.

reviewer에게 설명 없이 의심스러운 예를 보여주는 것은 가장 간단한 경우에 효과적이지만 데이터에 대한 더 깊은 이해가 필요한 명확하지 않은 노이즈의 일반적인 경우에는 difficulty과 frustration을 유발할 수 있습니다.

현재까지 사람의 review를 염두에 두고 설계된 노이즈 감지 알고리즘은 거의 없습니다.
즉, 알고리즘으로 레이블이 잘못됐을거 같은 의심스러운 예제를 찾는다.
이를 사람이 검토하면 좋긴하지만, 데이터에 대한 이해가 필요한 (전문영역) 경우엔 이 또한 어렵다.
또한 false positive, lack of explanation에 의해 사람의 검토가 시간이 많이 든다.
실제로 사람의 리뷰를 염두에 두고 설계된 노이즈 알고리즘은 거의 없기도 하다.

Sluban은 human review process에 사용하기 위한 노이즈 감지 알고리즘이 정확성을 강조해야 한다는 사실을 인식한 유일한 작업입니다 (즉, reduce the proportion of false positives).
그러나 우리는 감지된 label noise의 설명 가능성을 해결하는 기존 작업을 알지 못합니다.

이게 왜 label noise 인지를 설명하는 알고리즘?

우리는 Label Noise in Context 시스템 혹은 LNIC을 소개하고, 이는 precision과 explainability 모두를 향상시키기 위해 학습 세트에서 의심스러운 예제들을 둘러산 neighborhood을 사용한다.

데이터세트의 similarity 매트릭스를 계산함으로써, 우리는 이상한 예제의 neighborhood을 식별할 수 있고 nearest-neighbors classifier와 유사한 방법으로 falsse positives을 필터링한다.

간단한 휴리트식의 셋을 같은 similarity matrix에 적용하는 것은 우리가 훈련 세트 컨텍스트를 구성할 수 있게 한다. (테이블1)
고립된 상태에서 볼 때, 스포츠 클래스에 속하는 것으로 표시된 달리기 능력에 대한 예는 명백히 잘못된 것이 아닙니다.

그러나 피트니스 클래스에 유사한 예가 더 많기 때문에 어노테이터가 그녀가 그것을 보고 있다는 것을 이해하면 더 나은 레이블이 있다는 것이 분명해집니다.
즉, 고립된 샘플로 보면 꼭 틀렸다고 볼 수 있는 예제는 아니지만, 다른 예제들을 보면 달리기는 피트니스 클래스로 레이블링 되어있는 것이 더 많기 때문에.. 피트니스로 바꿔야한다?

The main contributions of this work are

우리는 LNIC의 nearest-neighbors-based 알고리즘으로 자동으로 검출된 label noise의 precision과 explainability을 향상시키는 것을 설명한다. (섹션 3)
우리는 noise 검출이후 neigborhood-based 필터링이 5개의 short-text 분류 데이터세트에서 SoTA보다 precision과 F0.5을 향상시킴을 보여준다. (섹션 4, 5)
우리는 context에서 noise을 리뷰하기 위한 LNIC 툴을 소개하고, label noise을 수정하고 이해하기 위한 설명의 가치를 보여준다.
데모 비디오는 https://www.youtube.com/watch?v=20cigQaCc_k
live 웹 데모는 http://lnic.mybluemix.net/

2 Related Work

Noise Detection.

Frenay와 Verleysen은 레이블 노이즈를 감지하고 해결하는 다양한 접근 방식에 대한 포괄적인 조사를 수행했습니다.
많은 작업에서 모델 성능을 향상시키기 위해 레이블 노이즈 제거를 옹호합니다.
Teng(2000)은 자동 재라벨링을 옹호하는 반면, 다른 사람들은 인간 참여 루프 및 하이브리드 기술의 사례를 제시합니다.
우리와 동시대 작업에서 Northcutt(2019)는 분류기의 신뢰도가 낮은 예를 제거합니다.
가장 직접적으로 관련된 작업은 Brodley와 Friedl(1999)로 분류기의 앙상블에서 예측을 사용하여 노이즈 감지 방법을 설명하고 Sluban(2010)은 High Agreement Random Forest(HARF) 시스템을 제안했습니다.
두 시스템 모두 섹션 3.1에 자세히 설명되어 있습니다.
Brodley와 Friedl(1999)은 의심스러운 예를 삭제했지만 대신 향후 작업으로 수정을 제안합니다.
Sluban(2010)은 인간이 모든 의심스러운 사례를 검토할 때 노이즈 감지의 정확도가 중요하다고 지적합니다.
Garcia(2016)의 실험은 HARF가 다양한 데이터 세트에서 최첨단 F1 점수를 달성했음을 보여줍니다.

Active Learning

레이블 노이즈 수정과 유사하게 active learning(Settles, 2014)은 모델 성능을 개선하기 위해 데이터 레이블 지정 활동에 사람이 소비해야 하는 노력을 최소화하려고 합니다.
그러나 active learning은 다음에 레이블을 지정할 가장 유익한 레이블이 지정되지 않은 데이터를 선택하는 것을 목표로 하는 반면, 레이블 노이즈 감지는 추가 labeling 노력이 필요할 수 있는 이미 레이블이 지정된 데이터를 식별합니다.
강력한 모델 개선 흐름 내에서 함께 짜여질 수 있는 보완 기술로 활성 학습 및 레이블 노이즈 감지를 고려합니다.
기술 수준에서 일부 활성 학습 및 레이블 노이즈 감지 기술은 similar foundations을 기반으로 합니다.
Query By Committee(QBC)(Seung 1992) active learning은 분류기의 앙상블을 사용하여 앙상블이 레이블 지정에 동의하지 않는 예를 선택합니다.
유사하게 앙상블 기반 노이즈 감지 알고리즘은 앙상블이 일치하는(하지만 주어진 레이블에 동의하지 않는) 예제를 선택합니다.
최소 신뢰도, 마진 및 엔트로피와 같은 많은 효과적인 활성 학습 전략을 뒷받침하는 모델 불확실성은 cleanlab(Northcutt, 2019)과 같은 라벨 노이즈 감지 방법의 기초이기도 합니다.

Explainability.

점점 더 복잡해지는 분류 모델의 등장으로 분류기 예측을 설명하는 것이 많은 관심을 받았습니다.
아마도 가장 잘 알려진 시스템은 LIME(Ribeiro 2016)일 것입니다.
LIME 작성자는 분류기 예측을 설명하면 인간의 신뢰가 높아지고 모델을 개선하는 데 사용할 수 있는 통찰력을 제공한다고 언급했습니다.
특정 예에 대한 분류기의 예측을 설명하기 위해 알고리즘은 근처의 예와 이에 대한 모델의 예측을 수집합니다.
이 데이터의 더 간단한 표현에 대해 선형 모델을 훈련하여 분류기의 결정에서 중요한 단어 또는 슈퍼 픽셀을 나타낼 수 있습니다.
NLP 및 기계 학습의 수많은 최근 작업은 설명 가능성을 강조합니다.
Dhurandhar(2018)는 예를 할당된 클래스로 밀어내는 포지티브 기능과 그 부재로 인해 예가 다른 클래스에 배치되는 것을 방지하는 네거티브 기능으로 분류기 예측을 설명했습니다.
Lei(2016)는 감정 예측 및 유사한 질문 검색 작업에 대한 근거를 생성하기 위해 생성기와 인코더를 공동으로 훈련했습니다.
Mullenbach(2018)는 컨볼루션 신경망을 사용하여 특허 발생에 대한 임상 메모가 주어진 환자의 진단 및 치료를 설명하는 코드를 예측했습니다.
그들의 어텐션 메커니즘은 시스템의 정밀도와 F1을 향상시켰을 뿐만 아니라 각 코드와 가장 관련성이 높은 텍스트를 강조했습니다.
Chiyah Garcia(2018)의 시스템은 전문가가 생성한 의사 결정 트리와 일련의 템플릿을 사용하여 자율 수중 차량이 수행하는 작업과 그 이유에 대한 자연어 설명을 생성했습니다.
설명 가능한 모델에 대한 관심에도 불구하고 우리가 알고 있는 어떤 작업도 감지된 레이블 노이즈를 설명 가능하게 만들려고 시도하지 않았습니다.

3 Algorithms

LNIC는 3단계 프로세스를 사용합니다.
첫째, 노이즈 감지 알고리즘은 의심스러운 예제에 플래그를 지정합니다.
둘째, neighborhood-based 필터는 이러한 예제 중 무시할 예제와 사람의 검토를 위해 표시할 예를 결정합니다.
마지막으로 사용자에게 표시할 neighbors을 선택하는 규칙을 사용하여 컨텍스트를 생성합니다.

3.1 Noise-Detection Algorithms

LNIC의 noise-detection phase는 어떠한 noise-dection 알고리즘을 사용할 수 있다.
여기서 우리는 문헌으로부터 3개의 앙상블 알고리즘을 리포트한다.

consensus
agreed correction
HARF (Sluban et al., 2010).

앙상블 노이즈 검출 알고리즘은 학습 세트의 cross-validation splits에 대해 여러 분류기들을 학습한다.
각 분류기는 left-out (남겨진) 예제들을 위한 레이블들을 예측한다.
예측된 레이블은 예제에 대한 분류기의 "투표"이다.
현재 레이블과 일치하는 경우 분류자는 예제가 의심스럽지 않다고 투표했습니다.

그렇지 않으면 분류자가 그렇다고 투표했습니다.
주어진 레이블이 있고, 분류기가 판단한 레이블이랑 다르면 의심스러운 것?
근데 분류기는 기존의 레이블로 학습된 것인데..
분류기는 어쨌든 전체 샘플을 기준으로 학습되니, 전체적인 통계에서 벗어난 녀석이 의심스러운 것으로 본다는 느낌일듯

Brodley와 Friedl(1999)의 consensus algorithm에서 모든 투표가 예제가 의심스럽다는 데 동의하면 알고리즘은 해당 예를 의심스럽다고 표시합니다.
agreed correction variant은 앙상블의 모든 투표가 예시가 잘못 표시되었을 뿐만 아니라 올바른 라벨이 무엇인지에 동의해야 합니다.
HARF는 랜덤 포레스트가 결정 트리의 앙상블이라는 사실에 의존합니다.

대다수의 트리가 의심스러운 것으로 투표하면 예제를 의심스러운 것으로 표시합니다.

3.2 Neighborhood Filtering

Neighborhood filtering은 노이즈로 잘못 플래그가 지정된 예의 수를 줄입니다.
예제의 대부분의 neighbors에 해당 예제와 동일한 레이블이 있는 경우 해당 예제에 레이블이 올바르게 지정된 것이므로 LNIC는 의심스러운 예제 목록에서 해당 예제를 필터링합니다.

어떤 샘플에 대해, 그 근처의 샘플들과 레이블이 같다면, 이 샘플은 제대로 레이블링 된 것이다.
따라서 해당 샘플은 의심스러운 예제에서 제외한다. (아니라는 것)

neighborhood 필터는 학습 데이터에 있는 모든 예제의 쌍별로 cosine similarity을 계산한 다음 각 의심스러운 예제 s에 가장 가까운 k개의 이웃을 찾습니다.

여기서 k는 조정 가능한 하이퍼 매개변수입니다.
각 샘플간의 주변 샘플이란 것을 알기 위해, 샘플들의 쌍별로 코사인 유사도를 계산한다.
그래서 k개가 주변 예제로 보는 것. (k개는 하이퍼파라미터)
근데 여기서 어떤 벡터를 기준으로 유사도를 계산하는거지?

s의 현재 레이블 yc가 해당 neighbors 중에서 가장 일반적인 경우, s는 의심스러운 예제 풀에서 false positive으로 필터링되고, 그렇지 않으면 사람의 검토를 위해 s가 표시됩니다.

의심스러운 예제가 3.1에서 검출됐을 때, 위 말대로 주변 샘플들의 레이블과 일치하다면 의심스러운 예제가 아닌 것으로 판명
그런게 아니라면 의심스러운 예제이기 때문에 사람의 검토를 위해 flag처리한다.

LNIC는 기능 이웃 또는 활성화 이웃에 대한 필터링을 지원합니다.
feature neighborhood은 original feature vector(여기서는 USE 임베딩(Cer et al., 2018))를 사용하여 각 예를 나타냅니다.

USE 임베딩이 각 샘플의 벡터를 나타내는 것?

activation neighborhood은 전체 데이터 세트에 대해 훈련된 neural classifier의 최종 계층 활성화를 사용하여 훈련 세트의 각 예를 나타냅니다.

아이디어는 훈련 예제들을 classification space에 투영하는 것입니다.
activation neighborgood란 발화의 임베딩을 activation 이후의 벡터를 사용해서 구한 이웃이란 듯

3.3 Context Generation

LNIC 알고리즘의 마지막 단계는 neighborhood에 휴리스틱을 적용하여 training 세트 컨텍스트를 생성하는 것입니다.

컨텍스트를 어떻게 생성한다는 것이지? --> 아래

이 컨텍스트는

(a) 의심스러운 예제에 대해 더 나은 레이블로 제안된 noise-detection 앙상블의 클래스와

의심스러운 예제한테 더 나은 레이블로 제안된 noise-detection 앙상블 클래스를 보여준다.

(b) 현재 클래스와 제안된 클래스에서 가장 유사한 예를 보여주는 설명 역할을 합니다.

실제 클래스와 제안된 클래스 사이에서 가장 유사한 예제들을 보여준다.
제안된 클래스란 noise-detection 앙상블 클래스를 의미하는 것일듯
즉 이렇게 의심 예제에 대해, 제안할 수정 레이블과 그 수정 레이블에서 가장 유사한 예들을 보여주는데, 이 예제가 컨텍스트라는 것

노이즈 감지 알고리즘의 앙상블은 각 의심스러운 예에 대한 예측 레이블 목록을 생성합니다.

의심스러운 예제라는 것은, 분류기가 실제 레이블과 다른 레이블로 예측했다는 것이고, 이 예측 레이블 목록을 보여준다?

이러한 레이블과 예제의 현재 레이블은 해당 예제에 대해 허용된 레이블을 구성합니다.
휴리스틱은 의심스러운 예에 가장 가까운 각 허용된 레이블에서 예를 선택합니다.
허용된 레이블이 k개 미만인 경우(여기서 k는 원하는 컨텍스트 크기임) 허용된 레이블에서 나머지 k - n개의 가장 가까운 이웃을 선택하여 컨텍스트의 균형을 채웁니다.
활성화 이웃과 기능 이웃 모두를 기반으로 설명을 작성합니다.
활성화 컨텍스트에 이미 나타나는 예는 기능 컨텍스트에서 생략되고 다음으로 가장 가까운 이웃으로 대체됩니다.
그림 4와 5는 이러한 상황 설명의 예를 보여줍니다.

4 Experiments

우리는 노이즈 감지 후 이웃 기반 필터를 추가하면 진정한 노이즈 예제를 유지하면서 오 탐지 비율을 줄일 수 있다는 가설을 세웁니다.
우리는 데이터 세트에 노이즈를 주입하고 데이터 세트에 대해 알고리즘을 실행하고 올바르게 플래그가 지정된 의심스러운 예제를 측정하여 이를 테스트합니다.

4.1 Datasets

표 2에 나열된 짧은 텍스트 분류 데이터 세트를 평가합니다.
평가의 1단계에서는 데이터 세트를 효과적으로 "손상"시키는 레이블 노이즈를 도입합니다.
도입된 레이블 노이즈의 양은 잘못된 레이블로 설정된 훈련 세트의 비율로 해석되는 오류율 매개변수에 의해 제어되었습니다.
레이블 노이즈를 도입하기 위해 무작위 및 차선책이라는 두 가지 전략을 사용했습니다. 둘 다 라벨을 잘못 지정할 교육 데이터의 무작위 샘플을 선택했습니다.
임의 전략은 선택된 각 예에 임의의 잘못된 레이블을 할당했습니다.
차선책 전략은 전체 열차 세트에서 훈련된 분류기에 의해 예측된 대로 "차선" 잘못된 레이블을 할당했습니다. 이것은 혼란스러운 인간 레이블러가 수행할 수 있는 것처럼 최선의 노력이지만 잘못된 레이블 지정을 시뮬레이션합니다.

4.2 Metrics

알고리즘의 목표는 인간의 시간 낭비를 피하는 것이기 때문에 우리의 평가는 오탐을 무겁게 처벌해야 합니다.
따라서 각 알고리즘의 정밀도를 측정합니다.
우리는 또한 Sluban(2010)을 따라 재현율보다 정밀도를 두 배로 평가하는 F-점수인 F0.5를 보고합니다.
모든 상황에서 정밀도가 재현율의 두 배로 평가되는 것은 아닙니다.
따라서 정밀도와 재현율을 동등하게 중요시하고, 정밀도를 재현율보다 5배, 정밀도를 10배 더 중시하는 사용자의 선호도를 반영하기 위해 β ∈ {1.0, 0.2, 0.1}에 대한 Fβ(Rijsbergen, 1979)도 보고합니다.

5 Results

그림 1은 5개 데이터 세트의 평균 정밀도와 F0.5 점수를 보여주고, 표 3은 오류율을 평균화하여 요약합니다.
부록 B는 데이터 세트 및 오류율로 분할된 결과를 보여줍니다.
표 3은 데이터 세트 및 오류율 전반에 걸쳐 평균화한 모든 종류의 이웃 필터링을 추가하면 모든 기본 알고리즘의 정밀도가 향상됨을 보여줍니다.
임의로 생성된 노이즈의 경우 F0.5에서도 마찬가지입니다.
그림 1a는 또한 이웃 활성화 필터가 세 가지 노이즈 감지 알고리즘 모두에 대해 정밀도를 크게 향상시키고 특징 이웃 필터가 작지만 여전히 관찰 가능한 이점을 제공한다는 것을 보여줍니다.
next-best의 경우 기능 이웃 필터링을 추가하면 F0.5가 향상되지만 활성화 이웃 필터링은 F0.5를 약간 악화시킵니다.
그림 1d의 그래프에서 활성화 이웃 필터링은 낮은 오류율에서 F0.5의 이점이 있지만 오류율이 증가함에 따라 다른 시스템에 비해 감소하여 15%에 가까운 오류율에서 교차한다는 것이 분명합니다.
next-best 노이즈를 너무 많이 추가하면 수정되지 않은 데이터에 대해 훈련된 신경망에 부정적인 영향을 미쳐 활성화 공간이 왜곡됩니다.
이 왜곡은 정밀도에 해를 끼치지 않지만 재현에는 해롭습니다.
랜덤 노이즈와 차선 노이즈 모두에 대해 활성화 이웃 필터링을 사용한 합의된 수정은 최고의 평균 정밀도를 달성합니다.
랜덤 노이즈의 경우 활성화 이웃 필터링이 있는 HARF는 노이즈 비율에서 최상의 F0.5를 제공합니다.
그러나 next-best의 경우 HARF는 오류율이 약 12%를 초과할 때 리콜이 크게 손실되어 전체 F0.5가 낮아졌습니다(그림 1d).
이것은 랜덤 포레스트가 배깅을 사용하기 때문일 수 있습니다.
트리의 하위 집합이 많은 양의 비랜덤 노이즈가 있는 샘플에 대해 학습하는 경우 해당 트리는 체계적으로 오분류하는 방법을 배울 수 있습니다.
특징 이웃 필터링으로 합의된 수정은 차선 잡음에 대해 가장 높은 평균 F0.5를 제공했습니다.
오류율이 증가함에 따라 정밀도가 상승하는 추세는 동일한 핵심 오탐지가 지속적으로 감지됨을 나타냅니다.
오류율이 높을수록 참 긍정의 수가 증가함에 따라 거짓 긍정의 핵심은 의심스러운 것으로 표시된 총 예제 수의 작은 부분을 차지합니다.
표 4는 Fβ 점수를 나열합니다.
예상대로 사용자에게 표시되는 의심스러운 예의 수를 줄이는 이웃 필터를 사용하는 것은 정확도가 재현율보다 더 중요할 때(F0.2 및 F0.1) 특히 유리합니다.

그러나 재현율과 정밀도가 똑같이 중요할 때 종종 비용을 추출합니다(F1.0).

따라서 이웃 필터가 없는 합의된 보정은 차선 노이즈를 사용할 때 F1.0을 최적화하는 최상의 시스템입니다.
그럼에도 불구하고 랜덤 노이즈에 대한 F1.0의 가장 강력한 시스템은 여전히 활성화 이웃 필터링이 있는 HARF이며 활성화 이웃 필터링과의 합의가 밀접하게 뒤따릅니다.

6 The LNIC Tool

LNIC 도구는 위에서 설명한 알고리즘을 구현하고 컨텍스트에서 레이블 노이즈를 검토하기 위한 웹 인터페이스를 제공합니다.
인터페이스는 데이터 세트 내의 전체 레이블 노이즈를 시각적으로 요약하고 컨텍스트에서 의심스러운 예 그룹에 대한 링크를 제공합니다.
LNIC의 잡음 요약 표현(그림 2)은 혼동 행렬과 유사합니다.
레이블 노이즈 매트릭스에서 각 셀은 컨텍스트가 행과 열로 지정된 클래스를 포함하는 곳에서 발견된 노이즈 예제의 수를 나타냅니다.
셀을 클릭하면 사용자가 노이즈로 플래그가 지정된 예제 목록으로 이동합니다.
이러한 각 예는 그림 3과 4에 나와 있는 것처럼 컨텍스트를 보여주기 위해 확장될 수 있습니다.
Stack Exchange의 데이터는 컨텍스트가 검토자가 데이터 세트의 문제를 이해하는 데 어떻게 도움이 되는지 보여줍니다.
경우에 따라 컨텍스트에서 예의 레이블이 잘못 지정되었음을 알 수 있습니다.
컨텍스트가 없으면 주석 작성자가 신화의 존재에 대한 질문이 역사 수업에 속하는지 여부를 확신하기 어렵습니다.
결국 그것은 역사적 문명에 관한 질문입니다.
그러나 그림 4의 맥락에서 볼 때 신화의 역사에 대한 질문도 신화로 분류되어 있음이 분명하므로 일관성을 유지하기 위해 예제의 레이블을 변경해야 합니다.
다른 경우에는 컨텍스트가 데이터의 클래스 구조와 관련된 더 복잡한 문제를 드러낼 수 있습니다.
그림 5는 노이즈 감지 알고리즘이 피트니스 클래스에 속할 수 있다고 제안하는 건강 클래스의 의심스러운 예를 보여줍니다.
문맥을 보면 실제로 두 클래스 모두 운동과 관련된 식사 시간에 대한 질문이 포함되어 있음을 알 수 있습니다.
인간 검토자는 이 두 클래스 사이의 경계가 어디에 있는지 결정하고 이러한 발화를 한 클래스에 일관되게 할당해야 합니다.

7 Conclusion

NLP 실무자는 레이블 노이즈가 성능에 해를 끼치고 노이즈 감지 알고리즘을 오랫동안 사용할 수 있다는 것을 알고 있지만 감지된 오류를 사람이 검토하는 것이 어렵고 시간이 많이 걸리기 때문에 이 기술은 실제로 적용되지 않습니다.
LNIC는 가능한 레이블 노이즈에 대한 사람의 검토를 보다 쉽고 효율적으로 만듭니다.
여러 짧은 텍스트 데이터 세트에서 최첨단 정밀도와 F0.5를 제공하여 검토자가 확인해야 하는 잘못된 긍정 예의 수를 줄입니다.
그리고 모델이 예를 의심스러운 것으로 표시한 이유에 대한 설명을 제공함으로써 레이블 노이즈 감지기의 출력을 이해하고 실행 가능하게 만듭니다.

Reference

https://aclanthology.org/2020.acl-demos.21.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-170, Label Noise in Context, ACL demo 2020

◼ Comment

0 Abstract

1 Introduction

2 Related Work

3 Algorithms

3.1 Noise-Detection Algorithms

3.2 Neighborhood Filtering

3.3 Context Generation

4 Experiments

4.1 Datasets

4.2 Metrics

5 Results

6 The LNIC Tool

7 Conclusion

댓글

댓글 쓰기