구글의 BERT을 이용한 검색

■ BERT을 이용한 검색

  • BERT을 이용하여 구글이 검색엔진을 활용했다는 소식은 옛날에 들었지만, 카카오 브레인의 리포트를 읽으면서 그 과정을 한 번 알아보기 위해 구글 블로그를 살펴보았다.
  • 하지만, 블로그에서 기술적인 것은 다루지 않기에 그 속 내용을 알기는 어렵다.
  • 구글 블로그 포스팅에서 말하고자 하는 것은 다음의 링크에 잘 정리되어 있다.

■ 정리

  • 간단히 핵심만 짚어보자면
  • BERT가 Transformer 기반으로 엄청나게 성능이 좋은 모델이라는 것은 다 알것이다.
  • 하지만 이것을 사용할 수 있는데는 하드웨어의 TPU 발전도 함께 있었기 때문이다.
  • BERT을 쓰면서 큰 이점은 "to" 혹은 "for" 등의 단어를 잘 이해할 수 있는 것이다.
  • 이러한 단어를 이해함으로써 문맥적으로 맞는 검색을 할 수 있다는 것으로 다음의 예시들이 있다.
  • 검색에서의 BERT : 비자 예
  • 검색에서의 BERT : Esthetician 예
  • 두 번째 예시는 "stand" 단어가 여러 뜻이 있는데 문맥적으로 잘 이해한다는 의미이다.
  • (영어 뿐만 아니라) 영어 학습 모델 일부를 시험적으로 응용한 결과 우리나라와 힌디어, 포르투갈어 등 20개 언어 검색 결과를 크게 개선할 수 있었다고 한다.
    • multilingual-BERT을 썼는지, 번역모델을 함께 가미했는지는 모른다.
  • 검색은 해결 된 문제가 아니다.
    • BERT로도 검색이 틀리는 경우가 있다.
    • Language understanding remains an ongoing challenge, and it keeps us motivated to continue to improve Search.
    • We’re always getting better and working to find the meaning in-- and most helpful information for-- every query you send our way.

댓글