NLP 도입부
지연어 처리의 일반적인 순서?
음성을 텍스트로 변환 -> 텍스트를 다시 구문 분석 및 의미 추출 -> 다시 해당하는 내용들 음성으로 변환
음운론 통사론 구문 분석 의미 분석 추론 단계 거치겜 됨
자연어 처리의 고전적인 카테고리?
음운론(Phonology) : 사람의 음성을 어떠한 음절 또는 글자로 바꿀 것인가, AI 스피커, AI 상담원
형태소(Morphology) : 텍스트를 의미가 있는 단위로 쪼개는 것, 주어진 일련의 긴 텍스트를 문장으로 구분하고 문장에서 토큰 단위로 구분하는 데 있어 얼마나 정확하게 구분할 것인지를 목적으로 함
신택스(Syntax) : 단어들이나 토큰들 간에 어떠한 구조적인 관계를 가지고 있는지 분석, 주어/동사/목적어 분석
의미론(Semantics) : 문장 또는 패러그래프가 가지고 있는 의미가 무엇인지 보여줌
Pragmatics나 Discourse는 사람의 사회적인 작용하고 같이 연결이 되어서 자연어 처리가 되는 부분, 현재 기술로서는 구현할 수 있다고 자신있게 얘기하기 어려움
텍스트 마이닝 중요한 카테고리?
음운론(Phonology) : 말하는 언어에 관련
Pragmatics나 Discourse과 Semantics는 잘 사용되지 않음
Semantics 분야는 많은 발전을 이루었음
음운론(Phonology)?
인공지능 솔루션의 첫번째 과제
사람이 무슨 이야기하는지 알아 들어야 함
음운론 대표적인 솔루션?
Speech to Text(STT)
Kaldi 오픈소스
https://github.com/kaldi-asr/kaldi
스피치 인식 스타트업?
https://www.ai-startups.org/top/speech_recognition/
스피치 솔루션 대표적인 예제?
딥러닝 알고리즘을 통해 유명 인물들의 목소리 학습으로 타짜 영화에서 대사를 대체
Speech to Text(STT) 예
자연어 처리의 단게?
어휘분석 : A teacher come+s 관사 명사 3인칭 단수
Syntax 분석 : $(A teacher)_{NP} (comes)_{VP}$ 주어 술어 파악
Semantic 분석 : exist(x, teacher(x), comes(x)) teacher라는 객체가 존재하고 그 객체는 현재 이동을 하고 있다는 의미를 파악
여기까지는 어렵지 않게 현재 기술로는 높은 완성도 가지고 파악 가능
Pragmatic 분석 : 상당히 어려워, 서로 통영되는 어휘, 단어, 표현들이 다르기 때문, "A teacher comes" -> Be quite!
Pragmatic 분석이 가능할까?
허밍웨이에게 "여섯 단어로 우리를 울릴만한 소설을 써 보시지?"
"For sale: Baby shoes. Never worn."
앞뒤 문맥, 상황 모르면 함축되어 있는 의미 몰라
컴퓨터가 이것까지 정확하게 사람처럼 파악할 수 있는지는 의문
좁은 의미의 자연어 처리는 쉬울까?
쉽지 않음
자연어 처리에서 다루는 인간의 언어는 컴퓨터 사이언스에서 다루는 프로그래밍 언어와 다름
프로그래밍은 작은 세계를 만듦
작은 세계에서는 단순한 syntax, 의미 명확, 기능적 어휘는 100단어면 충분, 시간의 흐름에 따라 진화하지 않음
자연어는 그렇지 않음
기능적 어휘 굉장히 많고, syntax 복잡 및 모호성, 시간의 흐름에 따라 진화하는 상황 발생해
다이나믹한 특징을 갖고 있어 좁은 의미의 자연어 처리도 어려움
프로그래밍 언어?
from, import, as, def 누구나 정확하게 어떤 상황에서 어떠한 목적을 가지고 사용해야 되는지 알고 있음
거스르거나 다른 용도로 쓰지 않음
자연어의 모호성?
He saw the man with the telescope
사람이 있는데 그 사람을 텔레스코프를 통해서 보는 상황
사람이 텔레스코프를 가지고 있는 경우
The board approved [its acquisition] [by Royal Trusco. Ltd.] 등등 하나 하나 구문이 의미를 가지고 있어 정확한 의미 파악이 이루어져야 함
문장 간의 관계 복잡성?
AOL merges with Time-Warner
Time-Warner is bought by AOL
같은 말이지만 Back of Words 방식으로 표현하게 되면 굉장히 다르게 나옴
Context 민감성?
IT 애플
농가 사과
자연어 처리의 변화?
1980 고전 방식 : Rule-based aproaches
룰로써 모두 다 표햔이 가능
상황마다 규칙 다르게 적용 가능
Rule set 만들 수 있을 거라는 믿음
자연어 자체가 가지고 있는 동적인 특성 때문에 실패
"to google"(검색하다)
statistical approaches(통계적 접근)?
1990년대 이후
학습 데이터를 기반으로 HMMs, SVMs 방법론 우수한 성능 나타냄
코퍼스라고 불리는 데이터로부터 학습을 시킴
여전히 2020년도임에도 불구하고 두 방식 하이브리드 사용해서 프로젝트 해
Rule-base로도 많은 처리 가능해
machine-learning(deep-learning) approaches?
Rule base는 연역적 사고
머신러닝은 귀납적 사고의 자연어 처리 엔진을 바꾸자고 헤게모니가 바뀜
데이터를 충분히 주고 나서 결과물로만 가지고 로직 역으로 추정
End-to-End Multi-Task Learning?
End-to-End, Multi-Task 핵심
종단 학습 가능
중간에 사람 개입 없음
문서와 최종적인 레이블만 주면 다양한 테스크 한꺼번에 수행 가능
최근의 트렌드
성능 향상도?
대부분의 방법론들이 전부 최근에 나온 pre-trained 모델에서 개선하거나
딥러닝 기반으로 해서 앙상블함
룰 베이스, 통계적 기반 방법론 찾기 힘들어
https://paperswithcode.com/area/natural-language-processing
구글, 페이스북, MS 성능향상?
일반인들이 모델 개발, 개선, 새로운 구조 만들어낼 수 있을까 의문
연산량을 줄이는 방향으로 가야되지 않을까 생각
2019년도의 주요 NLP 성과 및 페이퍼?
https://www.topbots.com/top-ai-nlp-research-papers-2019/
비즈니스 측면에서 14 NLP 큐레이션?
통계적 변환 vs 딥러닝 베이스 변환?
한글에서 영어로 변환
통계적 변환은 번역 수준이 낮음
통계적 변환은 저물고 딥러닝 베이스 변환 헤게모니로 가는 중
딥러닝 베이스 장점?
사람들의 수정 제안에 따라 변화 가능함
자연어 처리의 결과물 향상?
데이터 퀄리티를 향상 시켜야 함
한국어 ExoBrain Project
연구자들이 필요한 데이터셋에 대해서 국가적으로 큰 과제를 진행해서 데이터셋 오픈
데이터 Annotation을 비즈니스 모델로?
데이터 라벨링 서비스
Scale AI: https://www.basic.ai/
Basic AI: https://scale.com/
아마존 세일즈메이커 : https://aws.amazon.com/ko/sagemaker/groundtruth/
아마존 세일즈메이커?
데이터 레이블링 플랫폼 제공
처음에는 사람에 의해 labeling 작업 수행
이 과정에서 아마존 터크를 사용해서 작업자 매칭 및 공급 업체 추천
소수의 데이터가 수집되면 일차로 레이블된 데이터 이용해서 AI 모델 학습
모델의 신뢰도가 낮을 경우 사람에게 확인 요청함
데이터의 퀄리티 높이는 목적
국내의 데이터 퀄리티 높이려는 기업?
DataMaker: https://www.rdproject.kr/#section-service
테스트웍스: http://www.testworks.co.kr/
댓글