Syntax Analysis
Syntax Analysis?
구문 분석
어떤 일련의 문장이 있을 때 문법의 형식에 맞도록 분석
문장 구조를 파악
Paser : input string을 문법에 걸맞게 변환해주는 알고리즘
모든 Parser의 속성 : Directionality, Search strategy
Directionality?
방향
아래서 위로? 위에서 아래로
Search strategy?
탐색 전략
어디를 먼저 탐색할 것인지
Parsing Representation?
트리형태, 리스트 형태
트리 형태는 하나의 문장으로부터 가장 마지막 말단에 단어들에 이르기까지 분할된 부분 하나하나 보여줌
리스트 형태는 리스트 항목으로 표현
구문 분석의 어려움?
구문분석기 완벽하지 않어
언어의 모호성
Lexical ambiguity(어휘의 모호성) : 하나의 단어가 상황에 따라 서로 다른 형태소로 사용, 구조적 모호성 야기
Structural ambiguity(구조적 모호성) : 하나의 문장이 다른 방식으로 이해될 수도 있어
필요할 경우 공부?
문장 구문을 정확하게 하지 않더라도 문서 분류, 군집화, 토픽 모델링들은 수행 가능하기 때문
Language Modeling?
언어 모델
문장이 들어왔을 때 확률을 매겨
확률을 매기는 이유는 생성된 문장이 실제 해당하는 언어의 문법 관점에서 살펴봤을 때 그럴듯한가
POS tag에 주어지는 것이 아닌 sentence 그 자체에 주어짐
Language Modeling 사례?
Machine Translation : high -> large
Spell correction(오탈자 수정)
Speech recogniton(음성 인식)
문서 요약 및 질의 응답
Probabilistic Language Modeling?
문장이 주어지거나 단어의 나열이 주어졌을 때 얼마나 그럴듯하냐
결합확률분포 P(W)
다음에 나올 단어 확률
P(W) 구하는 방법?
분해하여 계산
Markov Assumption?
앞에서 보는 것처럼 마지막 단어 예측 위해선 앞에 존재하는 모든 단어 주어져야 해
해당하는 경우의 수 찾기 어려워
$P(w_{1})$는 쉬워
$P(w_{10} | w_{1}, ..., w_{9})$ 어려워
가장 단순한 케이스는 각각의 단어가 독립되었다고 가정 - 문장 같지 않음
Bigram model?
컨디션은 바로 이전의 단어에만 영향을 받는다
$P(w_{i} | w_{i-1})$ 완벽 x
N-gram models?
확장 모델
long-distance dependencies 가지고 있을 경우 아직도 어려워
Google Books N-Gram?
최근에는 뉴럴 넷 기법 있어서 안써
Neural Network-based Language Model?
NNM 모델
나중에 설명
RNN-based Language Model?
나름대로 그럴듯함
Sequence to Sequence Learning?
입력과 출력이 전부 문장인 형태
최근에 많이 사용
GPT-2?
Pre-trained model
댓글