본문 바로가기

대학원 수업 요약 정리18

다변량통계분석 및 데이터마이닝(김성범 교수님)(8)-범주형 반응변수, 로지스틱 회귀모델, 로지스틱 함수, 승산(Odds), 로지스틱 회귀모델 beta1 해석 범주형 반응변수? 이진변수(반응변수 값 $\in$ 0 또는 1) 멀티변수(반응변수 값 $\in$ 1 또는 2 또는 3 이상) 범주형 데이터일 경우 선형회귀모델과는 다른 방식으로 접근해야 함 선형회귀모델에는 잔차의 분포가 정규분포를 따라야 하는 가정이 있음 범주형 반응변수일 경우 잔차의 분포가 평균이 0일리 없고 분산 역시 마찬가지임 로지스틱 회귀모델 사용 새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측(범주예측) 응용? 제품 불량/양품 고객 이탈/잔류 이메일 스팸/정상 페이스북 피드 보임/숨김 로지스틱 회귀모델 이론 배경? 이진변수부터 설명 $Y_{i} = \beta_{0} + \beta_{1}X_{i} + \epsilon_{i} $ $ Y_{i} = 0 \ or \ 1$ $E( \epsilon.. 2020. 4. 3.
비정형데이터분석(강필성교수님)(5)- 구문 분석, Parsing, 언어 모델 Syntax Analysis Syntax Analysis? 구문 분석 어떤 일련의 문장이 있을 때 문법의 형식에 맞도록 분석 문장 구조를 파악 Paser : input string을 문법에 걸맞게 변환해주는 알고리즘 모든 Parser의 속성 : Directionality, Search strategy Directionality? 방향 아래서 위로? 위에서 아래로 Search strategy? 탐색 전략 어디를 먼저 탐색할 것인지 Parsing Representation? 트리형태, 리스트 형태 트리 형태는 하나의 문장으로부터 가장 마지막 말단에 단어들에 이르기까지 분할된 부분 하나하나 보여줌 리스트 형태는 리스트 항목으로 표현 구문 분석의 어려움? 구문분석기 완벽하지 않어 언어의 모호성 Lexical a.. 2020. 3. 31.
비정형데이터분석(강필성교수님)(4)-어휘 분석, 문장 구분, 토큰화, 형태학적 분석(stemming, lemmatization), POS tagging, 객체명 인식 Lexical Analysis(어휘 분석) Lexical Analysis? 어휘 분석 : 단어 수준 또는 토큰 수준 의미를 보존할 수 있는 가장 최소한의 수준에서 분석 Lexical Analysis 목적? 어떤 일정한 character들이 있는 조합을 토큰으로 변환하는 것을 의미 토큰은 의미있는 character strings 자연어 처리의 경우 형태소가 많은 텍스트 마이닝의 경우 단어 관점에서 토큰 사용 Lexical Analysis 프로세스? 문서를 토큰화(기본적인 유닛으로 나눔) 각가의 토큰이 문장에서 어떠한 형태소를 갖는지에 대한 POS tagging 필요하다면 객체명 인식(NER, 사람, 물건), 명사구 인식 언어의 구조적 분석 예시? 한 문장 내에서 서로가 어떠한 관계를 가지고 있는지 보여줌 .. 2020. 3. 31.
비정형데이터분석(강필성교수님)(3)-자연어 처리 순서, 자연어 처리 카테고리, 음운론, 자연어 처리 단계, 자연어 분석 어려움, 통계적 접근, 딥러닝 베이스, 종단 학습, 성능 향상, 아마존 세일.. NLP 도입부 지연어 처리의 일반적인 순서? 음성을 텍스트로 변환 -> 텍스트를 다시 구문 분석 및 의미 추출 -> 다시 해당하는 내용들 음성으로 변환 음운론 통사론 구문 분석 의미 분석 추론 단계 거치겜 됨 자연어 처리의 고전적인 카테고리? 음운론(Phonology) : 사람의 음성을 어떠한 음절 또는 글자로 바꿀 것인가, AI 스피커, AI 상담원 형태소(Morphology) : 텍스트를 의미가 있는 단위로 쪼개는 것, 주어진 일련의 긴 텍스트를 문장으로 구분하고 문장에서 토큰 단위로 구분하는 데 있어 얼마나 정확하게 구분할 것인지를 목적으로 함 신택스(Syntax) : 단어들이나 토큰들 간에 어떠한 구조적인 관계를 가지고 있는지 분석, 주어/동사/목적어 분석 의미론(Semantics) : 문장 또는.. 2020. 3. 27.