시스템공학세미나1(장동식교수님)(5)-Supervised Learning, Unsupervised Learning, Target, Features, Data Science Workflow, Evaluation Metirc, Training, Inference, Overfitting, Underfitting
Supervised Learning Supervised Learning(지도학습)? 데이터 포인트의 답이 있는 것 Outcome이 뭔지 알고 있음 Unsupervised Learning(비지도학습)? 데이터 포인트의 답이 없음 Outcome이 뭔지 모름 Target? 예측하려는 대상 아이리스 데이터에서 예측하려는 꽃의 품종 Features? 예측을 위해 사용하는 데이터들의 특징 아이리스 데이터에서 예측을 위해 사용하는 꽃의 특징 Example: Supervised Learning Problem? 목표: 이메일이 스팸인지 스팸인지 아닌지 예측 데이터 : 스팸이나 스팸이 아닌 레이블로 구분된 그동안의 이메일들 Target: 스팸 or 스팸 아님 Features: 이메일 텍스트, 주제, 보낸 시간 등 Exam..
2020. 4. 30.
비정형데이터분석(강필성교수님)(11)-Dimensionality Reduction, Feature selection, feature extraction, Filter, Wrapper, Document frequency(DF), Accuracy(Acc), Accuracy ratio(AccR), Probability Ratio(PR), Odds ratio(OddR), Odds ratio Numerato..
Dimensionality Reduction Dimensionality Reduction? 관점은 분산 표상 이전의 시점 데이터는 전부 Bag-of-Words 방식 BOW로 표현된 다큐먼트는 굉장히 많은 변수들로 이루어져 있음(term, words, token) 일부분만이 텍스트 분석 태스크에 대해 관련이 있음(전처리를 거치게 되면) TDM 형태 : Term이 행이고 Documents가 열인 형태 이 데이터가 가지고 있는 문제점 첫 번째 : 차원이 큼, 보통 일반적으로 tem의 개수가 document개수보다 많음 통계학적인 관점에서 보면 관측치의 수가 변수의 수보다는 많아야 다중공선성같은 여러 통계적 가정을 만족을 할 가능성이 있음 그런데 변수에 수가 객체 수 또는 관측치 수보다도 더 많으면 전통적인 통..
2020. 4. 23.