본문 바로가기

대학원 수업 요약 정리18

비정형데이터분석(강필성교수님)(12)-LSA, SVD, t-SNE Dimensionality Reduction Feature Extraction: LSA & t-SNE Latent Semantic Analysis? Latent는 잠재 Semantic은 의미 Analysis는 분석 90년대 등장한 방법론이기 때문에 이 분야에서는 골동품과 같은 방법론 수학적 기저: 특이값 분해(SVD) Singular Value Decomposition: SVD 어떤 매트릭스를 factorizing하는 것이 SVD의 목적 m by n 사이즈의 매트릭스 m이 n 보다 큼 BOW 리프리젠테이션으로 봤을 때 term의 수가 document 수보다 큰 것이 일반적 A = TDM SVD를 통해서 어떤 임의의 rectangular 매트릭스 자체를 3가지의 매트릭스의 결합으로 표현 가능 U라는 하나의.. 2020. 5. 4.
시스템공학세미나1(장동식교수님)(6)-Data Collection and Enhancement, Data Sources, Human Generated Data, Internet of Things(IoT) Data, Public Website, Legacy Documents, Multimedia Data Collection and Enhancement Data Collection and Preprocessing? Problem Statement: What problem are you trying to solve? Data Collection: What data do you need to solve it? Data Exploration & Preprocessing: How should you clean your data so your model can use it? Modeling: Build a model to solve your problem? Validation: Did I solve the problem? Decision Making & Deployment: Communicate to st.. 2020. 4. 30.
시스템공학세미나1(장동식교수님)(5)-Supervised Learning, Unsupervised Learning, Target, Features, Data Science Workflow, Evaluation Metirc, Training, Inference, Overfitting, Underfitting Supervised Learning Supervised Learning(지도학습)? 데이터 포인트의 답이 있는 것 Outcome이 뭔지 알고 있음 Unsupervised Learning(비지도학습)? 데이터 포인트의 답이 없음 Outcome이 뭔지 모름 Target? 예측하려는 대상 아이리스 데이터에서 예측하려는 꽃의 품종 Features? 예측을 위해 사용하는 데이터들의 특징 아이리스 데이터에서 예측을 위해 사용하는 꽃의 특징 Example: Supervised Learning Problem? 목표: 이메일이 스팸인지 스팸인지 아닌지 예측 데이터 : 스팸이나 스팸이 아닌 레이블로 구분된 그동안의 이메일들 Target: 스팸 or 스팸 아님 Features: 이메일 텍스트, 주제, 보낸 시간 등 Exam.. 2020. 4. 30.
비정형데이터분석(강필성교수님)(11)-Dimensionality Reduction, Feature selection, feature extraction, Filter, Wrapper, Document frequency(DF), Accuracy(Acc), Accuracy ratio(AccR), Probability Ratio(PR), Odds ratio(OddR), Odds ratio Numerato.. Dimensionality Reduction Dimensionality Reduction? 관점은 분산 표상 이전의 시점 데이터는 전부 Bag-of-Words 방식 BOW로 표현된 다큐먼트는 굉장히 많은 변수들로 이루어져 있음(term, words, token) 일부분만이 텍스트 분석 태스크에 대해 관련이 있음(전처리를 거치게 되면) TDM 형태 : Term이 행이고 Documents가 열인 형태 이 데이터가 가지고 있는 문제점 첫 번째 : 차원이 큼, 보통 일반적으로 tem의 개수가 document개수보다 많음 통계학적인 관점에서 보면 관측치의 수가 변수의 수보다는 많아야 다중공선성같은 여러 통계적 가정을 만족을 할 가능성이 있음 그런데 변수에 수가 객체 수 또는 관측치 수보다도 더 많으면 전통적인 통.. 2020. 4. 23.