본문 바로가기

대학원 수업 요약 정리18

비정형데이터분석(강필성교수님)(2)-텍스트 데이터 수집/전처리, 토큰, 멱함수 법칙, Stop-words, Lemmatization, 텍스트 변환, TF-IDF, 분산 표상, One-hot-vector, 특성 선택/추출, 잠재 의미 분석, 분류, 군.. 텍스트 마이닝 프로세스 1 : 수집과 전처리 데이터를 수집하고 전처리하는 단계? 무엇을 마이닝 할 것인가 무엇을 분석 할 것인가 목적이 무엇인지 데이터가 어디에 있는지 데이터를 합법적으로 api를 통해서 받을 수 있는지 또는 스크래핑을 해야 하는지 데이터베이스 자체를 연결시켜서 접속할 수 있는지 알아보는 단계 텍스트 데이터 원천? 이메일, 메세지, 블로그, 뉴스기사, 리서치 페이퍼, 책, 내부 문서, 웹 마이닝 다양한 데이터셋? https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/ https://blog.cambridgespark.com/50-free-machine-learning-datas.. 2020. 3. 26.
비정형데이터분석(강필성교수님)(1)-텍스트 분석, 텍스트 마이닝, 문서 클러스터링, 토픽 모델링, 자연어 처리 텍스트 분석 개요 왜 텍스트 데이터를 분석? 80%이상의 데이터는 비정형 형태(unstructured format) 비정형 형태의 데이터에서 텍스트 데이터 비중이 높음 검색된 문서를 반환해 주는 것만으로 충분치 않음 새로운 지식을 찾는 것이 요구됨 https://www.zdnet.com/article/within-two-years-80-of-all-medical-data-will-be-unstructured/ https://www.computerweekly.com/feature/How-to-manage-unstructured-data-for-business-benefit 텍스트 분석 장점 사례? AI vs 변호사 법률 AI와 변호사 사이에서 정확도를 비교한 결과 AI가 94%, 변호사들은 85% 정확도를.. 2020. 3. 25.