본문 바로가기
대학원 수업 요약 정리

비정형데이터분석(강필성교수님)(1)-텍스트 분석, 텍스트 마이닝, 문서 클러스터링, 토픽 모델링, 자연어 처리

by 지식광부키우기 2020. 3. 25.

텍스트 분석 개요

 

 

왜 텍스트 데이터를 분석?

 

80%이상의 데이터는 비정형 형태(unstructured format)

비정형 형태의 데이터에서 텍스트 데이터 비중이 높음

검색된 문서를 반환해 주는 것만으로 충분치 않음

새로운 지식을 찾는 것이 요구됨

https://www.zdnet.com/article/within-two-years-80-of-all-medical-data-will-be-unstructured/

https://www.computerweekly.com/feature/How-to-manage-unstructured-data-for-business-benefit

 

 

텍스트 분석 장점 사례?

 

AI vs 변호사 

법률 AI와 변호사 사이에서 정확도를 비교한 결과 AI가 94%, 변호사들은 85% 정확도를 보임

https://www.lawgeex.com/resources/AIvsLawyer/

 

 

arXiv?

 

최신 컴퓨터 관련 논문 볼 수 있는 곳 

artificial intelligence 검색 논문은 93년에는 거의 없다가 2012년도 이후에 폭발적으로 증가

https://www.technologyreview.com/s/612768/we-analyzed-16625-papers-to-figure-out-where-ai-is-headed-next/?utm_source=facebook&utm_campaign=site_visitor.unpaid.engagement&utm_medium=tr_social

 

 

텍스트 마이닝의 간단한 예로 살펴본 발견들?

 

머신러닝(Machine learning)이 지식 기반 추론(knowledge-based reasoning)을 앞지름

뉴럴 네트워크 붐(The Neural-Entwork Boom)이 일어남 텍스트 비중 높음

강화 학습(reinforcement learning) 비중 상승

 

 

텍스트 분석 또는 텍스트 마이닝이란?

 

데이터를 분석해서 의미있는 지식이나 지혜를 뽑아내는 데 목적

비구조화된 데이터를 사용

많은 방법론들이 있음

 

 

텍스트 분석 사례?

 

정보를 요약, 축약, 시각화 가능

워드클라우드가 대표적인 예

취임 연설문 단어를 가지고 정책 차이점 파악

키워드 네트워크로 보여주는 분석도 가능

중앙은행 총재들의 연설문 단어 이용해 각 국가 통화정책 방향성(비슷한 국가) 파악

 

 

데이터 분석가의 역할?

 

분석한 결과를 만들어주기까지 함

 

 

그 이후에는?

 

그 분야 전문가들이 심층적인 보고 및 분석

 

 

고객 만족도 조사 예시?

 

주관식 문항에 대해서 특이한 응답 분석

데이터 마이닝 기법 적용

효율적인 소비자 의견 파악

 

 

실험 방법?

 

데이터 전처리 및 벡터화

특이 소비자 의견 탐지

키워드 및 관계도 분석 및 시각화

 

 

문서 클러스터링?

 

미국 특허검색시스템

기존의 특허와 유사한지 분석

특허 유사맵 생성

테드(Ted) 내용 분석 

 

 

토픽 모델링?

 

 굉장히 많은 문장의 집합(corpus)의 잠재적인 토픽을 찾아냄

LDA 방법론이 대표적

키워드를 찾아내고 상위 네이밍을 붙이는 것은 아직까지 수작업으로 이루어짐

토픽 간의 유사성을 그래프로 표현 가능

 

 

문서 카테고리화/분류?

 

스팸 메일 필터

뉴스 기사를 통해 스포츠 선수 평가

 트위터 단문 통한 감정 분석

 

 

추천?

 

카페, 블로그, SNS 콘텐츠 분석

레스토랑 추천 서비스

 

 

정량적 데이터 + 텍스트 정보?

 

예측력 향상 시도

출시일 이전의 회자되는 영화 기대 정량화해서 예측 모델에 더함

재무데이터와 민원, 뉴스 기사 이용해 조기 경보 모델

 

 

자연어 이해?

 

질의 응답(Question Answering)

IBM Watson

구글 위키데이터

질의 응답 중요도 높아짐

https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html

https://paperswithcode.com/task/question-answering

 

 

챗봇?

 

Dialogue system

대답 대상이 기계인지 사람인지 모를 정도의 고도화 

https://chatbotslife.com/chatbots-are-the-future-of-marketing-31fd285f37d9?gi=cfbda15b6e5b

 

 

자연어 처리의 과제?

 

가변 길이의 문서의 차원이 굉장히 커짐

해당하는 언어가 가지고 있는 단어의 모든 차원이 필요

비효율적, 메모리 문제, sparse

 

 

가변 길이?

 

글자 수, 음절이 될 수 있음

 

 

sparse?

 

대부분의 값이 0 

 

 

자연어 처리의 과제2?

 

단어 자체, 개념 자체가 다양하고 모호

학생 - 이름, 교수 - 지도 교수, 게임 - 게임이름

 

 

모호성?

 

문맥에 따라 어떻게 쓰이는가

애플 - IT, 과일

MBA - 경영학석사, 연관규칙분석

 

 

텍스트 구조?

 

Structured Data 약속에 의해서 정의

Free Text 사전 포맷 없이 생성되어 있는 문서

 

 

비구조화 데이터 정도?

 

약한 구조화는 어느 정도의 포맷 유지 

리서치 페이퍼

 

반 구조화는 포펫 요소가 더 많아짐

HTML, XML

 

 

텍스트 마이닝이 어려운 이유?

 

언어 자체가 가지고 있는 본질적인 모호성 파악 쉽지 않음

"행간을 읽는다"를 기계에 접목시키기 어려움

 

 

수업 때 다루는 텍스트 분석 타입?

 

문서 분류 

주어진 문서 통해 클래스 나누거나 그룹으로 할당

문서 클러스터링

사전에 정의된 정답 범주 없지만 비슷한 것끼리 찾음

컨셉 추출

단어나 구들 중에서 유사성 찾기

토픽모델링 때 다룸

 

 

단순화된 텍스트 분석 프로세스?

 

문제 정의 및 데이터 수집 

웹 크롤링, SNS 데이터, 회사 문서

전처리와 데이터 변환

비구조화된 데이터를 구조화된 데이터로 변환

핵심은 임의의 포맷으로 만들어진 문자열의 나열을 벡터로 바꿈

특성 선택 및 추출

궁극적으로 하는 작업에 걸맞도록 차원 축소

적절한 알고리즘 선택

댓글