Data Collection and Enhancement
Data Collection and Preprocessing?
Problem Statement: What problem are you trying to solve?
Data Collection: What data do you need to solve it?
Data Exploration & Preprocessing: How should you clean your data so your model can use it?
Modeling: Build a model to solve your problem?
Validation: Did I solve the problem?
Decision Making & Deployment: Communicate to stakeholders or put into production?
Data Collection?
데이터는 어디서 오는가?
데이터는 어떤 종류가 있는가?
데이터는 얼마나 많고 어떤 속성이 가지는가?
Data Sources?
어디서부터 데이터가 오는가?
인간이 만들어내는 데이터
IoT와 기계가 만들어내는 데이터
인터넷(public website)
고전(Legacy documents)
Human Generated Data: Social Media?
소셜 미디어를 통해 생성하는 데이터가 70%
하루에 나오는 데이터양이 2.5 quintillion bytes(2.5 exabytes)
various API
Facebook, Twitter, Instagram, Linkedin, Pinterest
2.5 Exabytes Per Day?
90 years of hd video
250,000 libraries of congress
530 millon songs
150 million iphones
5 millon laptops
Human Generated Data: Media &Publications?
2.2 million books published every year
2 million blog posts published every day
269 billion emails published every year
이 데이터들은 기업들이 유용하게 사용 가능(Google Smart Reply)
Internet of Things(IoT) Data?
기계에 의해서 수집
프라이버시가 덜 하기 때문에 수집하기가 수월
2020년까지 200 billion smart-and-connected devices
데이터는 2년마다 double로 생성될 것이라 생각 total 40 zettabytes (40 trillion gigabytes)
센서, 카메라 등에서 수집
Internet of Things (IoT) Data: Consumer?
자율 주행차
smart home devices와 wearables
Internet of Things Data: Industrial?
의학(수술 카메라)
자동 무인 트럭에서 나오는 센서
Jet engine
Internet of Things Data: How to Access the data?
데이터셋 많이 오픈되어 있음(open-source)
Public Website?
Stock data(Quandl)
Public Websites : How to Access theData?
Webscraping: 웹사이트에 방문해서 필요한 데이터만 추출
Legacy Documents?
보험, 은행, 의학, 법률 등
디지털로 바뀔 필요가 있음
아직도 전통적인 방식을 고집하는 경향이 강함
데이터로 많이 바뀔 것
새로운 데이터베이스 관리 시스템 등이 발전돼야
새로운 ML 테크닉이 필요할 것