전체 글344 서울시 구별 병원 현황 분석 - csv 데이터 변환하기 오늘은 다운로드한 txt 파일을 Excel csv데이터로 변환하는 방법을 알아보겠습니다. 다운로드한 txt 파일을 열어보면 위의 그림과 같습니다. 메모장 파일을 Excel csv로 바꿔보겠습니다. 데이터 메뉴로 들어가서 텍스트를 클릭합니다. 본인의 경로에서 해당 데이터를 클릭한 다음 구분 기호로 분리됨을 클릭하고 다음으로 넘어갑니다. 구분 기호는 탭만 체크합니다. 쉼표도 하는 일이 더 많지만 이 데이터는 1000 단위 숫자 구별로 쉼표가 들어가 있기 때문에 쉼표도 클릭하면 기준이 맞지 않게 됩니다. 본인의 데이터가 어떻게 되어있는지에 따라 다릅니다. 꼭 확인하고 구분 기호를 체크해주세요!! 열 데이터 서식을 일반으로 해준다음 마침을 클릭합니다. 기본으로 설정되어 있는대로 하고 확인을 클릭합니다. 다음과 .. 2019. 9. 23. Ch04 분류분석(1) ▶ 로지스틱 회귀(Logistic regression) 사례 1 오렌지 주스 브랜드 선호도 소비자들이 어떤 오렌지 주스 브랜드를 사는 것을 선호하는지 예측하고자 합니다. Y(구매) 변수는 범주형(categorical)입니다. 0 or 1 X 변수는 numerical value입니다. (0과 1 사이), 소비자들이 특정 브랜드의 오렌지 주스에 보이는 충성도입니다. Y가 범주형일 때 회귀 분석을 사용할 수 있을까요?? ▶ 회귀 분석이 안 되는 이유는 무엇인가요? Y가 0과 1의 값만을 가질 때 회귀 분석이 적절하지 않은 이유는 다음과 같습니다. ▶ 문제점 회귀 직선 $\beta_{0} + \beta_{1} X$는 $-\infty, \infty$사이에서 어떤 값이든 취할 수 있습니다. 위의 오렌지 주스 분류 .. 2019. 9. 23. 포아송 분포, 평균과 분산 증명 ▶ 포아송 실험 주어진 시간 간격 또는 일정한 영역 내에서 발생하는 결과들의 수를 나타내는 확률변수 $X$의 값을 산출하는 실험입니다. 일정 시간 일정 시간 동안에 방문한 고객의 수 사무실에 걸려오는 시간당 전화 수 하루 동안 태어나는 아기 수 일정 영역 단위 면적 당 들쥐의 수 한 페이지 당 오타 수 ▶ 포아송 과정 1. 단위 시간 간격이나 일정 영역에서 발생하는 결과의 수는 서로 겹치지 않는 다른 시간 간격이나 영역에서 발생하는 수와 독립 - 건망 성 특징 2. 매우 짧은 시간 간격이나 적은 영역에서 단 한 번의 결과가 일어날 확률은 시간간격의 길이나 영역에 비례하고, 그 시간 간격이나 영역 외부에서 발생하는 결과의 수와는 무관 3. 매우 짧은 시간간격이나 적은 영역에서 둘 이상의 결과가 일어날 확률.. 2019. 9. 23. 서울시 구별 병원 현황 분석 - 데이터 구하기 파이썬으로 데이터 주무르기(저자 민형기) 1장 서울시 구별 CCTV 현황 분석을 응용하여 병원으로 연습해보겠습니다. 1-1 병원 현황과 인구 현황 데이터 구하기 서울시의 병원 현황은 서울 열린 데이터 광장에서 얻을 수 있습니다. 서울 열린 데이터 광장에서 보건을 클릭한 후 들어갑니다. [보건] 서울시 의료기관 (구별) 통계를 클릭합니다. 기간을 연도로 설정하고 2010~2018로 적용한 뒤 csv를 누르면 다운로드가 진행됩니다. 다음으로 서울 인구 데이터를 구해보겠습니다. 다시 서울 공공데이터 메인화면으로 돌아와서 인구/가구를 클릭합니다. [인구/가구] 서울시 주민등록인구 (구별) 통계를 클릭합니다. 아까와 마찬가지로 기간을 연도로 해서 2010~2018을 설정한 뒤 csv를 누르면 다운로드됩니다. 위의.. 2019. 9. 20. 이전 1 ··· 71 72 73 74 75 76 77 ··· 86 다음