본문 바로가기

Python/데이터 분석3

단순 회귀 분석 예측 값 구하기 def predict(alpha, beta, x_i): return beta * x_i + alpha 알파와 베타에 대한 오류 계산 def error(alpha, beta, x_i, y_i): return y_i - predict(alpha, beta, x_i) SSE def sum_of_squared_errors(alpha, beta, x, y): return sum(error(alpha, beta, x_i, y_i) ** 2 for x_i, y_i in zip(x, y)) 최소자승법 def least_squares_fit(x,y): """x와 y가 학습 데이터로 주어졌을 때 오류의 제곱 값을 최소화해 주는 알파와 베타를 계산""" beta = correlation(x, y) * sta.. 2019. 9. 2.
(2) 차원 축소 데이터의 '실제(유용한)' 차원은 주어진 데이터의 차원과 다를 수 있습니다. 그리고 차원의 저주에 걸릴 수도 있죠 https://en.wikipedia.org/wiki/Curse_of_dimensionality Curse of dimensionality - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search The curse of dimensionality refers to various phenomena that arise when analyzing and organizing data in high-dimensional spaces (often with hundreds or thousands of dimens.. 2019. 8. 26.
(1) 척도 조절 대다수의 데이터 과학 기법은 데이터의 척도(scale)에 민감하게 반응합니다. 데이터 과학자 수백 명의 키와 몸무게가 주어졌고, 이를 통해 체형을 군집화해야 한다고 가정해봅시다. 직관적으로, 서로 가까운 데이터는 같은 군집에 포함되어야 하고 그러기 위해서는 데이터 간의 거리를 정의할 필요가 있습니다. 사람 키(인치) 키(cm) 몸무게(파운드) A 63 160 150 B 67 170.2 160 C 70 177.8 171 유클리드 거리 함수를 사용하여 비슷한 체형을 구해보면 1. 키(인치)를 사용하면, B와 가장 비슷한 체형을 갖고 있는 사람은 A입니다. a_to_b = distance(63, 150, 67, 160) # 10.77 a_to_c = distance(63, 150, 70, 171) # 22.1.. 2019. 8. 22.