Archive: 2019/1

DBSCAN

K-Means 클러스터링 방법은 단순하고 강력한 방법이지만 클러스터의 모양이 원형이 아닌 경우에는 잘 동작하지 않으며 클러스터의 갯수를 사용자가 지정해주어야 한다는 단점이 있다. DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 방법은 데이터가 밀집한 정도 즉 밀도를 이용하여 클러스터의

terraform

테라폼 기초 튜토리얼 terraform 테라폼은 하시코프에서 오픈소스로 개발중인 인프라스트럭처 관리 도구이다. 서비스 실행에 필요한 환경을 구축하는 도구라는 점에서 셰프나 앤서블 같은 설정 관리 도구와 더불어 프로비저닝 도구로 분류된다. 테라폼은 코드로서의 인프라스트럭처를 지향하고 있는 도구로서, GUI나 웹 콘솔을 사용해 서비스 실행에 필요한 리소스를 관

K-means

K-MeansK-Means 클러스터링 알고리즘은 가장 단순하고 빠른 클러스터링 알고리즘의 하나이다. 다음과 같은 목적함수 값이 최소화될 때까지 클러스터의 중심(centroid)의 위치와 각 데이터가 소속될 클러스터를 반복해서 찾는다. 이 값을 inertia라고도 한다. J = \sum_{k=1}^K\sum_{i \in C_k} d(x_i, u_k)이 식에

clustering

주어진 데이터 집합을 유사한 데이터들의 그룹으로 나누는 것을 클러스터링(clustering)이라고 하고 이렇게 나누어진 유사한 데이터의 그룹을 클러스터(cluster)라 한다. 클러스터링은 예측(prediction) 문제와 달리 특정한 독립변수와 종속변수의 구분도 없고 학습을 위한 목푯값(target value)도 필요로 하지 않는 비지도학습(unsuper

dark sky 사이트를 이용한 날씨 크롤링

https://darksky.net/dev 다음 사이트를 이용해 api로 날씨 데이터를 크롤링 해 볼 것이다. dark sky api는 전 세계 현재/과거/미래에 관련된 날씨와 관련된 많은 데이터들을 제공한다. 사이트에 가입 후 console로 들어가면 다음과 같은 창이 나타난다. Your Secret Key에 있는 key를 사용하여 dark sky로 쿼

모형 최적화

이 포스트는 fastcampus에서 강의를 하고 계시는 김도형 박사님의 강의록을 따라 쓰며 연습한 포스트입니다. 데이터 사이언스 스쿨 머신 러닝 모형이 완성된 후에는 최적화 과정을 통해 예측 성능을 향상시킨다. Scikit-Learn 의 모형 하이퍼 파라미터 튜닝 도구Scikit-Learn에서는 다음과 같은 모형 최적화 도구를 지원한다. validati