모두를 위한 데이터 놀이터: 캐글(Kaggle)

 캐글(Kaggle)은 데이터 과학 및 머신러닝 경진 대회를 주최하는 플랫폼이다. 


 캐글은 크게 Competitions, Datasets, Code, Discussions, Courses 의 5가지 메뉴로 구성되어 있다. Competitions은 경진대회에 관한 메뉴로, 캐글의 핵심이라고 볼 수 있다. 여러 기업이나 단체들이 상금과 함께 데이터 및 해결 과제를 등록하면, 해당 과제에 관심 있는 누구나 대회에 참여할 수 있다. 이용자는 쉽게 접하기 어려운 양질의 데이터를 분석해볼 수 있고, 기업은 크라우드 소싱을 통해 다양하고 유용한 해결 코드를 얻을 수 있다. 



 진행 중인 대회뿐만 아니라, 기간이 종료된 대회의 코드와 과제도 Competitions 메뉴에서 확인할 수 있는데, Analytics(분석), Research(연구/실험) 등의 주제 범주나 Getting Started(입문자용), Playground(초보자용) 등의 수준 범주를 선택하여 이용자들은 본인에게 적합한 대회를 쉽게 찾을 수 있다. 

 

 Datasets에는 전 세계의 사람들이 캐글에 공유한 데이터들이 게시되어 있으며, 이용자들은 이 데이터를 자유롭게 사용하여 분석할 수 있다. 한국복지패널데이터처럼 국가에서 제공하는 자료에서는 얻기 힘든 여러 국가에서 업로드한 다양한 주제들의 최근 데이터를 만나볼 수 있다. Code 메뉴에는 다른 이용자가 올린 코드들을 확인할 수 있는데, 경진 대회에 참여한 코드뿐만 아니라, Datasets에 있는 데이터를 분석한 코드 또한 살펴볼 수 있다. 


 특정 데이터셋를 클릭하면, 해당 데이터에 대한 설명과 관련된 코드, 유사한 데이터셋까지 확인할 수 있다. 캐글은 경제, 엔터테인먼트, 의학, 교육 등 거의 전 분야에 걸쳐 많은 데이터 및 코드를 보유하고 있고, 가입만 한다면 이 자료를 모두 이용할 수 있다. 따라서 캐글은 경진 대회에 참여하는 고실력자뿐만 아니라 데이터 과학 및 머신러닝 연습이 필요한 초보자에게도 매우 유용한 웹사이트이다.

 Discussions 메뉴에서는 다른 이용자에게 질문하거나 의견을 공유할 수 있고, Courses에서는 파이썬, R, 머신러닝, SQL 등을 위한 강좌를 수강할 수 있다. 

데이터를 분석하고, 이용할 줄 아는 것이 매우 중요한 능력으로 자리 잡은 요즘, 많은 데이터와 검증된 코드가 있는 캐글에서 같은 관심사를 가진 이들과 함께 놀아보는 것은 어떨까? 

Comments

Popular posts from this blog

Machine Learning vs. Deep Learning: What’s the Real Difference?

Conquering the Bullwhip: How Information Sharing Transforms Supply Chains

저작권 문제 없는 무료 이미지 사이트, 'Pixabay'