Subscribe to Our Bi-Weekly AI Newsletter

공개 데이터셋

기계 학습은 올바른 데이터를 얻는 것부터 시작한다. 아래 링크 목록을 통해 다양한 도메인에 대한 공개적으로 사용 가능한 데이터셋을 찾아볼 수 있다.

최근 추가된 데이터셋

데이터셋 검색 사이트

  • Kaggle Datasets Page: 외부에 공개하는 다양한 흥미로운 데이터셋을 제공하는 데이터 과학 사이트. 라면 순위, 농구 데이터, 시애틀 동물 면허 등의 다양한 데이터셋을 마스터 리스트에서 찾아볼 수 있다.
  • UCI Machine Learning Repository: 웹상 공개된 오래된 데이터셋의 소스이며 흥미로운 데이터셋을 찾을 때 좋은 출발점이 될 수 있다. 데이터셋은 사용자가 제공한 것이므로 데이터셋의 품질이 일관되지 않을 수 있지만, 대부분의 데이터셋은 충분히 정리가 잘 되어 있다. 특별한 등록 없이 UCI Machine Learning 저장소에서 데이터를 직접 다운로드할 수 있다.
  • VisualData: 카테고리별로 컴퓨터 비전 데이터셋을 검색할 수 있다. 검색 쿼리를 지원한다.

자연-이미지 데이터셋

  • MNIST: 손글씨 숫자: 가장 일반적으로 알고리즘 동작 체크에 사용되는 데이터셋이다. 28x28 크기의 이미지로 중심에 흑백의 손글씨 숫자를 가지고 있다. 가장 기본적인 데이터셋이므로 어떤 알고리즘이 MNIST 데이터셋에서 동작한다고 해서 그것이 꼭 올바로 동작한다고 말할 수는 없다.
  • CIFAR10 / CIFAR100: 32x32 크기의 컬러 이미지로 뒤에 붙은 숫자의 수만큼인 10/100개의 카테고리 데이터를 가지고 있다. 이전만큼 널리 사용되고 있지는 않지만, 이 데이터셋 역시 알고리즘 동작 체크에 사용할 수 있다.
  • Caltech 101: 101개 카테고리 객체 이미지 데이터
  • Caltech 256: 256개 카테고리 객체 이미지 데이터
  • STL-10 dataset: 비지도 학습, 딥 러닝, 자기 교시 학습 알고리즘 등을 개발하기 위한 이미지 인식 데이터셋이다. CIFAR-10을 수정한 데이터셋이다.
  • The Street View House Numbers (SVHN): 구글 스트리트 뷰 상의 집 번호 데이터를 가지고 있다. MNIST의 현실적인 버전이라고 볼 수 있다.
  • NORB: 다양한 조명과 구도의 장난감 3D 양안 이미지
  • Pascal VOC: 일반적인 이미지 세분화/분류 데이터셋이다. 이미지 주석을 다는 실제 제품을 만드는 것에는 유용하지 않지만, 기준점으로 사용하기에는 적합한 데이터셋이다.
  • Labelme: 주석이 있는 대량의 이미지 데이터셋
  • ImageNet: 새로운 알고리즘에 기준이 되는 데이터셋이다. 여러 이미지 API 회사들이 그들의 REST 인터페이스를 통해 1000개에 가까운 카테고리의 레이블을 얻게 되었다.
  • LSUN: 장면 이해 데이터셋과 공간 레이아웃 예측, 핵심 부분 예측 등과 같은 부수적인 태스크 정보, 관련 대회의 정보를 포함하고 있다.
  • MS COCO: 일반적인 이미지 이해 및 캡션 데이터셋, 관련 대회의 정보를 포함하고 있다
  • COIL 20: 360도 회전하며 촬영한 20개의 오브젝트의 이미지 데이터셋을 제공한다.
  • COIL100 : 360도 회전하며 촬영한 100개의 오브젝트의 이미지 데이터셋을 제공한다.
  • Google’s Open Images: Creative Commons 라이센스의 6000개가 넘는 카테고리에 대한 9백만개의 이미지 URL 묶음 데이터를 제공한다.

지형 공간 데이터

  • OpenStreetMap: 무료 라이센스의 전 세계 벡터 데이터셋을 제공한다. 미국 통계국의 구 버전의 데이터를 포함하고 있다.
  • Landsat8: 지구 전체 표면의 위성 사진들을 제공하고 있다. 몇 주마다 새로운 사진이 업데이트된다.
  • NEXRAD: 미국의 대기 상태에 대한 도플러 레이더 스캔 정보를 제공한다.

GET STARTED WITH DEEP LEARNING FOR IMAGES

인공 데이터셋

  • Arcade Universe: 테트리스 펜토미노/테트로미노 물체와 같은 아케이드 게임 스프라이트를 포함하는 이미지를 인공적으로 생성하는 데이터셋이다. 이 생성기는 O. Breluex의 버그 랜드 데이터셋 생성기를 기반으로 한다.
  • BabyAISchool로 부터 영감을 얻은 데이터셋의 모음이다.
  • BabyAIImageAndQuestionDatasets: 질문 이미지 응답 데이터셋을 제공한다.
  • 심층 아키텍쳐의 경험적인 평가를 위해 생성한 데이터 집합을 제공한다.(DeepVsShallowComparisonICML2007)
  • MnistVariations: introducing controlled variations in MNIST
  • RectanglesData: 넓은 직사각형과 긴 직사각형을 구별하는 데이터셋을 제공한다.
  • BackgroundCorrelation: 배경에 노이즈가 있는 MNIST 데이터셋에서 배경 상관 관계의 정도 데이터를 제공한다.

얼굴 데이터

  • Labelled Faces in the Wild: Vioal-Jones를 사용하여 이름을 레이블링한 13,000개의 얼굴 영역을 크롭한 데이터셋이다. 1,680명의 최소 2장 이상의 얼굴 사진을 포함하고 있다. 이를 통해 얼굴 매칭 시스템을 개발하기 위한 학습이 가능하다.
  • UMD Faces는 8,501명을 대상으로 한 367,920개의 얼굴 이미지 데이터셋을 제공한다.
  • CASIA WebFace는 10,575명에 대한 453,453개의 얼굴 이미지 데이터를 제공한다. 몇몇 데이터는 품질 문제로 필터링이 필요할 수 있다.
  • MS-Celeb-1M는 전 세계의 연예인의 백만개의 이미지 데이터를 제공한다. 심층 신경망의 더 나은 결과를 위해 필터링이 필요할 수 있다.
  • Olivetti: 여러 명의 사람들에 대한 적은 수의 이미지 데이터셋이다.
  • Multi-Pie: The CMU Multi-PIE Face Database
  • Face-in-Action
  • JACFEE: 일본인과 백인의 감정에 따른 얼굴 표정에 관한 데이터셋이다.
  • FERET: 안면 인식 기술 데이터베이스를 제공한다.
  • mmifacedb: MMI 얼굴 표현 데이터베이스를 제공한다.
  • IndianFaceDatabase
  • The Yale Face DatabaseThe Yale Face Database B
  • Mut1ny Face/Head segmentation dataset는 16,000개 이상의 픽셀 레벨의 얼굴/머리로 분류된 이미지 데이터를 제공한다.

GET STARTED WITH DEEP LEARNING FOR VIDEO

비디오 데이터셋

  • Youtube-8M: 비디오 클립의 이해 연구용의 다양한 레이블을 제공하는 대용량 데이터 셋이다.

텍스트 데이터

  • 20 newsgroups: 단어를 뉴스 그룹 아이디에 맵핑하는 분류 태스크에 데이터를 제공한다. 전통적인 텍스트 분류를 위한 데이터셋으로 사용되며 주로 분류 태스크 또는 정보 검/인덱싱 알고리즘의 검증을 위한 벤치마크로 유용하게 사용된다.
  • Reuters News dataset: newswire의 텍스트를 사용한 분류 기반의 데이터 셋이며 주로 튜토리얼에 사용된다.
  • Penn Treebank: 다음 단어 예측 또는 다음 문자 예측에 사용되는 데이터를 제공한다.
  • UCI’s Spambase: UCI Machine Learning 리파지터리에서 제공하는 고전적인 스팸 이메일 데이터셋이다. 데이터를 선별하는 방법을 자세히 공개하고 있기 때문에 개인화된 스팸 필터링 학습의 기준이 될 수 있다.
  • Broadcast News: 다음 단어 예측에 사용되는 대용량 데이터셋이다.
  • Text Classification Datasets: 텍스트 분류를 위한 8개 데이터셋의 모음이다. 새로운 테스트 분류의 기준의 벤치마크이다. 샘플 크기는 120k에서 3.6M이며 이진 분류부터 14개 클래스 데이터셋을 제공한다. DBPedia, Amazon, Yelp, Yahoo, AG에서 데이터를 생성하였다.
  • WikiText: 고품질 Wikipedia 기사 데이터를 선별하여 SalesForce MetaMind가 제공하는 대용량의 언어 모델링 코퍼스 데이터셋이다.
  • SQuAD: 스탠포드의 질의응답 데이터셋이다. 질문에 대한 모든 대답이 텍스트로 제공되기 때문에 질의응답 및 독해에도 유용하게 사용될 수 있다.
  • Billion Words dataset: 일반적인 용도의 대용량 언어 모델링 데이터셋이다. word2vec과 같은 분산된 단어를 표현하는 트레이닝 하는 데 사용된다.
  • Common Crawl: 페타바이트 크기의 웹 크롤링 데이터셋으로 주로 단어 삽입을 위한 학습용으로 사용된다. Amazon S3에서 무료로 다운로드할 수 있으며 웹 크롤링을 위한 네트워크 데이터셋으로도 유용하게 사용된다.
  • Google Books Ngrams: Google books의 n-gram 코퍼스 데이터셋으로 단어가 입력 되었을 때 연속적으로 입력될 단어를 탐색하는 간단한 방법을 제공한다.
  • Yelp Open Dataset: 자연어 처리용의 Yelp 사이트의 비즈니스, 리뷰, 사용자 데이터 데이터셋을 제공한다.

GET STARTED WITH DEEP LEARNING FOR TEXT

질의응답 데이터셋

  • Maluuba News QA Dataset: CNN 뉴스 기사의 120,000건의 질의응답 데이터를 제공한다.
  • Quora Question Pairs: Quora가 최초로 공개한 데이터 셋으로 중복/유사 의미 레이블 데이터를 제공한다.
  • CMU Q/A Dataset: Wikipedia 기사에서 어려움으로 표시된 질문/응답 데이터를 제공하는 수동으로 생성된 데이터셋이다.
  • Maluuba goal-oriented dialogue: 목표를 달성하거나 결정을 내리는 목적의 다이얼로그에서 절차적인 대화 데이터셋으로 챗봇에 주로 사용한다.
  • bAbi: Facebook AI Research(FAIR)에서 제공하는 독해 및 질의응답에 사용되는 데이터셋이다
  • The Children’s Book Test: Gutenberg 프로젝트에서 제공하는 Children’s book에서 추출한 질문+상황/대답 데이터 쌍의 데이터셋이다. 질의응답 및 독해에 유용하게 사용할 수 있다.

센티멘트 데이터셋

  • Multidomain sentiment analysis dataset 다소 오래되었지만, 학계에서는 아직도 사용되는 데이터셋이다.
  • IMDB: 이진 감정 분류를 위한 데이터셋으로 오래전부터 사용되어 왔으며 데이터셋 크기는 다소 작은 편이다. 더 큰 데이터셋의 등장으로 점차 사용이 줄고 있다.
  • Stanford Sentiment Treebank: 각 문장의 구문 분석 트리의 모든 노드에 정교한 감정 주석이 있는 표준 감정 데이터를 제공한다.

추천 및 랭킹 시스템 데이터셋

  • Movielens: Movielens 웹사이트의 영화 레이팅 데이터셋으로 다양한 크기의 데이터를 제공한다.
  • Million Song Dataset: 하이브리드 추천 시스템을 실험하는 사람들에게 유용한 Kaggle 데이터셋이다. 대용량이며 메타데이터가 잘 정리되어 있고 오픈소스인 특징을 가지고 있다.
  • Last.fm: 하이브리드 시스템에 유용한 소셜 네트워크와 다른 메타데이터 기반의 음악 추천 데이터셋이다.
  • Book-Crossing dataset: Book-Crossing 커뮤니티에서 제공한 데이터셋으로 278,858명의 사용자가 271,379개의 책에 대한 1,149,780개의 레이팅 데이터를 포함하고 있다.
  • Jester: 73,421명의 사용자가 평가한 100개의 농담에 대한 410 만개의 레이팅(-10.00~+10.00 사이) 데이터를 제공한다.
  • Netflix Prize: Netflix에서 공개한 데이터셋으로 익명 버전의 영화 레이팅 데이터를 제공한다. 48만명의 사용자가 평가한 1억개의 평가 레이팅을 포함하고 있다. 최초의 Kaggle 스타일의 데이터 챌린지이며 개인 정보 보호 이슈로 비공식적으로만 사용할 수 있다.

GET STARTED WITH DEEP LEARNING FOR GRAPHS

네트워크 및 그래프 데이터셋

  • Amazon Co-Purchasing: Amazon의 “the users who bought this also bought…“과 관련 있는 상품 섹션에서 크롤링한 리뷰 데이터를 제공한다. 네트워크상의 추천 시스템 실험에 유용하다.
  • Friendster Social Network Dataset: Friendster는 게임 웹사이트로 변경되기 전에 익명의 103,750,348 사용자의 친구 리스트 데이터를 발표했다.

스피치 데이터셋

  • 2000 HUB5 English: Baidu의 Deep Speech 논문에서 최근 사용된 영어 전용 음성 데이터셋이다.
  • LibriSpeech: 텍스트와 음성의 오디오북 데이터셋이다. 약 500시간 분량의 다양한 오디오북의 음성 데이터로 여러 명의 음성을 기록하였으며 텍스트와 음성 모두를 포함하는 챕터로 구성되어 있다.
  • VoxForge: 엑센트가 있는 영어 음성 데이터셋으로 다른 엑센트나 억양에 강건성이 필요할 때 유용하게 사용할 수 있다.
  • TIMIT: 영어 음성 인식 데이터셋이다.
  • CHIME: 잡음이 있는 환경에서의 음성 인식 챌린지 데이터셋이다. 데이터셋은 실제 녹음, 시뮬레이션 녹음, 깨끗한 음성 녹음을 포함하고 있다. 4개 이상의 시끄러운 장소에서 약 9000건의 녹음을 4명의 사람이 실제로 녹음을 진행하였으며 시뮬레이션 녹음은 다양하고 잡음이 없는 환경에서 녹음한 음성을 합성한 것이다.
  • TED-LIUM: TED 발표의 음성 녹음과 자막 데이터를 제공하며 1495개의 TED 발표에서 음성 녹음과 전체 텍스트 자막 데이터를 추출하였다.

GET STARTED WITH DEEP LEARNING FOR SOUND

심볼릭 음악 데이터셋

  • Piano-midi.de: 고전 피아노곡 데이터셋이다.
  • Nottingham: 1000개 이상의 포크 음악을 제공한다.
  • MuseData: 클래식 음악의 전자 도서관이다.
  • JSB Chorales: 합창단의 4개 파트의 화음 데이터를 제공한다.

기타 데이터셋

건강 & 생물학 데이터셋

정부 & 통계 데이터

Chris Nicholson

Chris Nicholson is the CEO of Skymind and co-creator of Deeplearning4j. In a prior life, Chris spent a decade reporting on tech and finance for The New York Times, Businessweek and Bloomberg, among others.

A bi-weekly digest of AI use cases in the news.