CHAPTER 0 데이터셋 사용 안내 SECTION 01 이 책을 활용하는 방법 SECTION 02 데이터셋의 사용과 저작권법
Part 1 빅 데이터 포털 Chapter 1 데이터 포털 001. 텐서플로 데이터셋 002. AI Hub 003. 공공데이터포털 004. 야후(Yahoo!) 데이터셋
Part 2 영상 데이터 Chapter 2 이미지 분류(Image Classification) 005. FGVC - 항공기 사진 006. MNIST - 숫자 손 글씨 007. Fashion MNIST - 패션의류 008. Omniglot - 알파벳 손 글씨 009. Quick, Draw! - 손그림 010. CIFAR-10 - 실물 오브젝트 011. CIFAR-100 - 실물 오브젝트 012. CUB-200 - 조류 사진 013. SVHN - 현실 숫자 014. Conflict Stimuli - CNN 일반화 015. iNaturalist - 자연 사진 016. So2Sat - 인공위성 사진 017. SI-SCORE - CNN 일반화 018. CO3D - 객체 다각도 촬영
Chapter 3 탐지 및 표지(Detection and Segmentation) 019. COCO - 대규모 종합 영상 데이터 020. Open Image V6 - 대규모 종합 영상 데이터 021. Sculuptures 6K - 조각상 찾기 022. Oxford-IIIT Pet - 동물 사진 023. Penguin - 펭귄 찾기 024. DAVIS - 비디오 세그멘테이션
Chapter 5 안면인식(Human Face Recognition) 029. FairFace - 다인종 얼굴 030. CelebA - 유명인 얼굴 031. CelebA Mask-HQ - 얼굴 조작 032. AFLW- 얼굴 3차원 정보 033. LS3D-W - 얼굴 3차원 정보 034. VGG-Face2 - 얼굴 인식 035. Celebrity Together - 얼굴 인식 036. Celebrity in Place - 인물과 장소 동시 인식
Chapter 6 자세인식(Human Pose Estimation) 037. Hand Dataset - 사람 손 038. Buffy Pose - 특정 포즈 인식 039. Buffy Stickman - 자세인식 040. VGG HPE - 자세인식 041. Sign Language Pose - 수화인식 042. LSP - 스포츠 포즈 043. MPI-INF-3DHP - 자세 추론 044. Human 3.6M - 대규모 인체 데이터 045. 3DPW - 3D 자세 추론
Chapter 7 자율주행(Autonomous Driving) 046. BDD100K - 대규모 자율주행 데이터 047. KITTI - 대규모 자율주행 데이터 048. Cityscape - 길거리 세그멘테이션 049. Cityscape 3D - 탈것 인식 050. CULane - 도로만 인식
Chapter 8 비디오(Video) 051. Vox Converse - 발화자 찾기 052. VGG-Sound - Audio-Visual 053. MoCA - 은신 중인 동물 찾기 054. Condensed Movie - 영화 클립 055. Sherlock TV Series - 안면 인식 056. LAEO - Human Interaction 057. TV Human Interaction - Human Interaction 058. SCV - 스타크래프트2 플레이 영상 059. Fake AVCeleb - 딥페이크 감지
Chapter 10 의료 영상(Medical Images) 066. MimickNet - 영상 재건 067. CBIS-DDSM - 유방암 조영 068. CCH - 현미경 사진 069. BCCD - 혈구 070. Malaria - 말라리아 감염 혈액 071. MSD - Medical Image Segmentation 072. VFP290K - 실신 환자 찾기
Chapter 11 그 외 영상 데이터(Other Visual Data) 073. SynthText - OCR 074. MJSynth - OCR 075. Oxford Buildings- 객체 인식 076. S3O4D - 다각도 랜더링 077. 3D Shapes - 다각도 렌더링 078. NYU Depth - 깊이 추론 079. DMLab - 깊이 추론
Part 3 자연어 처리 데이터 Chapter 12 영어 자연어 처리(NLP(EN)) 080. WikiBio - 위키피디아 문서 081. GPT2 Output - 대규모 텍스트 082. Summ Screen - 대화 요약 083. Long Summarization - 논문 요약 084. PubMed Crawl - 논문 정보 수집 085. DART - 시멘틱 트리플렛 086. Twitch Chat - 트위치 채팅
CHAPTER 13 한국어 자연어 처리(NLP(KR)) 087. ParaKQC - 질문과 명령 088. Chatbot_data - 챗봇 089. ClovaCall - 음성 대화 090. KorQuAD 2.0 - 질의응답 091. Song-NER - 개체명 인식 092. KMOUNLP-NER - 개체명 인식 093. Sci-News-Sum-Kr-50 - 뉴스 요약 094. Petitions - 청와대 국민청원 095. KLUE - 한국어 이해 096. KorNLU - 문장 분류 및 유사성 097. NSMC - 네이버 영화 리뷰 098. Toxic Comment - NSMC 감정 상세화 099. 3i4K - 발화 의도 분석 100. Korean Hate Speech - 혐오발언 101. KAIST Corpus - 코퍼스 데이터셋 모음
CHAPTER 14 질의응답(Question Answering) 102. ARC - 지능검사 문제 103. ARM - 행렬추론 104. AI2 ARC - 과학 시험문제 105. NQ-Open - 영어 질의응답 106. SQuAD - 독해 기반 질의응답 107. CoQA - 대화 기반 질의응답
PART 4 소리 데이터 CHAPTER 16 음성 발화(Speech and Voices) 114. Spoken Digit - 음성 MNIST 115. Libri Speech - 대규모 음성 코퍼스 116. LibriTTS - 음성 코퍼스 117. LJSpeech - 오디오북 118. Common Voice Corpus - 대규모 음성 코퍼스 119. CREMA-D - 감정 인식 120. VoxCeleb2 - 대규모 발화 데이터 121. LRW - 입술 읽기(단어) 122. LRS3-TED - 입술 읽기(문장)
CHAPTER 17 음악 및 소리(Music and Sound) 123. FUSS - 소리 분해 124. CMM - 클래식 음악 125. GMD - 전자 드럼 126. E-GMD - 전자 드럼 127. NSynth - 대규모 악보 128. Bach Doodle - 화음 129. MAESTRO - 피아노 연주
PART 5 강화학습 데이터 CHAPTER 18 강화학습(Reinforcement Learning Environments) 130. Green House - 온실 시뮬레이션 131. OpenAI GYM - 대규모 강화학습 환경들 132. D4RL - 대규모 강화학습 환경들
PART 6 과학기술 데이터 CHAPTER 19 생명과학(Biology) 133. GDC - 암 유전자 포털 134. CTPR - 항암 약물치료 반응 135. KEGG - 유전자 & 물질대사 136. OOD - 박테리아 유전자 137. COVID-19 Open-Data - 코로나19