医学影像数据集汇总分享
- 一、前言
- 二、分类数据集
- 2.1NIH Chest X-ray胸部X射线图像数据集
- 2.2CC-CCII肺部CT图像数据集
- 三、定位数据集
- 3.1NIH Chest X-ray胸部X射线图像数据集
- 四、分割数据集
- 4.1CAMUS心脏超声图像数据集
- 4.2CC-CCII肺部CT图像数据集
- 4.3Shenzhen Hospital胸部X射线图像数据集
- 4.4Montgomery County胸部X射线图像数据集
- 4.5NLM Open-i Indiana Dataset胸部X射线图像数据集
- 4.6LOLA11肺部CT图像数据集
- 参考文档
一、前言
在深度学习领域,数据集的重要性不言而喻,因此本文对医学影像检测领域中公开的数据集进行了一个简要汇总,主要记录数据集的类型、数量等信息,并给出相应的下载地址。
本文主要借鉴了一个GitHub上开源的项目:医学影像数据集集锦,在其基础上进行了补充和完善。
本文主要根据检测任务的不同分别进行汇总,将数据集分为分类、定位、分割三种,内部根据数据量的大小进行逆序排序。
二、分类数据集
2.1NIH Chest X-ray胸部X射线图像数据集
数据集下载网页地址为:https://www.kaggle.com/datasets/nih-chest-xrays/data/data,界面如下:
参数 | 参数值 |
---|---|
来源 | National Institutes of Health |
数量 | 共约112,120张 |
文件格式 | 图片:png格式,标签:csv格式 |
像素大小 | 1024×1024 |
类别 | 共8类 |
下载地址 | https://www.kaggle.com/datasets/nih-chest-xrays/data/data |
文件大小 | 45G(分为多个文件夹) |
2.2CC-CCII肺部CT图像数据集
数据集下载网页地址为:http://ncov-ai.big.ac.cn/download,界面如下:
参数 | 参数值 |
---|---|
来源 | 中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation) |
数量 | 共约58766张 |
文件格式 | 图片:jpg、png格式,标签:文件压缩包名即为标签 |
像素大小 | 512×512 |
类别 | 共三类:COVID-19 pneumonia、common pneumonia、normal |
下载地址 | http://ncov-ai.big.ac.cn/download |
文件大小 | 53T(分为多个压缩包) |
三、定位数据集
3.1NIH Chest X-ray胸部X射线图像数据集
数据集下载网页地址为:https://www.kaggle.com/datasets/nih-chest-xrays/data/data,界面如下:
参数 | 参数值 |
---|---|
来源 | National Institutes of Health |
数量 | 共约880张 |
文件格式 | 图片:png格式,标签:csv格式 |
像素大小 | 1024×1024 |
类别 | 共1类 |
下载地址 | https://www.kaggle.com/datasets/nih-chest-xrays/data/data |
文件大小 | 图片分散,无法估计总大小 |
四、分割数据集
4.1CAMUS心脏超声图像数据集
数据集下载网页地址为:https://www.creatis.insa-lyon.fr/Challenge/camus/databases.html,界面如下:
参数 | 参数值 |
---|---|
来源 | University Hospital of St Etienne (France) |
数量 | 共500×40=20,000张,共有500名病人,每名病人的超声影像文件可提取出40张图片 |
文件格式 | 图片:nii.gz格式,标签:nii.gz格式 |
像素大小 | 549×389 |
类别 | 背景,心脏区域 |
下载地址 | https://humanheart-project.creatis.insa-lyon.fr/database/#collection/6373703d73e9f0047faa1bc8 |
文件大小 | 3.6G |
4.2CC-CCII肺部CT图像数据集
数据集下载网页地址为:http://ncov-ai.big.ac.cn/download,界面如下:
参数 | 参数值 |
---|---|
来源 | 中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation) |
数量 | 带有mask标记的共750张,总数共有21470张 |
文件格式 | 图片:jpg格式,标签:png格式 |
像素大小 | 512×512 |
类别 | 0: Background (BG)1: Lung field (LF)2: Ground-glass opacity (GGO)3: Consolidation (CO) |
下载地址 | https://download.cncb.ac.cn/covid-ct/ct_lesion_seg.zip |
文件大小 | 844M |
4.3Shenzhen Hospital胸部X射线图像数据集
数据集下载网页地址为:https://lhncbc.nlm.nih.gov/LHC-downloads/dataset.html,界面如下:
参数 | 参数值 |
---|---|
来源 | Shenzhen No.3 Hospital in Shenzhen, Guangdong providence, China |
数量 | 带有mask标记的共336张,总数共有662张 |
文件格式 | 图片:png格式,标签:png格式 |
像素大小 | 像素大小不一致,3000×2900、2500×2500 |
类别 | 0: 背景,255: 病变区域,病变类型体现在文件名 |
下载地址 | https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Shenzhen-Hospital-CXR-Set/Annotations/index.html |
文件大小 | 约为3.5G |
4.4Montgomery County胸部X射线图像数据集
数据集下载网页地址为:https://lhncbc.nlm.nih.gov/LHC-downloads/dataset.html,界面如下:
参数 | 参数值 |
---|---|
来源 | Department of Health and Human Services of Montgomery County, MD, USA |
数量 | 共138张,每张有两个肺部区域分割标签 |
文件格式 | 图片:png格式,标签:png格式 |
像素大小 | 4000×4900 |
类别 | 0: 背景,255: 肺部区域,是否异常体现在文件名 |
下载地址 | https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Montgomery-County-CXR-Set/MontgomerySet/index.html |
文件大小 | 约为500M |
4.5NLM Open-i Indiana Dataset胸部X射线图像数据集
数据集下载网页地址为:https://openi.nlm.nih.gov/faq#collection,界面如下:
参数 | 参数值 |
---|---|
来源 | National Library of Medicine(NLM) Indiana University |
数量 | 带有mask标签的共55张,正向拍摄图片共3864张,正向拍摄图片共3689张 |
文件格式 | 图片:png格式,标签:tif格式 |
像素大小 | 2300×2800 |
类别 | 0: 背景,255: 肺部区域 |
下载地址 | https://openi.nlm.nih.gov/imgs/collections/NLMCXR_png.tgz |
文件大小 | 233M+1.3G |
4.6LOLA11肺部CT图像数据集
数据集下载网页地址为:https://lola11.grand-challenge.org/Details/](https://lola11.grand-challenge.org/Details/),界面如下:
参数 | 参数值 |
---|---|
来源 | LOLA11 |
数量 | 共约24,000张,但没有标签 |
文件格式 | 图片:mha格式,标签:Nan |
像素大小 | 512×512 |
类别 | Nan |
下载地址 | https://zenodo.org/records/4708800 |
文件大小 | 7.7G |
参考文档
医学影像数据集集锦
NLM Lister Hill National Center for Biomedical Communications
胸部\肺部ct数据集
百度灵医智惠医疗AI影像能力再上新台阶
COVID-19 image data collection
Human Heart Project
Contrastive Pretraining for Echocardiography Segmentation with Limited Data
Medical Segmentation Decathlon