OASIS（Open Access Series of Imaging Studies）是一个旨在向科学界免费分发大脑神经影像数据集的项目，对于阿尔茨海默病（Alzheimer’s disease, AD）及正常衰老的研究具有重要的里程碑意义。该数据集汇集了大量受试者的高分辨率磁共振成像（MRI）扫描，其中核心数据类型为T1加权（T1w）结构MRI图像，这种模态因其优异的解剖对比度而被广泛用于脑体积测量和形态学分析。OASIS数据集通常包括横断面（Cross-sectional）和纵向（Longitudinal）两个主要子集，涵盖了从非痴呆的健康对照组到轻度认知障碍（MCI）及各阶段阿尔茨海默病患者的广泛人群。每一个样本不仅包含原始的影像数据，还配以丰富的人口统计学信息（如年龄、性别、教育程度）以及临床认知评估分数（如CDR评分和MMSE评分），这使得研究人员能够将大脑结构的解剖学变化与认知功能衰退的具体临床表现进行精确关联。通过提供经过标准预处理（如头骨剥离、图谱配准和增益场校正）的T1w MRI图像，OASIS极大地降低了数据清洗的门槛，促进了基于深度学习的计算机辅助诊断算法、脑萎缩模式识别以及疾病进展预测模型的开发与验证，已成为神经影像学和医学图像分析领域公认的基准数据集之一。
https://sites.wustl.edu/oasisbrains/

DIR-Lab

在医学影像分析领域，高质量的公开数据集对于算法的验证与模型的开发至关重要，其中DIR-Lab肺部数据集与阿尔茨海默病（AD）相关数据集是两个极具代表性的资源。DIR-Lab肺部数据集是评估可变形图像配准（DIR）算法精度的黄金标准之一，该数据集主要涵盖了呼吸屏气（Breath-hold）CT与四维CT（4DCT）图像，具体而言，4DCT数据记录了患者在完整呼吸周期内的肺部运动轨迹，提供了不同呼吸时相（如吸气末与呼气末）的高分辨率图像，不仅捕捉了复杂的肺组织形变，还附带了由专家手动标注的地标点（Landmarks），这使得研究人员能够量化配准误差，进而有效解决放射治疗中因呼吸运动导致的靶区定位难题；与此同时，阿尔茨海默病数据集（如ADNI数据集）则聚焦于神经退行性疾病的早期诊断与病程预测，这些数据集通常包含多模态数据，整合了结构磁共振成像（MRI）、正电子发射断层扫描（PET）、基因型数据以及临床认知评估量表，旨在揭示大脑结构萎缩、代谢异常与认知功能下降之间的关联，为开发基于深度学习的自动化诊断工具提供了丰富的数据支撑，从而推动了从肺部运动建模到脑部病理分析的跨领域医学影像技术进步。
https://med.emory.edu/departments/radiation-oncology/research-laboratories/deformable-image-registration/index.html

IXI

IXI数据集（Information eXtraction from Images）是医学影像分析领域中备受推崇的开源脑部磁共振成像（MRI）资源，广泛应用于神经影像学的算法开发、模型验证及解剖学研究。该数据集由来自伦敦的三家不同医院（Hammersmith Hospital、Guy's Hospital和Institute of Psychiatry）收集而成，包含了近600名健康受试者的多模态影像数据，覆盖了广泛的年龄跨度，具有极高的统计学代表性和普适性。IXI数据集的核心价值在于其提供了完整且高质量的三种主要模态：T1加权（T1-weighted）、T2加权（T2-weighted）以及质子密度加权（PD-weighted）图像，这些模态在临床诊断和研究中各具特色。具体而言，T1加权图像能够清晰地显示解剖结构，灰白质对比度高，非常适合用于脑组织的分割和体积测量；T2加权图像对液体信号敏感，脑脊液呈高亮显示，常用于病变检测（尽管该数据集主要针对健康人，但其作为正常对照组至关重要）；PD加权图像则提供了介于T1和T2之间的组织对比信息，有助于进一步区分特定组织特征或用于多模态融合分析以增强图像细节。所有数据均以NIfTI格式存储，无需复杂的预处理即可直接导入主流医学影像处理软件（如FSL、SPM）或深度学习框架中。此外，IXI数据集还附带了受试者的基本人口统计学信息（如年龄、性别、种族等），这使得研究人员能够进行基于年龄老化、性别差异的群体性脑结构分析。凭借其多中心采集带来的扫描仪异质性、丰富多样的模态组合以及开源免费的特性，IXI数据集已成为测试图像配准、图谱构建、超分辨率重建及跨模态合成等任务的基准数据集之一，极大地推动了计算机辅助诊断技术的发展。
https://brain-development.org/ixi-dataset

Lung-CT

Lung-CT数据集是医学影像分析领域中一个至关重要的资源，广泛应用于计算机辅助诊断（CAD）系统的研发，旨在通过高分辨率的计算机断层扫描（CT）图像辅助医生进行肺部疾病的早期筛查与精准诊断。该数据集通常包含大量经过匿名处理的肺部CT扫描序列，样本覆盖了从健康肺部到包含各类病变（如肺结节、肺气肿、肺癌、磨玻璃影等）的多样化病理特征，且往往配有由放射科专家进行标注的“金标准”数据，包括病灶的位置、大小、良恶性分类及纹理特征等详细信息。在深度学习与人工智能技术飞速发展的背景下，Lung-CT数据集为卷积神经网络（CNN）等算法模型的训练、验证与测试提供了坚实的数据基础，不仅极大地推动了自动化肺结节检测、肺部器官分割及病变分类算法的性能提升，还有效降低了漏诊率与误诊率，对提升肺癌早期生存率及优化临床诊疗流程具有深远的科研价值与临床意义。
https://learn2reg.grand-challenge.org/

Abdomen-MR-CT

Abdomen-MR-CT数据集是医学图像处理领域中一个极具价值的基准数据集，主要用于推动跨模态图像合成、无监督领域自适应（Unsupervised Domain Adaptation, UDA）以及医学图像分割算法的研究与验证。该数据集包含了来自不同医疗机构、不同成像设备的腹部磁共振成像（MRI）和计算机断层扫描（CT）图像，其核心挑战在于解决两种模态之间巨大的分布差异（Domain Shift），即MRI通常具有较好的软组织对比度但受伪影影响较大，而CT则具有清晰的解剖结构和密度信息但辐射较高，两者在灰度范围、纹理特征及成像机理上存在显著异同。通常情况下，该数据集经过了严格的预处理，包括去噪、归一化以及解剖结构的标注（如肝脏、肾脏、脾脏等主要腹部器官的分割掩码），为研究人员提供了一个标准化的实验环境。在实际应用中，Abdomen-MR-CT数据集常被用于训练生成对抗网络（GANs）以实现从MRI到CT或从CT到MRI的高质量图像转换，从而缓解某一模态数据稀缺的问题，或者用于训练在源域（如CT）上学习并在目标域（如MRI）上泛化性能良好的分割模型，极大地降低了对目标域数据进行像素级标注的高昂成本。此外，该数据集的引入促进了多模态融合技术的发展，通过结合CT的空间分辨率优势和MRI的软组织分辨优势，旨在辅助放射科医生进行更精准的疾病诊断和手术规划。综上所述，Abdomen-MR-CT数据集不仅是评估医学影像AI算法鲁棒性和泛化能力的试金石，也是连接不同成像模态、实现跨域医疗数据高效利用的重要桥梁，对于提升智能辅助诊断系统的临床实用性具有深远的科研意义。
https://learn2reg.grand-challenge.org/

MM-WHS

MM-WHS（Multi-Modality Whole Heart Segmentation）数据集是医学图像分析领域中一个极具影响力的基准资源，专门用于解决全心脏结构的自动分割挑战。该数据集最初源于2017年在MICCAI会议上举办的挑战赛，旨在推动多模态心脏图像分割算法的发展与评估。MM-WHS数据集的核心价值在于其涵盖了两种主要的医学成像模态：计算机断层扫描（CT）和磁共振成像（MRI），共计包含120张来自不同患者的3D心脏图像，这些数据均由经验丰富的临床专家进行了精细的逐体素手动标注。数据集不仅提供了覆盖全心脏的解剖结构信息，还特别针对七个关键心脏子结构进行了标注，包括左心室、右心室、左心房、右心房、心肌、升主动脉和肺动脉，这种细粒度的标注为深度学习模型提供了高质量的训练样本，能够有效支持模型学习复杂的心脏解剖特征。与单一模态的数据集相比，MM-WHS的独特之处在于其跨模态特性，这使得研究人员能够探索和验证领域自适应（Domain Adaptation）及多模态融合技术，从而解决不同成像设备间的数据分布差异问题，提高算法在临床实际应用中的鲁棒性。自发布以来，MM-WHS已成为全心脏分割任务的标准测试平台，广泛应用于测试卷积神经网络（CNN）、Transformer等先进架构在医学图像分割中的性能，极大地促进了心脏疾病诊断、手术规划及术中导航等计算机辅助医疗技术的进步，是心血管影像分析研究中不可或缺的重要数据支撑。
https://zmiclab.github.io/zxh/0/mmwhs/或https://pan.quark.cn/s/ca7951044652

ACDC

自动化心脏诊断挑战赛（Automated Cardiac Diagnosis Challenge, ACDC）是医学影像与人工智能交叉领域的重要基准任务之一，旨在推动基于心脏磁共振成像（Cardiac MRI）的自动分析方法发展。该挑战通常围绕左心室、右心室与心肌等关键结构的分割与功能参数评估展开，要求算法在不同个体、不同病理类型以及成像差异条件下保持稳定表现，从而为临床诊断与随访提供可量化、可复现的辅助依据。ACDC的核心价值在于提供统一的数据规范与评测体系，使研究者能够在可比条件下验证模型性能。其常用指标涵盖分割精度（如Dice系数）与边界一致性（如Hausdorff距离），并进一步关联射血分数、舒张末期容积等临床指标的估计误差。通过标准化对比，ACDC促进了从传统图像处理到深度学习方法的迭代，也推动了对数据偏移、泛化能力与临床可解释性等关键问题的持续关注。总体而言，ACDC不仅提升了心脏影像自动化分析的技术水平，也在一定程度上缩短了科研成果向临床应用转化的路径。随着多中心数据与更严格临床验证的引入，类似挑战将继续为可靠、可推广的智能诊断系统奠定基础。
https://www.creatis.insa-lyon.fr/Challenge/acdc/databases.html 或 https://pan.quark.cn/s/e9afb85c209c

Synapse

Synapse医学分割数据集是医学图像分割领域中应用广泛的公共基准之一，常用于评估与比较各类分割算法在多器官场景下的性能。该数据集以腹部计算机断层扫描（CT）影像为主要数据来源，具有组织结构复杂、器官边界模糊以及个体差异显著等特点，因而能够较为充分地检验模型在真实临床条件下的鲁棒性与泛化能力。在研究实践中，Synapse数据集通常被用于多器官分割任务，目标包括肝脏、脾脏、胰腺及相关血管或肾脏等关键解剖结构。其标注结果为算法训练提供了明确的监督信号，同时也便于采用Dice系数、Hausdorff距离等指标进行定量评估。由于不同器官在体积、形态与对比度方面存在显著差异，研究者可据此分析模型在小器官、弱对比器官以及相邻组织粘连区域中的表现，从而推动网络结构设计、损失函数构建与后处理策略的改进。总体而言，Synapse医学分割数据集在促进医学影像分割方法的标准化比较与技术迭代方面具有重要价值。通过在该数据集上的系统实验，研究者不仅能够验证算法有效性，还可为临床辅助诊断与术前规划等应用场景提供更可靠的技术支撑。
https://pan.quark.cn/s/6eb6913a7f24

血管支架Stent OCT

本数据集专为心血管介入领域的医学影像分析与深度学习算法开发而设计，重点聚焦于血管支架植入后的光学相干断层扫描（OCT）图像处理。数据集结构严谨，分为训练集与测试集两部分，旨在支持支架贴壁不良检测、内膜覆盖评估及血管管腔分割等关键任务的模型训练与验证。训练集包含276张高分辨率OCT图像及其对应的JSON格式掩膜标注文件，数据总量达342MB，为模型提供了丰富的特征学习样本，涵盖了多种支架形态与血管内环境的复杂变化。测试集则包含42张独立的OCT图像，总大小为121MB，旨在以高质量的未见数据客观评估算法的泛化能力与临床应用潜力。该数据集的构建不仅为智能医疗辅助诊断系统的研发提供了坚实的数据基础，也对提升血管介入手术的术后评估精度具有重要的科研与应用价值。
https://pan.baidu.com/s/1bjdfFAU8gHZBTWjWNI8ErA?pwd=1234

ARCADE

ARCADES数据集是基于 X 射线血管造影图像的自动区域化冠状动脉疾病诊断数据集第一阶段，为 ARCADE 挑战赛的两项任务分别提供了两组 XCA（X 射线冠状动脉造影）图像数据集。第一项任务总计包含 1200 张冠状动脉血管树图像，划分为训练集（1000 张）与验证集（200 张）；其中训练集图像配有标注，依据 Syntax 评分标准 [1] 将心脏划分为 26 个不同区域。第二项任务同样包含 1200 张独立图像，训练集与验证集划分比例一致，且标注了存在动脉粥样硬化斑块的区域。该数据集由医学专家精心标注，助力科研人员推进冠状动脉疾病患者自动化风险评估系统的研发。该数据集结构如下：顶层目录syntax和stenosis分别对应两个数据集任务，即：i）依据 SYNTAX 标准进行血管分支分类；ii）狭窄检测。两个目录下均设有train（训练集）、val（验证集）和test（测试集）三个子集。每个子集文件夹内又包含images（图像）和annotations（标注）两个下级目录。images文件夹内为从 DICOM 文件中提取的 PNG 格式图像；annotations文件夹内为独立的 JSON 文件，文件名与任务对应，分别为train.JSON、val.JSON和test.JSON。JSON 文件结构包含三个顶层字段：images（图像信息）、categories（类别信息）和annotations（标注信息）。images字段包含图像在数据集中的唯一id、像素尺寸width（宽度）与height（高度），以及file_name（文件名）子字段，记录图像具体信息。categories字段包含 1 至 26 的唯一id，以及与 SYNTAX 标准描述对应的name（类别名称）。annotations字段包含标注的唯一id、关联对应图像的image_id、关联对应类别的category_id。segmentation子字段以 XYXY 格式记录掩码边缘点坐标；bbox字段以 XYWH 格式记录边界框坐标，前两个数值为分割掩码最左侧与最顶部的 X、Y 坐标，边界框的高度和宽度由最右侧、最底部坐标与前两个坐标的差值计算得出。最后，area字段为边界框的总面积，按矩形面积公式计算。
https://pan.quark.cn/s/3032318ef3af

CADICA

CADICA数据集是一个包含 42 名患者的有创冠状动脉造影（ICA）图像标注数据集，其中包含人工标注的病变边界框以及筛选后的临床特征。在有创冠状动脉造影成像中，病变程度评估通常依靠肉眼判断，这会引入主观因素以及不同观察者之间的评估差异。对病变的精准识别对于实现正确诊断与治疗至关重要，这也推动了可在临床诊疗过程中为专科医师提供辅助的计算机辅助系统的研发。该数据集可供临床医师用于精进冠状动脉疾病（CAD）严重程度的造影评估技能，供计算机科研人员开发计算机辅助诊断系统，同时也可用于验证现有冠状动脉病变检测方法，从而推动适用于临床场景的解决方案落地。CADICA 数据集以文件夹形式存储，内部包含存储临床数据的metadata.xlsx文件，以及两个用于区分医疗团队为每位患者筛选视频的主文件夹：nonselectedVideos（未筛选视频）和selectedVideos（已筛选视频）。两个文件夹内均设有多个子目录，命名规则为pX（X 代表患者编号）与vY（Y 代表对应患者的视频编号）。pX患者文件夹内容,vY：多个子目录，存储该患者对应的筛选后视频,lesionVideos.txt：记录至少存在一处标注病变的筛选视频编号,nonlesionVideos.txt：记录无可见病变的筛选视频编号vY视频文件夹内容,input：子目录，存储视频每一帧对应的独立 PNG 格式图片文件,pX_vY_selectedFrames.txt：记录医疗团队为所有筛选视频选定的关键帧编号,groundtruth：仅当该筛选视频存在病变时，才会包含此标注子目录,groundtruth标注文件夹内容,pX_vY_000ZZ.txt：每行记录一组边界框及其类别，文件数量与pX_vY_selectedFrames.txt中的关键帧数量一致。边界框格式为[x,y,w,h]，其中(x,y)为边界框左上角像素坐标，w为边界框宽度，h为边界框高度,pX_vY_groundTruthTable.mat：存储该视频标注信息的 MATLAB 数据表格文件,在selectedVideos文件夹内，还包含CADICAprojections.json文件，用于记录视频造影投射角度信息。由于存在人工剔除操作，数据集总视频数量与最终筛选视频数量可能不一致。
https://pan.quark.cn/s/42118d9d4279

🚀 交通数据

Car_Damage_detection Dataset

基于框（Box）与掩膜（Mask）的目标检测是当前计算机视觉任务中常用且互补的两类表示方式。Box 检测以矩形边界框定位目标，具备标注成本相对较低、训练与推理效率较高的优势，适用于对目标位置与类别的快速判别；Mask 检测（实例分割）在此基础上提供像素级轮廓信息，能够更精确地刻画目标形状与边界，尤其适合遮挡严重、形态复杂或需要精细测量的应用场景。两者结合能够在保持检测效率的同时显著提升对目标细节的表达能力，从而增强模型在复杂环境下的鲁棒性与可用性。在数据配置方面，CarDD数据集采用 4000 张图像构建训练与评估体系，其中训练集 2816 张、验证集 810 张、测试集 374 张。该划分保证了训练数据的主体规模，用于学习目标的外观与尺度变化；验证集用于调参与模型选择，避免过拟合并提升泛化能力；测试集则用于最终性能评估，确保结果具有客观性与可复现性。基于该数据规模与划分策略，可在 Box 与 Mask 两条任务线上分别建立基线模型，并通过联合训练或多任务学习进一步提升整体性能，为后续落地部署与场景扩展提供可靠支撑。
https://pan.quark.cn/s/f66b1c2b859d

PEMS

随着智能交通系统（ITS）与时空数据挖掘技术的飞速发展，高质量的交通流数据成为了相关研究的基石。在众多公开数据集中，源自美国加州交通局性能测量系统（Caltrans Performance Measurement System, PeMS）的数据因其规模宏大、维度丰富而被学术界广泛采用。特别是PEMS03、PEMS04、PEMS07及PEMS08这四个子集，已成为评估交通预测模型性能的标准基准。PeMS系统实时收集来自加州高速公路网络中数万个传感器的交通数据。这些数据通常以5分钟为时间间隔进行聚合，涵盖了流量（Flow）、占有率（Occupancy）和速度（Speed）等核心指标。针对图神经网络（GNN）及深度学习在交通领域的应用，研究人员整理出了以下四个具有代表性的数据集：(1)`PEMS03`：该数据集采集自加州第3区（District 3，涵盖萨克拉门托及周边地区），包含358个传感器节点。其特点在于路网拓扑结构相对复杂，能够有效测试模型对非欧几里得空间数据的处理能力。(2)`PEMS04`：源自旧金山湾区（District 4），包含307个传感器。作为一个高度城市化的区域，PEMS04不仅流量巨大，且极易发生拥堵，数据中包含大量突变与非线性特征，非常适合用于检验模型在复杂交通流模式下的鲁棒性。(3)`PEMS07`：涵盖洛杉矶地区（District 7），拥有883个传感器节点，是这四个数据集中规模最大的一个。洛杉矶庞大的路网规模和极高的车流量使得PEMS07成为测试大规模时空预测算法扩展性和计算效率的理想选择。(4)`PEMS08`：采集自圣贝纳迪诺地区（District 8），包含170个传感器。虽然节点数量相对较少，但该区域不仅包含城市道路，还涉及大量城际连接线，数据特征兼具稳定性与周期性，常被用于与其他数据集进行对比分析。PEMS03/04/07/08数据集通过构建邻接矩阵定义了传感器之间的空间关系，并提供了长周期的时序数据，为捕捉交通流的时空依赖性提供了丰富素材。这四个数据集不仅推动了图卷积网络（GCN）等前沿算法在交通领域的落地，也为构建更高效的智慧城市交通管理系统提供了坚实的数据支撑。
https://pan.quark.cn/s/8ce056e793d7

SHMetro&HZMetro

SHMetro 与 HZMetro 数据集主要关注于城市轨道交通客流预测问题，研究时间范围为每日5:15至23:30。具体而言，以过去连续四个时间间隔（每个间隔为15分钟，共计60分钟）的进出站客流数据为输入，预测未来四个时间间隔（同样为60分钟）的客流情况。通过滑动时间窗口的方式，每日可划分为66个时间片，从而构建连续的时序预测样本。在数据组织方面，每个数据集均划分为训练集、验证集与测试集，并分别以pkl文件形式存储。核心数据包括输入序列x与预测目标y，其中x表示历史四个时间间隔内各站点的进出站客流，y表示未来四个时间间隔的对应客流。数据以多维数组形式呈现，涵盖时间片数量、序列长度、站点数量以及数据维度（进站与出站）。此外，xtime与ytime分别记录对应的时间戳信息。以SHMetro为例，其训练数据覆盖62天，共形成4092个时间样本。除时序客流数据外，数据集还提供多种图结构信息，以支持图建模方法的应用。这些图包括反映站点物理连接关系的邻接图、基于客流模式构建的相似性图，以及刻画统计相关性的关联图。这些多维图信息为捕捉空间依赖关系提供了重要支撑。总之，SHMetro与HZMetro数据集通过融合时序与图结构信息，为城市轨道交通客流预测任务提供了系统而完整的数据基础，有助于推动相关模型的研究与应用。
https://pan.quark.cn/s/5d75321fb4e3

TaxiNY

New York Taxi Trip Data（纽约出租车出行数据集）是城市交通研究与数据分析领域中极具代表性的公开数据资源之一，广泛用于学术研究、商业分析以及智能交通系统的开发。该数据集通常由纽约市出租车与豪华轿车委员会（TLC）发布，涵盖了大量出租车行程记录，包括上车时间与地点、下车时间与地点、行程距离、费用构成（如车费、小费、附加费）、乘客数量以及支付方式等关键字段。通过对这些高频、高维度的数据进行挖掘与分析，研究人员可以深入理解城市出行模式、交通拥堵状况、供需分布以及时间与空间上的变化规律。此外，该数据集还被广泛应用于机器学习与数据挖掘任务，如需求预测、异常检测、路径优化以及动态定价策略设计等。由于其数据规模庞大、结构规范且具有现实意义，New York Taxi Trip Data不仅为数据科学实践提供了理想的实验平台，也在智慧城市建设和城市治理优化中发挥着重要的参考价值。
https://pan.quark.cn/s/0788dd32ce50

TaxiBJ

TaxiBJ数据集是由北京地区出租车轨迹与流量统计数据构建而成的典型城市时空数据集，广泛应用于交通预测、时空序列建模和深度学习研究中。该数据集通常包含按固定时间间隔（如30分钟）统计的城市网格化区域内的进出流量信息，即每个网格在某一时间段内的出租车进入（inflow）与离开（outflow）数量，从而形成具有明显时序性和空间依赖性的多维数据结构。TaxiBJ数据往往覆盖较长时间跨度（如数月或全年），并附带多种辅助信息，例如节假日标记、气象条件（天气类型、温度、风速等）以及时间特征（小时、星期几等），以帮助模型捕捉复杂的外部影响因素。在数据表示上，城市通常被划分为规则网格（例如32×32），每个时间片形成一个类似“图像”的流量分布，使其非常适合卷积神经网络（CNN）、循环神经网络（RNN）以及图神经网络（GNN）等模型进行建模。TaxiBJ数据集因其结构清晰、规模适中且具有真实城市交通特征，已成为评估短期交通流预测方法（如ST-ResNet等经典模型）的重要基准数据集，在智慧交通、城市规划与出行需求预测等领域具有重要研究价值。
https://pan.quark.cn/s/6abf869c4dee

TaxiPorto

Taxi Porto 数据集是一个广泛应用于轨迹预测与时空数据分析领域的经典公共数据集，主要来源于葡萄牙波尔图市的出租车运营记录，因其数据规模庞大、结构完整且具有较高的现实代表性而受到学术界与工业界的高度关注。该数据集通常包含大量出租车在实际运营过程中生成的GPS轨迹信息，以及与之相关的元数据，例如行程起止时间、路径序列、车辆标识、呼叫类型、时间戳和地理坐标等，这些信息共同构成了丰富的时空序列数据资源。研究人员可以利用Taxi Porto数据集开展多种任务，包括但不限于轨迹预测、出行需求建模、交通流分析、路径推荐、异常检测以及智能交通系统优化等。同时，该数据集还为深度学习模型（如循环神经网络、图神经网络和Transformer架构）在时空序列建模中的应用提供了重要实验基础。在实际使用过程中，研究者通常需要对原始数据进行预处理，例如轨迹裁剪、异常值过滤、坐标归一化以及序列长度统一等，以提升模型训练效果。此外，由于该数据集涉及真实城市运行环境，其复杂性和噪声特征也为算法的鲁棒性测试提供了良好场景，因此在智慧城市与交通智能化研究中具有重要的参考价值和实践意义。
https://pan.quark.cn/s/7ecdd1ce4f04

🚀 汉字数据

CASIA

CASIA汉字识别数据集是中文光学字符识别（OCR）领域最具代表性的基准之一，由中国科学院自动化研究所（Institute of Automation, Chinese Academy of Sciences）相关团队构建并持续完善。该数据集面向汉字识别的核心需求，覆盖手写与印刷等典型应用场景，为算法研究、模型训练与性能评测提供了高质量的数据基础。从内容与结构看，CASIA数据集通常包含多类别汉字样本，并在采集时尽可能引入书写者差异、笔迹风格差异以及成像质量变化等因素，以提升数据的多样性与真实性。这类设计使模型不仅能学习汉字的基本字形结构，还能增强对不同书写习惯、噪声干扰与形变情况的鲁棒性。基于规范的训练/测试划分与统一的评测协议，研究者能够在可复现的条件下对比不同特征表示方法与深度学习模型的效果，推动识别准确率与泛化能力的持续提升。在应用层面，CASIA汉字识别数据集广泛服务于智能文档处理、表单录入、教育批改、档案数字化以及移动端文字识别等任务。总体而言，CASIA数据集以权威来源、样本规模与评测标准化为优势，已成为中文字符识别研究的重要公共资源，对促进算法迭代与产业落地具有长期价值。
https://pan.quark.cn/s/d278a8e5095b

🚀 行人数据

UCY/ETH

ETH/UCY数据集是行人轨迹预测领域最具代表性的公开基准之一，广泛用于评估社会交互建模与运动预测算法的有效性。该数据集由ETH与UCY两部分组成，包含多个真实场景下的行人运动轨迹，常见序列包括ETH、HOTEL、UNIV、ZARA1与ZARA2等，共有1536个新人，其中包括多个行人交互方式，如结伴一起走，群体交叉，群体形成和分散。数据通过固定视角摄像机采集，并经由标注与透视变换映射到统一的地面平面坐标系，因而能够以二维位置序列的形式直接用于建模与对比实验。在数据内容与挑战方面，ETH/UCY覆盖了校园、街区与广场等开放环境，具有密集人群、交叉行走、群体同行与避碰绕行等典型社会行为特征。由于行人决策受到周围人群与场景结构的共同影响，该数据集天然适合检验模型对“社会交互”（如相互让行、跟随、结伴）以及对多模态未来轨迹的刻画能力。研究中通常采用观测—预测的切分设置（例如给定一段历史轨迹预测未来位置），并以ADE/FDE等指标衡量平均误差与终点误差，从而形成相对统一的评测范式。总体而言，ETH/UCY数据集以真实场景、标准化坐标与丰富交互行为为优势，已成为轨迹预测研究中验证方法泛化能力与对比性能的重要基础资源，同时也持续推动了从单一动力学建模向交互驱动、分布式与不确定性预测等方向的发展。
https://pan.quark.cn/s/eb23e27cb2b3

GC

英国火车站GrandCentral数据集（Britain Train Station GrandCentral Dataset）作为计算机视觉与智能交通系统研究领域的重要资源，为人群计数、行为分析及场景理解提供了高质量的数据支持。该数据集采集自英国伯明翰新街火车站（Birmingham New Street Station）繁忙的交通枢纽场景，具体聚焦于“Grand Central”购物中心与交通换乘区域。由于该区域不仅是交通节点，更是商业与社交中心，因此涵盖了极具挑战性的视觉场景。数据集主要包含长时间跨度的监控视频序列，其显著特点包括： (1) 高密度人群：记录了从稀疏到极度拥挤的多种人群密度变化，能够有效测试算法在复杂遮挡情况下的鲁棒性。(2) 多视角覆盖：采用多角度摄像头布局，提供了丰富的空间几何信息，适用于跨摄像头追踪（Re-ID）及3D场景重建研究。(3) 复杂光照与环境：涵盖了全天候的光照变化（包括自然光与人造光源的混合），以及静态背景与动态人流的复杂交互。 GrandCentral数据集不仅是简单的图像集合，更是评估和训练深度学习模型的基准平台。其核心价值体现在以下几个方面： a) 人群计数与密度估计（Crowd Counting）：数据集为基于回归的密度图生成算法提供了理想的测试床，帮助开发者解决高密度场景下的计数偏差问题。b) 异常行为检测：复杂的流动模式使得该数据集成为训练异常检测模型的优良素材，有助于识别逆行、奔跑或非法聚集等潜在安全隐患。c) 智能监控系统优化：通过对该真实场景数据的分析，能够显著提升智能视频分析（IVA）系统在实际部署中的准确率与响应速度
https://www.ee.cuhk.edu.hk/~xgwang/grandcentral.html 或 https://pan.quark.cn/s/ba63b630e62f

SDD

斯坦福无人机数据集（Stanford Drone Dataset, SDD）是计算机视觉领域用于研究行人、车辆及多类交通参与者行为理解的重要公开数据集之一。该数据集以俯视视角为核心特征，由无人机在真实城市与校园环境中采集视频，覆盖道路交叉口、广场、停车场与校园通道等多种典型场景。由于视角接近“上帝视角”，SDD在减少遮挡影响、呈现完整运动轨迹方面具有独特优势，使其成为轨迹预测、运动模式建模与多目标跟踪研究的常用基准。SDD的价值不仅在于提供多类别目标的时空标注与连续轨迹，还在于其复杂的交互与环境约束：行人、骑行者、车辆等主体在同一空间内协同行为频繁，路径选择受道路结构与他人运动影响显著。这种高密度、强交互的特性为研究社会力模型、图神经网络、注意力机制等方法提供了现实检验场，也推动了从“检测与跟踪”向“理解与预测”的任务演进。在应用层面，SDD支持自动驾驶感知与规划、智慧交通分析、机器人导航与人群安全评估等方向的算法开发与对比评测。同时，研究者也需关注其局限性，例如俯视视角与特定采集区域带来的域差异、类别分布不均衡以及标注噪声对模型泛化的影响。总体而言，斯坦福无人机数据集以真实场景、丰富交互与轨迹标注为特点，为多智能体行为建模与预测提供了高质量数据基础，并持续促进相关技术走向可落地的现实系统。
https://pan.quark.cn/s/f65799d62d13

MALL

MALL 数据集（Mall Dataset）是一个在计算机视觉领域广泛应用的基准数据集，主要用于人群计数和密度估计的研究。该数据集源于一个购物中心的监控视频，包含约60分钟的连续录像，捕捉了商场内行人流动的动态场景。数据集的独特之处在于其真实性和复杂性：视频分辨率为640×480像素，涵盖了各种光照条件、遮挡和人群密度变化，总共标注了超过6万帧图像中的行人位置。在人群计数任务中，MALL 数据集扮演着关键角色。它提供了视角固定的场景数据，支持基于深度学习的方法如卷积神经网络（CNN）和生成对抗网络（GAN）的训练与评估。相比其他数据集，如ShanghaiTech或WorldExpo'10，MALL 数据集强调时间序列分析，能够更好地模拟现实监控环境中的挑战，例如行人重叠和背景干扰。这使得它成为评估算法鲁棒性和准确性的理想选择。总之，MALL 数据集推动了人群分析技术的进步，在智能安防、交通管理和公共安全等领域具有实际应用价值。随着人工智能的发展，该数据集将继续为相关研究提供宝贵资源，促进更精确的人群行为预测。
https://pan.quark.cn/s/1cb80977ed06

🚀 海事数据

SMD

新加坡海事数据集,使用佳能 70D 相机在新加坡水域拍摄并创建了新加坡海事数据集（Singapore Maritime Dataset）。所有视频均以高清格式（1080×1920 像素）采集。此外，将该数据集分为两部分：岸上视频（on-shore videos）和船载视频（on-board videos），前者由放置在岸上固定平台的相机采集，后者由放置在移动船舶上的相机采集。这些视频采集自不同的地点和航线，因此捕捉的场景各不相同。第三部分为近红外（NIR）视频，同样使用佳能 70D 相机拍摄，但移除了热镜并加装了 Mid-Opt BP800 近红外带通滤光片。
https://pan.quark.cn/s/f67572a1926f

🚀 3D数据

Mip_NeRF360

在神经辐射场（NeRF）的研究领域中，高质量的数据集是推动算法进步的关键驱动力。Mip-NeRF 360 数据集，作为 CVPR 2022 论文《Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields》的重要组成部分，针对传统 NeRF 模型在处理“无界”（Unbounded）场景时面临的局限性，提出了一个新的评估基准。该数据集的出现，弥补了此前 LLFF 和 Blender 数据集在覆盖范围和场景复杂性上的不足，成为衡量现代新视点合成算法性能的重要标准。Mip-NeRF 360 数据集主要包含两类场景：室外场景（Outdoor）和室内场景（Indoor），共计 9 个精心设计的场景（5 个室外，4 个室内）。(1) 360度全方位覆盖：与以往仅提供前向视角（front-facing）的数据集不同，该数据集围绕中心物体进行了 360 度的全方位拍摄。这要求算法不仅要重建中心物体，还要处理极其复杂的背景信息。(2) 无界场景（Unbounded Scenes）：这是该数据集最显著的特征。场景中的相机轨迹虽然围绕中心，但背景（如天空、远处的树木、建筑物）延伸至无穷远。这种设计专门用于测试算法如何平衡近景的高频细节与远景的深度模糊，极具挑战性。(3) 高分辨率与复杂光照：图像分辨率极高，且包含了复杂的光照条件（如树叶投下的阴影、高反光表面等）。这不仅考验模型的几何重建能力，更考验其对外观（Appearance）建模的鲁棒性。
https://pan.quark.cn/s/7966fab5c3a1

Pix3D

Pix3D数据集是计算机视觉和图形学领域中一个重要的多模态数据集，旨在推动三维重建、物体识别与合成等研究的进展。该数据集于2018年由一组研究人员推出，包含了丰富的三维模型及其对应的二维图像，广泛应用于深度学习和人工智能的多个研究方向。在Pix3D数据集中，数据的多样性和质量是其显著的特点。数据集包括来自多个真实场景的物体图像，涵盖了家具、家电、装饰等多个类别。这些图片不仅包括物体的正视图，还包括各种视角和场景背景，使得模型可以学习到更为复杂的环境交互。数据集中提供的三维模型经过严格筛选，确保了其与二维图像在语义和视觉上的一致性。这种一致性为研究人员提供了一个非常重要的工具，可以监督学习算法的训练，进而改进三维视觉理解能力。此外，Pix3D数据集还支持多种任务，如单一视角的三维重建、物体分割以及图像合成等，进一步拓展了其应用范围。尽管Pix3D数据集已在相关研究中取得了显著的成果，但仍面临一些挑战。比如，数据集中物体的复杂性和多样性可能导致模型泛化能力的不足。为了解决这些问题，研究者们需要不断探索更为先进的算法，并结合数据增强技术，以提升模型的性能和稳定性。总结来说，Pix3D数据集为三维视觉领域提供了宝贵的资源，促进了相关技术的研究和发展。随着研究的不断深入，期待该数据集能为更多创新的应用奠定基础。
https://pan.quark.cn/s/aae500a10e64

PartNet

PartNet数据集：推动零部件分割与装配分析的工具PartNet数据集是近年来在计算机视觉和机器学习领域备受关注的重要数据集之一。其主要目的是为零部件分割与三维物体的理解提供一个大规模、结构化的数据来源。PartNet的创建不仅充实了物体识别与分割的研究，也为多种应用场景下的智能制造、机器人操作和人机交互等领域奠定了基础。PartNet数据集的独特性在于其详细的部分分解结构。与传统的三维物体数据集相比，PartNet不仅提供了物体的整体形状信息，还对每个部件进行了精确的标注。这意味着研究者可以在数据集中获取每个部件的形状、位置及其在整体结构中的作用。这种分层信息的丰富表达，使得PartNet在零件识别和装配分析等应用中具有显著的优势。此外，PartNet数据集的构建遵循了高标准的质量控制流程，确保了数据标注的一致性和准确性。数据集中包含的各种物体类别和丰富的变种，不仅涵盖了日常生活中的常见物品，如家具、电器和工具，还包括复杂的机械组件。这种广泛的类别覆盖，使得PartNet在训练和测试深度学习模型时，能够有效提升模型的泛化能力。总的来说，PartNet数据集作为一个具有重要科研价值的资源，其推动了零部件分割和三维理解技术的进步。在未来，随着数据集的持续扩展和优化，PartNet无疑将为科研人员和工程师提供更加丰富的工具与资源，促进智能制造和自动化领域的重大发展。
https://pan.quark.cn/s/c973e48bf47f

ABC

ABC(A Big CAD Model)数据集在现代工程设计与制造领域，计算机辅助设计（CAD）模型的使用变得愈加普遍与重要。随着行业需求的增加，CAD模型数据集的丰富性和规模也随之提升。其中，“A Big CAD Model数据集”作为一个重要的资源，提供了广泛的应用潜力和研究价值。该数据集汇集了各类复杂的CAD模型，涵盖了不同的工业领域，如机械工程、建筑设计、电子产品等。这些模型不仅具有多样性，还包含了不同等级的细节与精确度，使得研究人员与行业专家能够在多元化的应用场景中进行探讨与实验。利用“A Big CAD Model数据集”，研究人员可以开展更高效的算法验证和性能评估。例如，在计算机视觉和机器学习领域，该数据集为训练与测试提供了丰富的样本，有助于提高模型的精确度与鲁棒性。此外，这一数据集也能促进设计自动化的进步，帮助工程师快速生成优化的设计方案。然而，使用这一数据集时也面临着挑战。其中包括数据的管理与存储、模型的标准化处理以及跨学科协作的复杂性。为了最大化数据集的使用价值，必须制定有效的管理策略，确保数据的可获取性与可用性。综上所述，“A Big CAD Model数据集”是一个宝贵的资源，推动了CAD技术的应用与发展，促进了相关学科的研究创新。通过有效利用这一数据集，工程师与研究人员能够共同提升设计效率与创新能力，为未来的制造业注入新的活力。
https://pan.quark.cn/s/b57dd72dba1b

ScanNet

ScanNet数据集是一个用于3D场景理解与重建的重要基础数据集，广泛应用于计算机视觉、机器人导航、增强现实等领域。该数据集由斯坦福大学和乔治亚理工学院的研究团队联合开发，旨在为自学习的深度神经网络提供高质量的3D数据。ScanNet数据集包含超过1500个真实环境的室内场景，所有场景均经过详细的3D重建，并配以丰富的语义标签。数据集的核心包括RGB-D视频序列，其中RGB图像和深度图同步捕捉，适用于训练和评估算法在多模态数据下的性能。此外，ScanNet还提供了场景分割、物体检测和三维重建等多种任务的标注，帮助研究者在不同场景中进行多样化的实验。使用ScanNet数据集的优势在于其真实感和多样性，它涵盖了住宅、办公室、商店等多种类型的室内环境，极大地提高了模型的泛化能力。此外，数据集中的开放性和标准化标注，允许运用者更方便地进行对比实验，促进了学术界的交流与合作。总而言之，ScanNet数据集以其高质量的3D重建和详尽的标签信息，成为了当前计算机视觉领域内不可或缺的研究资源，对于推动室内场景理解技术的进步具有重要意义。
https://pan.quark.cn/s/ae0e590685c5

ShapeNet

ShapeNet 是计算机视觉与三维几何领域广泛使用的大规模三维数据集之一，旨在为三维形状的表示学习、检索、识别与重建等任务提供标准化的数据基础。该数据集以丰富的类别覆盖与较高的模型质量著称，能够支持从传统几何算法到深度学习方法的多种研究范式。在内容构成上，ShapeNet 主要由大量带有语义标注的三维 CAD 模型组成，并按照对象类别进行组织。其典型版本包含 ShapeNetCore 等子集，提供相对规范的类别体系与训练、验证、测试划分，便于学术研究开展可复现的实验比较。部分扩展数据还可包含模型层级关系、部件级语义以及与现实世界物体相关的元数据，从而支持更细粒度的三维理解任务。在应用层面，ShapeNet 常用于三维分类与检索、点云/体素/网格等表示的学习、单视图或多视图三维重建、形状补全与生成等方向。通过统一的基准数据，研究者能够系统评估不同三维表示与网络结构的优劣，并推动三维智能在机器人感知、增强现实与数字内容生产等场景中的发展。总体而言，ShapeNet 为三维形状研究提供了重要的数据支撑与评测基础。
https://pan.baidu.com/s/17RwWWpiqZYMh-P7RVXYfWw?pwd=1234

ModelNet

ModelNet 是计算机视觉与三维形状分析领域中广泛使用的基准数据集之一，主要面向三维物体分类与检索等任务。该数据集由大量计算机辅助设计（CAD）模型构成，覆盖日常生活与工业场景中的多类物体，具有类别清晰、结构规范、易于标准化处理等特点，因此常被用于评估三维深度学习方法的有效性与泛化能力。在数据组织方面，ModelNet 通常以类别为目录结构进行管理，并提供训练集与测试集的划分，便于研究者在统一设置下开展可重复实验。学术研究中最常引用的子集包括 ModelNet10 与 ModelNet40，分别包含 10 类与 40 类物体，后者因类别更丰富而更适合检验模型在复杂类别空间中的判别能力。数据样本多以网格（mesh）形式提供，研究者也常将其转换为体素、点云或多视图渲染图像，以适配不同的模型输入范式。总体而言，ModelNet 以其规模适中、标注明确和社区接受度高的优势，成为三维视觉研究的重要公共资源。它不仅推动了点云网络、体素网络与多视图方法的发展，也为算法对比提供了相对一致的实验基线，在三维识别任务中具有持续的参考价值。
https://pan.quark.cn/s/a26c7db72f48

UrbanBIS

UrbanBIS 数据集是一套面向城市建筑与基础设施场景的专业数据资源，旨在为计算机视觉与遥感解译等研究提供统一、可复用的评测基础。该数据集围绕城市空间要素的精细表达与结构化理解进行设计，能够支持多类型目标的识别、定位与形态分析，从而服务于城市规划、基础设施巡检与精细化治理等应用需求。在内容构成方面，UrbanBIS 通常以高分辨率影像为核心数据载体，覆盖多样化的城市场景与典型地物形态，并配套提供标准化标注信息。其标注形式可用于训练与评估主流视觉任务，例如目标检测、语义分割或实例分割等，以便模型在复杂背景、尺度变化与遮挡干扰条件下仍能保持稳定表现。通过对建筑轮廓、道路网络及相关城市要素的系统标注，数据集促进了对城市形态与功能结构的综合刻画。从研究价值看，UrbanBIS 的意义不仅在于提供数据规模与标注质量，更在于为算法的可比性与可复现性建立规范基准。借助该数据集，研究者能够开展更公平的模型对照实验，分析不同方法在城市复杂环境中的鲁棒性与泛化能力，并进一步推动面向真实应用的城市智能感知与决策支持技术发展。
https://pan.quark.cn/s/b5dc122b42ec

LUSM

LSUN（Large-scale Scene Understanding）是一个面向场景理解任务的大规模图像数据集，其构建目标在于为深度学习模型提供高质量、覆盖丰富语义类别的训练与评测资源。与早期主要依赖纯人工标注或静态采集流程的数据集不同，LSUN强调“深度学习与人工在环（Humans in the Loop）”的协同机制，通过模型与标注者的迭代配合，实现规模扩展与标注质量的平衡。在数据来源与组织方式上，LSUN以互联网图像为主要采集渠道，围绕室内外场景与常见物体类别进行结构化整理。其典型任务形式包括场景分类与目标/场景的局部标注等，类别设计覆盖客厅、卧室、厨房、教室、会议室等高频室内场景，并提供与之相匹配的大量样本，以支撑深度神经网络对复杂视觉语义的学习需求。由于数据规模巨大，LSUN在类别一致性、噪声过滤与长尾样本控制方面也面临现实挑战。“人工在环”的核心在于将模型预测能力用于提升标注效率：初始阶段先由人工对少量样本进行高置信度标注，训练出初版分类/检索模型；随后模型对海量候选图像进行筛选、排序或提出疑难样本，人工再对模型不确定或易混淆部分进行复核与纠错。通过反复迭代，数据集能够以较低边际成本扩张规模，同时在关键边界样本上维持较高的标注准确性。这种流程不仅提高了生产效率，也减少了完全依赖人工所带来的主观漂移与一致性风险。总体而言，LSUN以大规模、面向场景理解的图像集合与“深度学习+人工在环”的构建范式，为计算机视觉研究提供了重要基准。其方法论意义在于：在数据驱动的深度学习时代，高质量数据集的生产不再是单次标注工程，而更像一个可持续迭代的系统，通过模型能力反哺数据建设，从而推动场景理解模型在真实复杂环境中的泛化与性能提升。
https://pan.baidu.com/s/1hj8dPeMq6aQO_UXqnQhblQ?pwd=1234

Structure3D

在计算机视觉和图形学的快速发展中，三维重建一直是研究的热门领域，推动了虚拟现实、增强现实及机器人技术的进步。而在这一领域中，Structure3D数据集的出现，标志着一个新的起点，极大地促进了三维重建技术的研究和应用。一、Structure3D数据集的背景Structure3D数据集是由一组高质量的三维场景数据构成，旨在帮助研究者和开发者在多视角环境下进行三维重建。该数据集通过结合真实场景和合成场景，以便提供一个全面的测试平台，促进在深度学习和图像处理算法方面的创新。其数据涵盖了丰富的场景类型，包括室内环境、城市街道及自然景观等，具备多样性和复杂性。二、数据集的组成部分Structure3D数据集通常包括多种格式的数据，如RGB图像、深度图、点云以及相应的相机标定参数。具体来说：1. RGB图像：高分辨率的图像数据可用于视觉特征提取和图像处理。2. 深度图：提供场景中每个像素到相机的精确距离，使得算法可以更准确地重建三维结构。3. 点云：由一系列点的三维坐标组成，能够直观地表示物体的形状和空间位置。4. 相机参数：包括内参和外参，为研究者提供必要的几何信息，以进行准确的三维重建。通过这些多样化的数据，研究者能够更加全面地理解和解决三维重建过程中面临的挑战，如遮挡、光照变化以及物体形状的多样性等。三、科研与应用价值Structure3D数据集的价值不仅仅在于其数据量的丰富，更在于它为科研提供了一个标准化的测试基准。在深度学习领域，涉及三维重建的算法往往需要大量的训练数据，而Structure3D数据集的多样性恰好满足了这一需求。研究者可以在此基础上进行模型的训练和评估，从而提升其在实际应用中的有效性和可靠性。此外，随着虚拟现实和增强现实的普及，Structure3D数据集在实际应用中的潜力也日益凸显。高质量的三维重建不仅可以用于游戏和影视特效，亦可广泛应用于建筑设计、城市规划以及医疗影像等领域，为相关行业的发展提供重要技术支持。四、结论总的来说，Structure3D数据集为三维重建的研究与应用提供了一个强大的平台，促进了计算机视觉领域的进步。随着技术的不断演进和应用场景的不断扩展，未来将会有更多基于该数据集的创新研究涌现。为更深入地理解我们的三维世界，Structure3D数据集无疑是一个重要的里程碑。
https://pan.quark.cn/s/be41360ea88d

HM3D

Habitat-Matterport 3D数据集,随着虚拟现实、增强现实和3D建模技术的快速发展，3D数据集在计算机视觉和机器人领域的重要性日益显著。其中，Habitat-Matterport 3D数据集成为了研究人员和开发者们的重要资源。Habitat-Matterport 3D数据集源于Matterport的高质量3D扫描技术，覆盖了多种复杂的室内环境。这些环境的真实感和多样性，使得Habitat平台能够为智能体在虚拟空间中的导航、交互和学习提供丰富的训练和测试环境。该数据集提供了详细的3D模型，包括布局、家具和光照等信息，确保了在虚拟环境中的高度真实还原。哈比塔平台的设计目标是促进智能体在复杂环境中的自主学习与决策能力。借助Habitat-Matterport 3D数据集，研究人员能够开发出具有高度适应性的算法，提升机器人在现实场景中的表现。例如，使用该数据集进行的研究能够帮助改进视觉导航、物体抓取和人机交互等任务。此外，Habitat-Matterport 3D数据集的开放性，推动了学术界与工业界的合作研究。通过共享数据和算法，研究者们能够更好地进行比较和验证，从而加速技术的进步与应用。这种资源共享的模式，不仅提升了研究的效率，也为后续的创新提供了基础。总的来说，Habitat-Matterport 3D数据集为智能体研究提供了一个强有力的工具，推动了计算机视觉和人工智能的发展。随着技术的不断进步，该数据集将继续在多样化的应用中发挥重要作用，引领行业向更高阶段迈进。
https://pan.quark.cn/s/df0004ac4b5b

🚀 姿势数据

AUTH UAV Gesture Dataset

AUTH UAV Gesture Dataset是一个由希腊塞萨洛尼基亚里士多德大学（Aristotle University of Thessaloniki）的研究团队公开发布的重要计算机视觉资源，旨在推进无人机（UAV）人机交互领域的研究，特别是针对基于手势的无人机控制与指挥任务。该数据集包含了大量在户外真实环境下采集的高清视频序列，覆盖了多种复杂的光照条件和背景环境，这使得其相比实验室环境下的数据集更具实际应用价值。数据集中定义并标注了六种用于控制无人机飞行的特定静态手势，这些手势由不同性别、年龄和着装的受试者在不同距离和角度下完成，从而保证了样本的多样性和鲁棒性。作为一个专门针对无人机视角的基准数据集，它为开发低计算成本、高精度的手势识别算法提供了关键的训练与测试素材，对于提升无人机在搜救、巡检及影视拍摄等场景下的自主交互能力具有显著的学术与工程意义。
https://pan.quark.cn/s/d59f48dd1ea6

🚀 人脸表情

CelebA

CelebA（CelebFaces Attributes）数据集是由香港中文大学多媒体实验室构建并发布的一个大规模人脸属性评估基准数据集，在计算机视觉与深度学习领域享有极高的学术声誉与广泛的工业应用价值。该数据集收录了超过二十万张名人人脸图像，涵盖了一万余名身份各异的公众人物，且这些图像均源自互联网环境下的自然抓拍，因此不仅具备极大的数量规模，更包含了极为丰富的姿态、表情、光照条件以及复杂的背景变化，极大地考验并促进了视觉算法在真实复杂场景下的鲁棒性。尤为值得一提的是，CelebA数据集为每一张图像均提供了极为详尽且高精度的专家标注信息，具体包括五个关键的人脸特征点（双眼、鼻尖及嘴角两侧）以及多达四十种二元面部属性标签，例如是否佩戴眼镜、是否微笑、头发颜色、性别特征、年龄阶段等，这种多维度、细粒度的标注体系为研究人员提供了极为宝贵的数据支持。正是得益于其庞大的数据量与精细的标注质量，CelebA不仅成为了人脸识别、人脸对齐、面部属性检测等传统计算机视觉任务不可或缺的测试基准，更在近年来随着生成式对抗网络（GAN）的蓬勃发展，成为了人脸图像生成、面部特征编辑、跨模态人脸合成以及深度伪造检测等前沿生成式人工智能任务的标准化验证平台，深刻地推动了人工智能在人脸图像处理技术上的演进与突破，对整个学术界与工业界的数据驱动创新做出了不可磨灭的基础性贡献。
https://pan.baidu.com/s/1qHUAG_eHeeoBQJfCrYD5dg?pwd=1234

FER2013

FER2013（Facial Expression Recognition 2013）数据集作为计算机视觉与情感计算领域内最具代表性且被广泛采用的基准测试数据源之一，自2013年在国际机器学习大会（ICML）的表征学习研讨会上首次发布以来，便在推动面部表情识别技术的发展中扮演了举足轻重的角色。该数据集共包含35,887张尺寸为48×48像素的灰度人脸图像，这些图像主要通过网络搜索引擎在自然状态下抓取获得，并经过自动化的人脸配准与裁剪处理。在类别划分上，FER2013严格遵循基础情感理论，将所有图像精细归类为七种离散的面部表情状态，即愤怒（Angry）、厌恶（Disgust）、恐惧（Fear）、快乐（Happy）、悲伤（Sad）、惊讶（Surprise）以及中性（Neutral）。为了满足机器学习模型的训练与评估需求，整个数据集被科学地划分为训练集（约28,709张样本）、公开验证集（约3,589张样本）以及私有测试集（约3,589张样本），从而为算法的泛化能力提供了标准化的衡量尺度。然而，该数据集同样以其极高的挑战性而闻名于学术界：不仅图像分辨率较低且缺乏色彩信息，而且由于数据来源于非受限的真实世界环境（In-the-wild），图像中普遍存在复杂的光照变化、不同程度的面部遮挡、多样的头部姿态以及显著的类间样本不平衡问题（例如“快乐”类别的样本量远大于“厌恶”与“恐惧”类别）。此外，部分图像标注的主观性与潜在的标签噪声也对分类模型的鲁棒性提出了严苛的考验。尽管面临诸多数据层面上的固有挑战，FER2013数据集仍凭借其庞大的数据规模与贴近真实应用场景的特性，成为了验证卷积神经网络（CNN）等深度学习架构在面部微特征捕捉与情感语义提取能力方面不可或缺的试金石，并持续启发着全球科研人员在人机交互、心理健康监测以及智能视频分析等前沿交叉领域进行更为深入的学术探索与技术创新。
https://pan.quark.cn/s/4891a9e3597a

RAF-DB

真实世界情感面部数据库（Real-world Affective Faces Database，简称RAF-DB）是计算机视觉与情感计算领域中具有里程碑意义的大规模面部表情识别数据集，其诞生极大地推动了该领域的研究从传统的实验室受控环境向复杂多变的自然场景（in-the-wild）过渡。作为一项极具挑战性的基准测试平台，RAF-DB包含了近三万张从互联网海量资源中精心收集的面部图像，这些图像不仅在光照条件、头部姿态、图像分辨率以及局部遮挡情况上展现出极其显著的异质性，还广泛涵盖了不同年龄、性别和种族的人口统计学特征，从而精准且全面地反映了人类在现实生活中的真实面貌与情感表达。为了确保数据的学术严谨性与标注的极高可靠性，该数据集的构建者采用了严格的众包标注机制，每张图像均由多位经过培训的独立标注者进行多轮交叉验证与客观评估，最终依据统计学原理确定其黄金标准标签。在数据结构层面，RAF-DB被科学地划分为两个核心子集：其一为包含快乐、悲伤、愤怒、惊讶、恐惧、厌恶及中性这七大基础情绪的基本表情子集；其二为聚焦于多种情绪交融的复合表情子集（如又惊又喜、悲愤交加等）。这种由浅入深、细致入微的分类体系不仅满足了传统分类算法的训练需求，更为学术界探索人类复杂心理状态的视觉映射规律提供了极其珍贵的数字资产。凭借其庞大的数据规模、极高的数据自然度以及严苛的现实干扰因素，RAF-DB已然成为评估现代深度学习模型在面部表情识别任务中泛化能力与特征提取鲁棒性的权威试金石，持续引领着人工智能在人机情感交互、心理健康监测、智能安防及影视娱乐等前沿应用领域的深度创新与蓬勃发展。
https://pan.quark.cn/s/04d23c29e750

CK+

CK+数据集（The Extended Cohn-Kanade Dataset）是计算机视觉、机器学习以及情感计算领域中最经典且被最广泛使用的面部表情识别基准数据集之一。该数据集由匹兹堡大学等机构的研究人员在原始的Cohn-Kanade（CK）数据集基础上扩展而来，包含了来自123位不同性别、年龄（主要集中在18至30岁之间）和种族背景的参与者的593段面部表情视频序列。这些高分辨率的图像序列详细记录了参与者面部从完全中性的自然状态逐渐过渡到某种表情最高峰的完整动态过程。为了给算法训练与评估提供极其精确的客观标准，CK+数据集不仅配备了基于保罗·艾克曼（Paul Ekman）经典面部动作编码系统（FACS）的详细动作单元（Action Units, AUs）标注，还对其核心的327个序列打上了经过严格验证的七种基本离散情感标签——包括愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶。这种将微观的面部肌肉运动（AUs）与宏观的整体情感类别相结合的双重标注机制，使得该数据集既能用于基础的表情分类任务，也能支持复杂的面部动作单元检测研究。凭借其标准化的光照条件、严谨的实验室采集环境以及高度规范的标注体系，CK+数据集在过去十几年中一直作为评估各类特征提取算法和深度神经网络模型性能的“黄金标准”，为推动人工智能在智能化人机交互、心理健康监测、自动驾驶疲劳检测以及虚拟现实等前沿应用领域的发展奠定了不可或缺的坚实数据基础。
https://pan.quark.cn/s/407634b98314

AffectNet

AffectNet数据集是情感计算与面部表情识别（Facial Expression Recognition, FER）领域中极具里程碑意义的大规模“野外”（in-the-wild）图像数据库，其诞生标志着计算机视觉技术在理解人类复杂情感方面迈出了至关重要的一步。该数据集由研究人员通过多种主流搜索引擎，利用数百个与情绪相关的多语种关键词在全球互联网范围内抓取构建而成，总计包含超过一百万张的自然人脸图像，从而彻底打破了传统实验室环境下由于受控光照和单一姿态所带来的数据局限性。在数据标注方面，AffectNet展现出了极高的学术严谨性与多维度的数据抽象能力，它不仅为数十万张核心图像提供了基于离散情绪模型（包括快乐、悲伤、愤怒、恐惧、惊讶、厌恶、轻蔑以及中性等八大基本类别）的精确人工标注，更创新性地引入了基于连续情感空间模型（Valence-Arousal，即效价与唤醒度）的二维坐标量化标注，使得算法能够更细腻、连续地刻画人类在真实自然场景下的面部肌肉微动与情绪渐变。这一兼具广度与深度的双轨标注体系，结合其庞大的数据规模与高度的场景多样性（广泛涵盖了各类极端光照、面部遮挡、大角度头部姿态及多元种族特征），不仅为深度学习算法（尤其是深度卷积神经网络及视觉Transformer架构）在复杂现实环境下的鲁棒性训练与泛化能力提升提供了不可或缺的数据基础设施，更极大地推动了情感感知型人机交互、智能辅助驾驶疲劳监测、心理健康自动化评估等前沿交叉领域的理论研究与工业落地进程，是当前引领全球人工智能技术由基础视觉感知向高阶情感认知与机器共情能力迈进的核心基石。
https://pan.quark.cn/s/694c136d2a1f

🚀 农业数据

Tomato-Village

Tomato-Village 数据集是一个专门用于农业计算机视觉研究的重要资源。该数据集由多个番茄种植园的高清图像构成，旨在支持植物疾病识别、果实成熟度评估及产量预测等研究领域。随着智能农业技术的不断发展，利用计算机视觉技术进行番茄监测与管理变得愈加重要，而该数据集则为相关研究提供了坚实的基础。该数据集的构建不仅涵盖了不同生长阶段的番茄植物，还包含了多种照明条件和视角的图像，使得模型训练更加多样化和具有代表性。同时，数据集中的图像均已标注，允许研究人员基于清晰的目标进行模型构建和验证。这些特性使得 Tomato-Village 数据集在农业机器人、智能监控系统及精准农业等领域具有极高的应用价值。然而，尽管 Tomato-Village 数据集提供了丰富的信息，研究人员仍需谨慎使用，确保在标注和模型训练过程中考虑到潜在的偏差。此外，数据的有效性和适用性也需要不断通过实地实验进行验证。通过对该数据集的深入研究，科学家们有望提高番茄的种植效率，最终推动可持续农业的发展。综上所述，Tomato-Village 数据集不仅为农业科学的研究提供了宝贵的数据支持，同时也促进了智能技术在农业领域的应用，展现了现代科技为传统农业带来的变革潜力。
https://pan.quark.cn/s/8bfb3851c7d0

Laboro_tomato

Laboro_tomato数据集是一个专注于番茄相关研究与应用的重要数据资源，其主要目标是支持农业科研、智能农业技术发展以及机器视觉领域的应用。该数据集涵盖了番茄植株的多维数据，包括生长周期、病虫害情况、果实成熟度以及环境因素等，具有极高的实用性和研究价值。首先，Laboro_tomato数据集的构建基于对多个种植环境和生长阶段的深入观察。数据采集不仅包括图像和视频资料，还涉及温度、湿度、土壤PH值等关键农业指标。这些数据的多样性为研究者提供了丰富的分析素材，有助于揭示影响番茄生长的各类因素。其次，Laboro_tomato数据集在智能农业的应用潜力上不容忽视。通过机器学习与图像识别技术，农业从业者能够利用该数据集开发出高效的病虫害监测系统与生长预测模型。这不仅提高了农业生产的效率，还助力于实现可持续发展的目标最后，Laboro_tomato数据集的开放性与可分享性为全球研究者提供了良好的合作平台。通过共享数据，研究人员可以交流各自的发现，促进跨学科的合作，进而推动农业科技的进步。综上所述，Laboro_tomato数据集不仅是农业领域的重要数据资产，也是推动智能农业与科研创新的重要助力。随着数据科学技术的不断发展，该数据集必将在未来的农业研究中发挥更为重要的作用。
https://pan.quark.cn/s/ec2514136f7e

🚀 自动驾驶

KITTI

KITTI数据集是计算机视觉领域中一个重要的基准数据集，主要用于自动驾驶和机器人导航等研究领域。该数据集于2012年由德国卡尔斯鲁厄理工学院的研究团队构建，旨在提供真实场景下的多种感知任务的训练和评估数据。KITTI数据集包括多种类型的数据，其中最为关键的是立体视觉、光流、视觉里程计和物体检测等任务的数据。数据集采集自多种城市环境、乡村道路以及高速公路，涵盖了丰富的场景变化，确保了数据的复杂性和多样性。使用高清晰度相机、激光雷达（Lidar）及GPS/IMU设备，KITTI数据集提供了高质量的图像与对应的位置信息，能够支持研发者进行精准的算法分析。此外，KITTI数据集以其严格的标注标准而著称。在数据集中，物体检测任务包含了多种类别的目标，如行人、车辆及骑行者等，并且每个目标都被精确框定和标注。这种高质量的标注为研究人员评估其模型的性能提供了可靠的基准。总而言之，KITTI数据集不仅为自动驾驶技术的进展提供了基础数据支持，也成为了全球研究者进行相关算法开发和测试的重要平台。通过不断的更新和扩展，KITTI数据集将继续在智能交通系统与计算机视觉领域发挥重要作用。
https://pan.quark.cn/s/ae0cfefc3c3b

BDD100K

BDD100K数据集是一个用于自动驾驶研究的重要数据集，旨在为计算机视觉和机器学习领域的研究人员提供丰富的标注数据。该数据集由伯克利大学推出，包含10万个图像及其对应的多样化场景和环境信息，涵盖城市、郊区和高速公路等复杂驾驶场景，极大地丰富了自动驾驶系统的训练和测试基础。BDD100K数据集的一个主要特点是其多样性。数据集中的图像是从全球范围内收集的，呈现出不同的天气条件、光照变化以及交通情况。这种多样性使得研究人员能够开发出更为鲁棒的自动驾驶算法，从而提高其在现实环境中的应用能力。此外，BDD100K数据集还提供了详细的标注信息，包括车辆、行人、交通标志等物体的识别和分割。这些标注为深度学习模型的训练提供了重要的监督信息，从而促进了目标检测、物体分割和行为预测等技术的进步。总之，BDD100K数据集的推出对自动驾驶领域的研究起到了积极的推动作用。它为算法开发和模型训练提供了基础数据支持，促进了计算机视觉技术的进步，从而推动了智能交通系统的发展。研究人员可以利用这一数据集进行更加深入的探索，寻求在复杂交通环境中实现安全和高效的自动驾驶解决方案。
https://pan.quark.cn/s/d3a9e6d05ef4

Argoverse2

Argoverse2是一个具有重要意义的自动驾驶数据集，旨在推动智能交通系统和自动驾驶车辆技术的发展。该数据集包含丰富的实时感知数据，主要来源于多个城市的自动驾驶汽车，其核心是多场景下的传感器融合和环境理解。Argoverse2的数据构建包括了激光雷达、摄像头以及GPS等多种传感器的高精度数据。这些数据不仅为研究者提供了真实世界中的动态环境信息，还有助于深度学习算法在复杂场景下的训练与验证。此外，数据集覆盖了多种驾驶环境，包括城市街道、交叉口及高速公路等，使得其具有广泛的应用价值。一个显著的特点是，Argoverse2还包含了高质量的经标注目标追踪数据和地图信息。这些信息为动态物体检测与跟踪、路径规划及决策制定等任务提供了坚实的基础，同时也促进了多智能体系统的研究发展。通过与其他数据集的对比，Argoverse2能够支持学术界和工业界对自动驾驶系统更深入的理解。总而言之，Argoverse2数据集是推动自动驾驶技术进步的重要资源，为研究人员和开发者提供了一个高质量的平台，以便于开展深入的研究和实验。这一数据集的推出标志着自动驾驶研究领域向前迈出了重要一步，并为未来的技术创新奠定了基础。
https://pan.quark.cn/s/7534c631c46e

nuScenes

nuScenes数据集是一个为自动驾驶和计算机视觉研究而设计的重要数据集。由Aptiv与麻省理工学院共同开发，该数据集在2019年首次发布。nuScenes旨在通过提供丰富的感知信息，推动自动驾驶技术的发展，尤其是在城市环境中的应用。nuScenes数据集的独特之处在于其多模态数据采集方式。数据集包含来自六个摄像头、激光雷达(LiDAR)、雷达和IMU（惯性测量单元）的信息，全面覆盖了感知所需的视觉和空间信息。数据集中包含的场景数据来自波士顿和新加坡，这使得其具备了不同城市环境下的多样性，涵盖了行人、车辆、交通标志及其他重要元素，真实反映了城市驾驶的复杂性。该数据集不仅提供原始传感器数据，还包括标注好的物体检测、跟踪和场景理解的真值标签。具体而言，nuScenes提供了1000个场景的标注数据，场景长度为20秒，包含20种不同的物体类别以及丰富的道路和交通情况。通过使用该数据集，研究人员可以有效地训练和测试自动驾驶算法，评估其在复杂城市环境中的表现。在自动驾驶的研究中，nuScenes数据集因其开放性和高质量的注释，成为了学术界和工业界广泛使用的标准数据集。其挑战性和多样性不仅推动了新算法和新技术的发展，也促进了相关的竞争和合作，为未来的智能交通系统奠定了基础。总之，nuScenes数据集是自动驾驶研究领域的重要资源，提供了深度学习、机器学习等技术在城市环境中应用的丰富数据支持。其在技术发展中的作用不仅局限于数据共享，更为行业前沿的智能解决方案提供了可能性。
https://pan.quark.cn/s/534256cc34a6

🚀 其他

LargeST

largeST数据集是一个高规模的、多维度的数据集合，主要用于研究与分析复杂系统中的时间序列和空间数据。随着大数据技术的发展，如何有效获取、存储和处理这些海量数据成为研究的重点。largeST数据集的构建旨在为学术界和产业界提供一个标准化的实验平台，以促进数据科学、机器学习和人工智能领域的发展。该数据集的主要特点在于其庞大的数据量和多样的特征维度。largeST数据集不仅包括基础的时间戳和空间位置信息，还融合了多个相关变量，例如气象数据、社会经济指标以及网络流量信息。这样的设计允许研究人员在多种场景下进行实验，探索不同因素对系统行为的影响。在应用方面，largeST数据集广泛应用于城市规划、交通管理、环境监测和公共安全等领域。通过分析这些数据，决策者可以更好地理解城市动态、预测交通拥堵、评估环境变化及制定相应的政策。此外，largeST数据集的开放性和共享性也促进了跨学科的合作，为数据驱动的科学研究提供了丰富的资源。总结而言，largeST数据集是研究时间和空间数据的重要工具，凭借其多维度的特性和广泛的应用范围，能够为各领域的研究提供有力支持。随着数据科学的持续进步，充分利用largeST数据集的潜力，将推动我们对复杂系统理解的进一步深化。
https://pan.quark.cn/s/96b801b66078

JData

JData数据集作为京东公司在特定业务场景下进行数据科学竞赛和学术研究而公开发布的宝贵资源，以其庞大的规模、丰富的字段和真实的用户行为数据，为数据挖掘、机器学习和商业智能等领域的研究人员和实践者提供了独特的探索机会。该数据集通常包含用户、商品、订单等核心实体的信息，涵盖了用户画像（如年龄、性别、地域）、商品属性（如品牌、品类、价格）、用户行为序列（如浏览、收藏、加购、购买）以及时间戳等关键数据点。通过对这些数据进行深入分析，研究者不仅能够洞察用户消费偏好、商品流行趋势，还能构建和优化推荐系统、预测用户购买行为、识别潜在欺诈模式，甚至评估市场营销活动的有效性。JData数据集的引入，极大地促进了电商平台用户行为建模、个性化推荐算法优化以及供应链效率提升等前沿课题的研究进展，成为验证理论模型和开发实际应用不可或缺的基石，其专业性和复杂性也对数据清洗、特征工程和模型选择提出了较高的要求，是数据科学领域一个极具挑战性也充满回报的研究对象。
https://pan.quark.cn/s/fb7468016ed6

Taobao

淘宝数据集作为一个庞大的电子商务平台数据集合，其蕴含的价值和潜在的应用前景是毋庸置疑的。它不仅涵盖了数以亿计的商品信息、用户行为数据（包括浏览、搜索、购买记录等）、商家运营数据（如店铺评价、销售额、促销活动）以及复杂的社交网络信息（如用户评论、问答互动），更重要的是，这些数据以其海量的规模、实时的更新频率和多元的异构性，为学术研究和商业分析提供了无与伦比的资源。在学术领域，研究人员可以利用淘宝数据集深入探讨消费者心理、市场趋势预测、推荐系统优化、欺诈检测、供应链管理以及自然语言处理在电商场景下的应用等前沿课题。而在商业应用层面，企业可以基于这些数据进行精准营销策略制定、产品生命周期管理、用户画像构建、竞品分析以及个性化服务提供，从而显著提升运营效率和市场竞争力。然而，伴随着巨大的价值，也带来了数据隐私保护、数据质量控制、大规模数据处理技术以及数据伦理等方面的挑战，这些都需要在数据收集、存储、分析和应用的全生命周期中予以高度关注和妥善解决。
https://pan.quark.cn/s/1f1f00fa4de1

Oxford-102 Flowers

Oxford-102 Flowers数据集是计算机视觉领域中广泛使用的细粒度图像分类基准数据集之一，由英国牛津大学视觉几何组（Visual Geometry Group, VGG）发布，旨在推动花卉类别识别任务的发展与研究。该数据集包含102个不同类别的花卉物种，涵盖了常见与具有代表性的花卉种类，每一类别在物种间具有较高的相似性，而类别内部又存在较大的外观变化，这一特点使其成为评估模型细粒度辨别能力的重要测试平台。整个数据集共收录了约8189张高质量彩色图像，图像来源多样，背景复杂，包括自然环境、不同光照条件以及多种拍摄角度，从而增强了任务的挑战性与现实意义。此外，数据集通常按照训练集、验证集和测试集进行划分，并提供类别标签及相关标注信息，部分扩展版本还包含分割标注与文本描述，进一步支持多模态研究。由于其规模适中且标注精确，Oxford-102 Flowers数据集被广泛应用于图像分类、迁移学习、注意力机制研究以及生成模型评估等多个方向，是深度学习模型性能对比和算法验证中的经典基准之一。
https://pan.quark.cn/s/cbf085f355d4

Laion aesthetics 6.5+

LAION Aesthetics 6.5+ 数据集是基于大规模开源图文数据集合 LAION-5B 筛选而来的高质量子集，其核心特点在于通过美学评分模型对图像进行自动评估，并选取评分在 6.5 分以上的样本，从而在规模与质量之间实现相对平衡。该数据集通常结合 CLIP 等多模态模型进行特征提取与评分预测，使得筛选过程具有较强的语义一致性与视觉审美导向，因此在图像生成、文本到图像模型训练（如 Stable Diffusion 系列）以及多模态对齐任务中被广泛应用。相较于原始 LAION 数据集，6.5+ 子集显著减少了低质量、模糊或语义不相关的数据，有助于提升模型生成内容的细节表现与整体美感，但同时也可能引入一定的审美偏置，例如偏向特定风格、构图或文化语境。此外，该数据集仍然继承了开源网络抓取数据的固有挑战，包括版权归属不明确、数据分布不均以及潜在的有害内容风险，因此在实际应用中通常需要配合进一步的数据清洗、过滤策略及合规审查。总体而言，LAION Aesthetics 6.5+ 数据集在当前生成式人工智能生态中扮演着重要基础资源的角色，为高质量视觉生成模型的训练提供了关键支撑。
https://pan.quark.cn/s/fe0e35be1924

MIMIC-CXR

MIMIC-CXR（Medical Information Mart for Intensive Care Chest X-Ray）数据集是由麻省理工学院计算生理学实验室（MIT-LCP）与贝斯以色列女执事医疗中心（BIDMC）合作发布的一个极其庞大且具有里程碑意义的公开医学影像数据集。作为迄今为止规模最大的免费可用胸部X射线数据集之一，它包含了来自超过6.5万名患者的22.7万余次影像学检查，总计超过37.7万张高分辨率数字格式的胸部X光图像（全面涵盖了正位和侧位视图）。该数据集的核心价值不仅在于其庞大的图像数量，更在于每项影像检查都配有由专业放射科医生撰写的对应自由文本放射学报告，这种图像与临床文本的高度耦合，为医疗人工智能领域的多模态研究提供了无与伦比的资源，极大地推动了计算机视觉（CV）和自然语言处理（NLP）技术在医学领域的交叉应用。在隐私保护方面，MIMIC-CXR遵循了最严格的数据去隐私化标准，所有医学图像均彻底剥离了符合《健康保险隐私及责任法案》（HIPAA）规定的受保护健康信息（PHI），并且文本报告也经过了定制化的自动脱敏算法处理，以确保患者个人隐私的绝对安全。为了进一步方便科研工作者的使用，该数据集还衍生出了MIMIC-CXR-JPG等更为轻量级、易于读取的版本，并结合CheXpert等工具为研究人员提供了预先提取的常见肺部疾病标签。通过严格的PhysioNet实名认证和数据访问协议申请后，全球各地的科研人员可以利用该数据集广泛开展胸部疾病自动分类、医学影像病理病灶检测、放射学诊断报告自动生成、跨模态图像检索以及大型医疗视觉-语言基础模型（VLM）预训练等前沿研究，从而极大地加速了智能辅助诊断系统从理论实验室走向真实临床应用场景的步伐。
https://pan.quark.cn/s/3e1600c1a9b0

ROCO

ROCO（Radiology Objects in COntext）数据集是一个在医学人工智能与计算机视觉领域具有重要影响力的大规模多模态医学图像数据集，旨在为医学图像与自然语言处理的交叉研究提供丰富的资源。该数据集主要来源于PubMed Central开放获取（PMC-OA）数据库中的海量生物医学文献，系统地收集了超过八万张各类放射学临床图像，涵盖了计算机断层扫描（CT）、磁共振成像（MRI）、超声波（Ultrasound）、X射线（X-ray）以及正电子发射断层扫描（PET）等多种主流医学影像模态。与传统的仅包含单一模态标注的医学数据集不同，ROCO数据集的核心优势在于其高质量的“图文对”结构——每张图像都配备了从文献原图注中提取、并经过严格数据清洗与去敏化处理的详细文本描述。这种将放射学对象置于真实临床语义语境中的设计，极大地填补了医学领域缺乏大规模图文配对数据的空白。凭借这一特性，ROCO数据集被全球研究人员广泛应用于开发和评估复杂的视觉-语言（Vision-Language）跨模态深度学习模型，支撑了一系列前沿的医学图像分析任务，包括自动医学图像描述生成（Medical Image Captioning）、基于文本的医学图像检索（Image-Text Retrieval）、医学视觉问答（Medical VQA）以及医疗领域多模态预训练大模型的构建。总体而言，ROCO数据集不仅极大地推动了计算机视觉技术与医学自然语言处理技术的深度融合，也为辅助临床医生进行高效诊断、降低医疗误诊率以及开发智能化的下一代医疗辅助决策系统奠定了坚实的数据基础。
https://pan.quark.cn/s/d980f7b52bd0

Latest updated: 2026-04-23 17:50