Arc Institute 发布的大规模单细胞开放数据集,汇集超6亿细胞观测与药物扰动数据,CC0 协议完全开放,专为 AI 虚拟细胞建模设计。
GigaScience Press 旗下的生物医学数据存储库,收录超2,600个DOI可引用的多组学数据集,配备人类策展人提供专业数据管理服务。
智源研究院主导的大规模开源中文互联网语料库,CCI 4.0 数据总量达35TB,含中英双语和CoT推理合成数据,助力大模型训练。
中国科学院建设的国内首个科学数据搜索引擎,覆盖14个学科、3700万+开放数据集,总数据量20.32PB,免费提供统一数据检索服务。
欧盟官方开放数据门户,聚合超170万条欧洲公共数据集,覆盖经济、环境、交通等多领域,支持SPARQL语义查询和API接口。
全球最大的开放网页爬取项目,每月爬取数十亿网页,免费提供WARC/WAT/WET格式数据,是训练大语言模型的核心数据基础设施。
美国卫生与公众服务部官方健康数据门户,汇集NIH、CDC、FDA等联邦机构的公开医疗健康数据集,是公共卫生研究的权威数据来源。
世界银行运营的全球发展数据免费开放平台,提供200+国家数十年的经济、社会、教育等多维指标,含Global Findex 2025等权威数据集。
上海人工智能实验室打造的国内领先AI开源数据集平台,提供数千个高质量数据集下载和WanJuan3.0多语言语料库,支持国内高速下载。
社区驱动的GitHub开源项目(69K+ Star),按主题分类整理了全球高质量公共数据集链接,覆盖20+领域,是数据科学界的“数据导航地图”。
谷歌开源的大规模图像数据集,提供超900万张图片的高质量框、分割及视觉关系标注,用于CV预训练。
谷歌推出的全球公开数据集统一检索引擎,通过元数据索引帮助研究者快速发现跨学科的海量数据资源。
中华人民共和国国家统计局官方平台,提供最权威全面的GDP、人口、CPI等宏观经济时间序列数据。
纽约市官方开放数据门户,提供交通、公共安全、311投诉等数百项高精度城市时空公共数据集。
NASA地球观测数据检索与分发核心门户,涵盖全球数十年气象、海洋、极地卫星遥感与实测权威资料。
知名数据新闻机构538的开源数据库,包含美国大选民调、NBA预测、文化趣闻等极富故事性的清洗后数据。
机器学习论文、代码与数据集关联索引平台,提供AI各任务SOTA排行榜及标准数据集导航。
全球电影数据库 IMDb 发布的免费非商用数据子集,提供千万级电影元数据、演员阵容及评分用于学术研究。
中国最大AI开发者社区,提供行业稀缺数据集、高奖金竞赛和免费云端计算资源。
收录10万+机器学习论文及代码实现,提供7600+任务SOTA排行榜和1.4万+数据集索引。
CERN与欧盟联合开发的开放科学数据存储库,免费提供研究数据上传、DOI分配和永久存档服务。
开源机器学习实验管理与可复现平台,提供500+标准化数据集和自动实验结果追踪功能。
AWS云平台上的大规模公开数据集目录,涵盖气象、基因组学、卫星影像等,支持云端就地分析。
全球最大的数据科学竞赛与机器学习社区平台,提供超10万个公开数据集、免费GPU云端Notebook和高奖金竞赛。
机器学习领域最经典的开源数据集平台,由加州大学欧文分校维护,收录650+高质量基准数据集。