Common Crawl

浏览量 0

全球最大的开放网页爬取项目，每月爬取数十亿网页，免费提供WARC/WAT/WET格式数据，是训练大语言模型的核心数据基础设施。

学术与科研开源数据集特定网络免费开源 NLP研究互联网存档大模型训练语料网页爬取数据超大规模数据集

Common Crawl 是一个非营利组织运营的开放网络爬取项目，定期对整个互联网进行大规模爬取，并将结果作为开放数据集免费提供给全球研究社区。每月爬取数十亿网页，数据以 WARC/WAT/WET 格式存储在 AWS 公开数据集中，是训练大语言模型、研究互联网结构和进行大规模文本挖掘的核心数据基础设施。

特别声明

本站职场人导航提供的Common Crawl都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由职场人导航实际控制，在2026年7月4日上午2:38收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，职场人导航不承担任何责任。

您必须登录才能参与评论！

暂无评论...

职场人导航（www.zcrdh.com）是为上班族与打工人打造的一站式工具导航网站，精选办公工具、AI工具、效率软件、摸鱼网站与生活实用资源，覆盖日常办公、工作提效、学习成长与下班生活等多种场景，帮助你快速找到真正好用的网站与软件，提升工作效率与生活体验。

友链申请免责声明广告合作关于我们