Common Crawl

Common Crawl

浏览量 0

全球最大的开放网页爬取项目,每月爬取数十亿网页,免费提供WARC/WAT/WET格式数据,是训练大语言模型的核心数据基础设施。

Common Crawl 是一个非营利组织运营的开放网络爬取项目,定期对整个互联网进行大规模爬取,并将结果作为开放数据集免费提供给全球研究社区。每月爬取数十亿网页,数据以 WARC/WAT/WET 格式存储在 AWS 公开数据集中,是训练大语言模型、研究互联网结构和进行大规模文本挖掘的核心数据基础设施。

分享到:
关于Common Crawl特别声明

本站职场人导航提供的Common Crawl都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由职场人导航实际控制,在2026年7月4日 上午2:38收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,职场人导航不承担任何责任。

您必须登录才能参与评论!
暂无评论...