哈佛大学发布开源AI训练数据库

开源君 17 12 月, 2024 哈佛大学发布开源AI训练数据库2024-12-17T16:34:17+08:00 开源News No Comment

哈佛大学宣布发布由近百万公有领域书籍构成的免费开源 AI 训练数据集。任何人都可以使用这些数据集来训练大型语言模型和其他 AI 工具。该数据集由哈佛大学新成立的机构Institutional Data Initiative 创建，并得到了 Microsoft 和 OpenAI 的资助。它包含作为 Google Books 项目的一部分扫描的不再受版权保护的书籍。

数据库规模大约是 Books3 数据集的五倍，Books3 数据集用于训练 Meta 的 Llama 等 AI 模型，其数据库涵盖各种流派、年代和语言，包括莎士比亚、查尔斯·狄更斯和但丁的经典作品，以及晦涩难懂的捷克数学教科书和威尔士袖珍词典。Institutional Data Initiative的执行总监Greg Leppert表示，开源的公共领域数据库可以与其他有版权的数据集结合使用，”正如Linux操作系统一样成为了世界上的基础操作系统“。

目前数据集的确切发布方式尚未确定。Institutional Data Initiative已要求 Google 在公开分发方面进行合作，但细节仍在敲定中。谷歌全球事务总裁肯特·沃克（Kent Walker）在一份声明中表示，该公司“很自豪能够支持”该项目。

报道原文：https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/

AI

No Comments Yet

发表回复取消回复