哈佛大学发布开源AI训练数据库
哈佛大学宣布发布由近百万公有领域书籍构成的免费开源 AI 训练数据集。任何人都可以使用这些数据集来训练大型语言模型和其他 AI 工具。该数据集由哈佛大学新成立的机构Institutional Data Initiative 创建,并得到了 Microsoft 和 OpenAI 的资助。它包含作为 Google Books 项目的一部分扫描的不再受版权保护的书籍。
数据库规模大约是 Books3 数据集的五倍,Books3 数据集用于训练 Meta 的 Llama 等 AI 模型,其数据库涵盖各种流派、年代和语言,包括莎士比亚、查尔斯·狄更斯和但丁的经典作品,以及晦涩难懂的捷克数学教科书和威尔士袖珍词典。Institutional Data Initiative的执行总监Greg Leppert表示,开源的公共领域数据库可以与其他有版权的数据集结合使用,”正如Linux操作系统一样成为了世界上的基础操作系统“。
目前数据集的确切发布方式尚未确定。Institutional Data Initiative已要求 Google 在公开分发方面进行合作,但细节仍在敲定中。谷歌全球事务总裁肯特·沃克 (Kent Walker) 在一份声明中表示,该公司“很自豪能够支持”该项目。
报道原文:https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
发表回复