zdnet讨论了生成式AI如何威胁开源生态的文章。随着生成式人工智能(AI)的迅猛发展,开源软件(FOSS)生态可能正面临前所未有的生存危机。长期以来,开源模式依靠透明度、协作和互惠原则构建了数字世界的基石,但生成式AI的崛起正在悄然侵蚀这一基础。

开源软件:数字社会的隐形支柱

我们生活在一个由技术驱动、软件赋能的惊人世界中。软件支撑着我们的网络、安全系统、金融交易、供应链管理,当然还包括当前备受关注的生成式AI系统。这些数字基础设施几乎全部建立在免费开源软件之上,这些代码由庞大的协作社区构建,由使用FOSS成果并积极回馈错误修复和改进的程序员驱动。

这种代码回馈的互惠性处于FOSS的核心,也因此成为现代社会的根本基石。我们开源基础设施的惊人之处在于它由关于代码来源的基本协议所管理。

来源追溯与Copyleft许可的危机

开源软件的核心要素是能够追溯每一行代码回到其原始创作者。这一核心来源元素通常由所谓的”copyleft”许可证管理。Copyleft基本上是版权的对立面(因此有了这个俏皮的术语)。版权限制未经所有者许可的使用和修改,而copyleft则要求在同一条款下共享修改后的代码。

生成式AI通过海量数据训练模型,其中包含大量开源代码。当AI生成代码时,原始代码的来源信息(如作者、许可证、贡献记录)被剥离,导致输出片段成为”无源之水”。这种”来源遗忘”现象破坏了开源的互惠循环:开发者无法追溯代码归属,也无法向上游项目回馈改进或修复。

耶鲁法学院隐私实验室创始人Sean O’Brien指出:”对于软件开发,这创造了危险的情况。专有或copyleft互惠代码的片段可能进入AI生成的输出中,用开发者无法实际审核或适当许可的材料污染代码库”。换句话说,这彻底摧毁了整个来源问题,这不仅决定了谁开发了软件,还决定了谁拥有它、谁对它负责以及什么权利随之转移。

法律灰色地带与合规困境

在美国法律中正在形成四部分原则:首先,只有人类创作的作品可受版权保护;其次,生成式AI输出被广泛认为不可版权化且”默认属于公共领域”;第三,使用AI系统的人类或组织对生成内容中的任何侵权负责;最后,未经许可使用受版权保护的数据进行训练是可法律诉讼的,不受模糊性保护。

FOSS始终依赖于互惠生态系统。GNU GPL和类似的copyleft许可证依赖于可追溯性。当开发者重用代码时,他们知道其来源和义务。这些义务,如署名、重新分发和向上游贡献改进,正是补充公共资源的方式。

开源软件始终依赖其代码被定期补充。作为使用过程的一部分,用户修改它以改进它。他们添加功能并帮助保证跨代技术的可用性。同时,用户提高安全性并修补可能使每个人面临风险的漏洞。

但O’Brien表示:”当生成式AI系统吸收数千个FOSS项目并在没有任何来源的情况下 regurgitate 片段时,互惠循环就崩溃了。生成的片段看起来没有起源,被剥离了许可证、作者和上下文”。这意味着下游开发者无法有意义地遵守互惠许可条款,因为输出切断了编码员和代码之间的人类联系。

https://s3-img.meituan.net/v1/mss_3d027b52ec5a4d589e68050845611e68/ff/n0/0h/n1/29_388870.jpg@596w_1l.jpg

可持续性与创新受阻

开源项目的生存依赖贡献者的持续投入。若生成式AI大量抽取开源代码却不回馈,关键基础设施(如Linux内核、数据库系统)的维护和创新将面临威胁。数据显示,开源收入虽从2017年的114亿美元增长至2022年的329.5亿美元,但生成式AI的高训练成本可能加剧资源分配不均。

AI代码生成正在创造一种对FOSS许可的故意无视文化,如果不是对GNU GPL等许可证的 outright 敌意的话。由于FOSS许可证几乎总是要求署名,并且通常要求在相同条款下重新分发,一旦AI输出混入,作者身份线就会变得模糊。这使得许可证合规实际上不可能。

未来路径:重建开放生态

尽管挑战严峻,开源仍是生成式AI走向透明和伦理的重要路径。社区需推动技术解决方案(如代码来源追踪工具)、法律框架更新(如明确AI训练数据的版权政策),以及可持续的商业模式(如企业赞助开放模型)。

Contextual Copyleft AI(CCAI)许可证等新型许可机制正在出现,它将copyleft要求从训练数据扩展到生成的AI模型,提供了增强开发者控制、激励开源AI发展和减轻开放洗涤实践的重要优势。

生成式AI与开源并非必然对立。唯有承认开源是数字公共基础设施而非单纯许可证体系,才能确保技术革新不牺牲开放协作的根基。当在专注于负责任AI使用的强大监管环境中实施时,新的许可机制为保存和调整核心FOSS原则以适应生成式AI发展的演变 landscape 提供了可行机制。

消息来源:https://www.zdnet.com/article/why-open-source-may-not-survive-the-rise-of-generative-ai/