ChatGPT第一案引发全球关注 数据安全问题拉高算力大厂准入门槛

时间:2023-07-21 11:31:49  阅读:283929+

近日,作家保罗·崔布雷和莫纳·阿瓦德向联邦法院提起了一项针对OpenAI的著作权诉讼。与此同时,克拉克森律师事务所对OpenAI发起集体诉讼,起诉其非法收集、使用和分享数亿互联网信息,造成潜在损失30亿美元。由于此次诉讼涉及范围广、金额多且影响巨大,被业内人士称为“ChatGPT第一案“。但值得一提的是,这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月,其Redis 开源库中的错误导致ChatGPT 服务中暴露了其他用户的个人信息和聊天标题。意大利数据保护局和加拿大在接到大量投诉后于3月底宣布暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。

当前我们正处于人工智能第三次浪潮中的爆发期,如果说AlphaGo是时代的开创者,那么以ChatGPT为首的大模型便是此次浪潮的集大成者。不同于第一、二次浪潮中以”知识工程”和“机器学习”为核心的单一应用场景,如今深度学习的生成式大模型面对是跨行业、跨机构、界限愈发模糊的数据,如何在处理这些复杂数据的过程中保障安全性与隐私性是目前大模型厂商受到的挑战之一。

相关法案不断完善,AI模型的数据安全受到严峻挑战亟待解决

随着AI大模型爆发式落地,世界范围内相继出台有关数据安全的法案以求更好的保护个人隐私及数据版权。欧盟在2018年便颁布了《通用数据保护条例》,在此基础上不断完善直到2022年的《数据法案》弥补了《数据治理法案》的偏颇,提供了适用于所有数据的更广泛的规则。反观我国是在2021年通过了首部以数据命名的法案《数据安全法》,之后又陆续通过了《网络数据安全管理条例》以及《网络数据分类分级指引》等条例。尽管由于各类数据跨行业、跨机构的交换传输越来越多,数据之间的边界越来越模糊,导致目前的法律还存在边界覆盖不全、操作性不强等问题,但可以看出各国愈发重视数据安全的监管与治理。最新消息显示国家网信办等七部门联合对外发布《生成式人工智能服务管理暂行办法》,其中文本、图片、音频、视频等均被纳入规定范围,着重强调了不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。

日益完善的法案使得这些人工智能企业不得不快速寻求解决方案,因为一旦陷入侵权漩涡无论是巨额罚款还是社会声誉都将对公司的经营造成巨大影响。今年五月,Facebook的母公司meta因向美国传递欧洲用户信息而被欧盟隐私监管机构处以13亿美元的罚款,这是《通用数据保护条例》实施后所开出的最大罚单。目前其传输数据的用途还未可知,或许是用于Llama 2开源大模型的建设,但其确实卷入了美国利用科技企业监控他国的丑闻,十年的拉锯战以巨额罚单的方式落幕,其负面影响不可谓不大。

算力作为解决生成式大模型数据安全问题的关键环节之一,行业门槛再度提升

数据、算力、算法作为人工智能的三大要素是紧密相连的,在算力和算法的驱动下,数据要素实现智能化、规模递增效应,反之算法和算力的升级需要大量优质数据投喂。原始数据经过经过采集、加工、存储、流通、分析等环节,具备了价值和使用价值,才形成数据要素。而保护数据安全的关键就这些环节中,这是需要算力和算法共同参与的。从与大模型终端关系最为紧密的算法来看,其需要不断优化内外部的防护与监管体系。内部主要是对于软件开发人员的代码防护和算法训练人员所用到的训练素材,生成的算法模型等进行管控。外部则是对外售终端的智能模块中内含的算法,程序等的防反编译,防破解,防篡改,还有智能设备整体防中毒等。

算法之外算力同样重要,算力基础设施如果具备数据安全保护的能力将可以为大模型提供第一道防火墙同样也便于算法的应用。之前我们都在讲算力决定了数据量的大小,更多关注的是性能问题,这是由于AI大模型的爆发得益于庞大的算力。联合国数字技术顾问丹尼特·加尔曾在清华大学人工智能合作与治理国际论坛中表示:我们应对人工智能影响的能力远远落后于科学技术的开发和使用,以及科技快速发展带来的不确定性和社会风险。如今绿色、安全等可持续发展的保障因素逐渐被重视,人工智能企业为了符合这些规范在优化自身算法的同时必将对算力提出更高的要求。

上述是从终端大模型的角度出发思考,从算法到算力逐步向下传导保护数据安全,还有一种思考的逻辑是从数据的上层要素算力作为核心,利用其收集、处理、计算数据的能力构筑安全平台。中国工程院院士方滨兴在中国2023数据安全发展大会中提出构建一个可信计算平台,其核心是将隐私数据以裸数据的形式放在该平台中,由外部程序利用这些数据来进行模型加工,但人员不能进入该模型加工场查看调阅数据。除此之外,其具备“分享价值不分享数据”、“数据可用但不可见”的特点,最大程度的从根本上保护数据的隐私安全。中国电子信息产业集团副总经理陆志鹏持有相似观点,他认为建立一个以数据金库和数据元件为基础、以可信计算和合规措施为支撑的安全可信数据空间,融合原有数据基础设施和数据资源,通过数据空间操作系统和安全治理机制实现多主体间的数据安全合规、共享流通、智能敏捷的新型基础设施。无论是平台还是空间都是作为基础设施而应用,在人工智能领域这个基础设施体现在算力服务器上。

无论是以算力基础设施反哺人工智能大模型还是模型算法对算力安全的需求,算力在其中都扮演了极为重要的角色。反观目前算力基础设施行业发展,由于其制造除需要庞大的资产投入外,还需要构架起顶级供应链、可靠工程师技术团队等等。这是一个庞杂的体系,导致行业门槛高企,少数算力大玩家占据市场的大部分份额。而如今除高性能之外,数据安全成为日益重要的考量方式,行业的门槛再度拉高,而有着这些核心要素的厂商会在未来得到更多的需求以及更好的发展。


国内头部算力基础设施厂商前瞻布局,数据安全高要求带动更大需求端空间

目前国内以联想为代表的算力基础设施厂商在提供高性能大算力的同时率先布局数据安全解决方案,为人工智能发展加码。以联想集团为例,其设立GIC全球安全实验室,主要研究方向包括密码学、数据安全、隐私保护、人工智能安全等等,在安全领域具备非常完善的组织体系,拥有完备的数据管理流程。在数据安全保护方面,联想集团则选择了全要素布局的数据安全布局策略,将数据安全技术、产品、解决方案融入其以“端-边-云-网-智”数字化、智能化转型技术架构为代表的“普慧“算力中,形成了平台化、系统化的数据安全解决方案,使算力在推动跨层级、跨地域、跨部门数据汇聚融合、共享交换中更好的保护其安全性。

针对越发重要的数据安全问题与需求,算力行业大玩家纷纷提出对未来研发的进一步展望。联想集团将关注点放在了具体的数据来源,联想研究院人工智能实验室主任研究员王奇刚表示集团将建立一套新的算力工具,用户只要上传数据,无需自己编写代码,点点鼠标就可以产生自己的大模型,并为用户内部提供大模型服务,这样就避免了用户数据外泄的风险。联想还可以帮助用户去训练、微调大模型,让大模型能够满足用户的各种需求。

目前这些算力大厂处于发挥主观能动性加持数据安全服务从而赋能行业发展的阶段,相关分布式存储、AI数据加密技术在金融业、医疗业逐渐落地。而如今生成式人工智能企业在法律的驱动下亟待进一步解决数据安全问题,算力厂商作为其基础设施提供者必将迎来新需求,而这些以联想为代表率先布局数据安全的国内头部大厂在这一轮浪潮下将迎来更大的发展机遇。