我们正迈入一个全新的人工智能时代,在这个时代,数据安全问题日益凸显,人们对于个人隐私、商业机密和知识产权的保护愈发关注。而以Chat GPT为首的生成式人工智能模型大爆发,利用大量的互联网素材进行训练,引发了人们对于数据安全的的思考。
最近,Open AI频繁面临版权侵权起诉,或面临巨额赔偿。
最早在去年12月28日,Open AI和微软就被美国《纽约时报》提起诉讼,指控其未经许可使用《纽约时报》数百万篇文章训练聊天机器人。
当时《纽约时报》表示,此类侵权行为降低了读者访问其网站的感知需求,减少了流量,并可能削减广告和订阅收入,从而威胁到高质量的新闻报道。然而,OpenAI和微软表示,使用受版权保护的作品来训练人工智能产品是“合理使用”,这是一种管理未经许可使用受版权保护材料的法律原则。
在今年2月28日,美国三家数字媒体再次对Open AI提起类似的侵权诉讼,他们认为, OpenAI 违反了《数字千年版权法案》(Digital Millennium Copyright Act),记者的岗位正受到威胁,而OpenAI却利用记者的辛勤劳动盈利。
对以Chat GPT为首的生成式人工智能是否侵犯了作者的知识产权这一议题,一直很难下定论,特别是当其使用受版权保护的材料进行训练时。法律通常认为,使用受保护的作品来训练AI不构成侵权,但如果AI生成的作品与训练材料相似,情况就变得复杂。
那AI有可能生成与训练材料高度相似的回答吗?
业内知名安全专家张照龙在接受澎湃科技采访时表示,大模型是个知识化模型,如果所有前面的训练数据推演得好,可以把原来训练的敏感数据都还原出来,大模型还原程度大致在80%,差一点也有50%。
由此可见,利用大模型反推原始训练数据成为可能,非法获取大模型训练数据中的个人数据隐私信息、个人行为等,包括政府数据、行业和企业数据成为可能,这无疑给隐私权、著作权等权利保护带来了前所未有的挑战。
Open AI与媒体行业之间的纠纷,本质上是人工智能创新和数据安全(数据隐私)之间的矛盾,在人工智能时代,生成式AI要如何利用现有资源,在法律和道德允许的范围内,实现高强度的训练和推理呢?
要知道,原始数据在算力和算法的驱动下,经过采集、加工、存储、流通、分析等环节,具备了价值和使用价值,才成为了训练数据。而保护数据安全的关键就这些环节中,随着数据安全因素逐渐被重视,人工智能企业为了符合这些规范在优化自身算法的同时,必将对算力提出更高的要求。
从算法来看,需建立健全的内外部防护与监管体系。内部防护主要包括对软件开发人员编写的代码和算法训练中使用的数据素材、生成的模型等进行严格管控;外部防护则涵盖对外售终端的智能模块中内含的算法反编译、防破解、防篡改,对智能设备整体进行防中毒等。
从算力来看,算力基础设施如果具备数据安全保护的能力将可以为大模型提供第一道防火墙同样也便于算法的应用。目前不少国内算力厂商正在针对越发重要的数据安全问题与需求,提出对应的解决方案。其中算力X平台依靠可靠的数据中心和算力基础设施,提供高性能的算力和显卡,来确保大模型训练过程的数据安全。
Chat GPT的开发商Open AI被起诉的时间,将在整个人工智能行业敲响警钟,同时国内算力厂商也将获得新的发展机会,厚积薄发迎来成长。
以上,是算力云今日人工智能行业资讯分享,感兴趣的朋友多关注算力云平台!