法盛-金融投资法律服务

生成式人工智能相关应用的合规运营关注要点初探|国浩视点

2024-03-20 法盛-金融投资法律服务

法盛金融投资

       致力于分享金融与不良资产、投融资并购、公司纠纷、资管基金、资本市场、房地产与建设工程、税务筹划及疑难案例等干货。

来源:国浩律师事务所

 

前言:2024年2月16日,OpenAI公司在其官网发布了“文生视频”工具——Sora。从官网的介绍看,用户只需要输入简单的文字描述,Sora即可生成视频内容。该项技术无疑再一次拓展了生成式人工智能(Artificial Intelligence Generated Content,“AIGC”)的应用边界。自2022年底OpenAI公司发布对话式大型语言模型ChatGPT一夜爆火以来,各类可以通过底层技术构建文本生成、图像生成、音频生成、视频生成的新一代生成式人工智能层出不穷。在国内,同样有文心一言、讯飞星火等拥有类似功能的应用问世。

与其他的颠覆性技术一样,生成式人工智能技术在开发、应用的过程中会受到现有法律制度的规范,而法律制度亦在不断革新以应对新技术带来的挑战。近年来,欧盟、美国先后出台多项法案对生成式人工智能技术予以规制,我国亦于2023年7月10日发布《生成式人工智能服务管理暂行办法》,该办法针对生成类人工智能应用提出一系列合规要求。就此,本文结合为人工智能(AI)企业提供法律服务的经验,将我国目前对生成式人工智能的立法及其相关运用中应当关注的合规要点进行探讨和梳理,以飨读者。

目 录

一、人工智能与生成式人工智能的定义

二、生成式人工智能相关立法概述

三、生成式人工智能相关应用的合规运营关注要点

(一) 数据来源与个人信息保护

(二) 网络安全评估

(三) 生成内容的真实性与合法性

(四) 知识产权侵权风险

(五) 算法透明与备案要求

(六) 资质证照与经营许可

(七) 数据出境问题

四、小结

人工智能与生成式人工智能的定义

在探寻何为“生成式人工智能”之前,需要先对“人工智能”的概念予以辨析。人工智能(AI)是指在计算机科学领域,旨在使计算机、计算机控制的机器人和软件表现出类似于人类思维的智能行为。人工智能的目标是在计算机系统中复制人类智能,让它们以模仿人类能力的方式思考、学习和决策。

人工智能的底层流程可以概括为以下步骤:数据收集-数据预处理-算法选择-模型训练-评估和优化-部署和推理-持续学习和改进等。根据是否具有类人智能的能力和水平,人工智能可以分为弱人工智能与强人工智能。弱人工智能包括纯反应式人工智能(如国际象棋游戏)、有限内存人工智能(如根据用户的位置和内存中存储的先前用餐偏好来推荐餐厅)等,而强人工智能主要指拥有自我意识的人工智能。如今,人工智能应用范围从虚拟助理和推荐系统到自动驾驶汽车和医疗诊断,已经渗透到我们日常生活的方方面面。

针对“生成式人工智能”,《生成式人工智能服务管理暂行办法》将其定义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。一般认为,生成式人工智能是指能够学习数据库中的信息,并以此为基础,根据用户输入的提示生成文本、图片、音频、视频等内容的人工智能服务。以ChatGPT为例,其基于自然语言处理技术,可以通过人类自然对话方式进行交互,还可以应用于相对复杂的语言工作处理,包括自动文本生成、自动问答、自动摘要等在内的多种任务。

生成式人工智能相关立法概述

2017年7月,国务院颁布《新一代人工智能发展规划》,将人工智能的发展上升为国家战略。此后,我国陆续出台相关政策性文件,如《促进新一代人工智能产业发展三年行动计划(2018-2020)》《国家新一代人工智能开放创新平台建设工作指引》等。在这一阶段,产业政策文件主要以促进人工智能领域产业发展为主。

2021年9月,《关于加强互联网信息服务算法综合治理的指导意见》发布,该意见提出健全算法安全治理机制、构建算法安全监管体系,特别是对算法的数据使用、应用场景、影响效果等开展日常监测工作,感知算法应用带来的网络传播趋势、市场规则变化、网民行为等信息,预警算法应用可能产生的不规范、不公平、不公正等隐患,发现算法应用安全问题。

2022年3月,《互联网信息服务算法推荐管理规定》正式实施,该规定主要聚焦算法应用深化而产生的算法歧视、大数据杀熟、网络诱导沉迷、未成年人保护等问题。在服务规范上,该规定要求算法推荐服务商应当加强信息安全管理,建立健全用于识别违法和不良信息的特征库,不得生成合成虚假新闻信息或者传播非国家规定范围内的单位发布的新闻信息等,对算法推荐服务商提出了多项合规要求。

2023年1月,《互联网信息服务深度合成管理规定》正式实施,该规定主要针对利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的深度合成技术,包括篇章生成、问答对话、人脸生成、人脸替换、图像生成、图像增强等。该规定提出,深度合成服务提供者应当加强深度合成内容管理,采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核;应当建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志;发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施等。

2023年8月,《生成式人工智能服务管理暂行办法》正式实施,该办法是我国对生成式人工智能监管的第一个专门规定,明确了服务提供者的主体责任、生产违规内容的处置以及对于生成内容标识等义务。在数据安全层面,规定了服务提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,并对训练数据的特性、个人信息保护与知识产权保护进行了规定;在算法层面,该办法细化了生成式人工智能的算法伦理,规定了算法的安全评估与备案制度;在监督检查和法律责任方面,《生成式人工智能服务管理暂行办法》则将法律责任与处罚链接到《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国科学技术进步法》等法律、行政法规。

《生成式人工智能服务管理暂行办法》相比于《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》在监管范围上更为宽泛。从上述法规文本规定的边界和形态出发,可以基本明确,典型的文本生成应用(例如ChatGPT)、图像生成应用(例如Midjourney)、音频生成应用(例如DeepMusic)、视频生成应用(例如Deepfake)等都在《生成式人工智能服务管理暂行办法》等规定所规管的“生成式人工智能”范围之内。

生成式人工智能相关应用的合规运营关注要点

(一) 数据来源与个人信息保护

生成式人工智能以大型语言模型为基础,需要进行数据采集、训练、运行和改进。其训练数据来源通常包括:基于合作方的数据集、基于爬虫技术的外采数据集、人工标注数据集以及人机交互数据集等。在数据采集过程中,需要关注数据来源的合法性,特别是基于爬虫技术的外采数据的合法性。爬虫技术通过编程来自动实现对目标信息的批量获取,其本身并不违法,但是利用爬虫技术爬取的数据合规风险较高,其爬取的数据中可能涉及到个人信息,也可能涉及侵犯著作权、商业秘密等知识产权侵权风险以及构成不正当竞争的风险。

此外,用户在使用生成式人工智能时,为进行内容生成,需要主动输入人机交互数据,例如输入提问内容或提示词(prompt),可能被用于人工智能训练,这些数据中也可能包含用户自身或其他自然人的个人信息。根据《个人信息保护法》,公开个人信息、对外提供个人信息、处理敏感个人信息均应向用户告知并取得单独同意。如生成式人工智能服务提供者未履行上述义务或未取得相应授权,则生成式人工智能服务提供者在大多数情况下将不具备处理个人信息的合法基础,产生法律风险。

因此,生成式人工智能服务提供者在训练利用爬虫技术抓取信息时,应当尽量抓取公开数据,提前为爬虫技术设置抓取的范围与抓取限制,尽量选择不包含个人信息的数据集作为生成式人工智能的训练数据,同时尽量不收集用户输入数据或不将其作为训练数据使用。一般情况下,服务提供者应对爬虫收集的相关数据与对被爬取网站带来的可能影响进行分析与监测,定期检查自身抓取的涉嫌侵权的数据,并对其采取停止抓取、删除等措施。

(二) 网络安全评估

生成式人工智能服务需要在网络环境中运行,其提供者在提供服务的过程中会面临诸多网络安全风险,譬如由病毒入侵、黑客非法闯入等因素引起的网络遭受攻击、干扰、破坏的风险;服务器故障、线路故障引起的网络硬件设施损坏风险;软件漏洞引发的网络安全风险;个人的不当操作引起的网络操作系统不安全风险等。

根据《网络安全法》的相关规定,生成式人工智能服务的提供者作为网络运营者,应当履行包括但不限于《网络安全法》及相关配套制度规定的一系列网络安全合规义务,包括落实网络安全等级保护的相关要求、建立应急处置机制、在特定情形下通过网络安全审查、注意网络产品安全漏洞管理和维护、特定情况下落实用户实名制的相关要求、加强未成年人保护等。

《生成式人工智能服务管理暂行办法》亦同样规定,生成式人工智能服务的提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务;在其服务过程中,应提供安全、稳定、持续的服务,保障用户正常使用。特别是,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

(三) 生成内容的真实性与合法性

在现有技术条件下,人工智能产品接受了大量的文本语料库的训练,仅能通过已有的数据进行文本输出,并不具备辩别信息真伪的能力,因此可能在使用过程中将不正确的信息陈述为事实。其生成的内容可能造成用户误解或混淆,产生虚假信息、垃圾信息,污染网络言论环境。为应对人脸替换、语音合成等Deep Fake(深度伪造技术)技术对法律和秩序的冲击,我国出台《互联网信息服务深度合成管理规定》,要求深度合成服务提供者和使用者不得利用深度合成服务制作、复制、发布、传播虚假新闻信息。转载基于深度合成服务制作发布的新闻信息的,应当依法转载互联网新闻信息稿源单位发布的新闻信息。此外,深度合成服务提供者应当建立健全辟谣机制,发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告。

为此,部分生成式人工智能服务提供者明确在用户协议中对此做出了免责声明,提示用户其并不能保证答案的准确性,如有用户依赖不准确的答案做出判断和决策,可能会导致用户产生损失。特别是在答复法律、医学等专业问题时会建议咨询相关专业人士的建议。

此外,人工智能技术由模型设立和训练数据带来的歧视和偏见一直被广为讨论。生成式人工智能所输出的内容可能不符合人类价值观,不良信息随机出现和迅速传播的风险增加。虽然生成式人工智能有文本输入与输出时的过滤机制,但是仅通过敏感关键词设置的过滤系统准确度欠佳且无法识别价值倾向,可能生成违法内容。对于该类生成内容的纠偏,目前业界主要以标识、建立投诉机制、内嵌算法过滤防护机制、限制访问次数、人工审核等方式进行。

(四) 知识产权侵权风险

生成式人工智能服务在收集训练资料、智能生成结果等诸多环节均面临知识产权相关风险。在收集训练资料阶段,生成式人工智能服务提供者应注意使用的训练资料以及生成的结果不应侵犯他人的知识产权。在智能生成结果阶段,视服务的形态和使用技术模型的不同,侵权风险可能相差较大。例如,在文字生成任务中,基于大型语言模型的生成式人工智能服务产生的结果往往并非训练语料的原文复述,所以具有相对较低的知识产权侵权风险。但在一些图片生成模型的生成效果中,可能出现与训练图像较为近似的生成图像结果。生成式人工智能服务提供者需要在模型设置、训练资料的选取、以及训练和调优过程中注意此类生成结果侵权的风险。

此外,人工智能生成的结果是否具有著作权,由谁享有著作权,已经成为学术界和实务界各方人士争论颇多的一个问题。目前,人工智能生成结果是否享有著作权、是由生成服务使用者还是服务提供者享有著作权,均面临较大争议。我国法院对其是否属于著作权法下的作品观点不一。部分观点认为由人工智能软件的自动运行并产生的涉案作品可获得著作权法保护;同时,亦有观点认为基于大数据生成报告不构成著作权法所规定的作品,原因是在自然人创作完成仍应是著作权法上作品的必要条件。

但无论争议如何,一旦确认涉及知识产权侵权行为,根据《民法典》《信息网络传播权保护条例》等相关规定,作为网络服务提供者,生成式人工智能平台服务方则负有对涉及侵犯知识产权行为采取必要措施的义务。

(五) 算法透明与备案要求

生成式人工智能同样需要遵守算法透明度和可解释性要求。《国家发展改革委等部门关于推动平台经济规范健康持续发展的若干意见》要求在严格保护算法等商业秘密的前提下,支持第三方机构开展算法评估,引导平台企业提升算法透明度与可解释性,促进算法公平。严肃查处利用算法进行信息内容造假、传播负面有害信息和低俗劣质内容、流量劫持以及虚假注册账号等违法违规行为。

在《互联网信息服务算法推荐管理规定》中规定,算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型;应当加强信息安全管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门和有关部门报告;发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。

此外,《互联网信息服务算法推荐管理规定》还要求算法推荐服务提供者提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,规范开展互联网新闻信息采编发布服务、转载服务和传播平台服务,不得生成合成虚假新闻信息,不得传播非国家规定范围内的单位发布的新闻信息。算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号或者虚假点赞、评论、转发,不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施影响网络舆论或者规避监督管理行为。

(六) 资质证照与经营许可

实践中,提供生成式人工智能服务,根据不同的业务模式,需要判断是否涉及增值电信服务的形态。一般而言,如果服务提供者仅进行软件、算法开发,授权或部署给客户使用,而不涉及其他更具互动性(特别是允许用户进行互动或发送信息的功能)的线上服务形态,则可能不需要取得增值电信业务经营许可证。如果服务提供者在提供生成式服务功能时,允许用户发布信息、进行互动(典型如聊天室、论坛、即时通信等功能),则可能需要取得B25类(信息服务业务)增值电信业务经营许可证。如果服务提供者以生成式服务作为引流手段,同时经营电商平台,则可能需要取得B21类(在线数据处理与交易处理业务)增值电信业务经营许可证。服务提供者的其他一些服务和业务形态,如果属于某种增值电信业务活动,则需要取得其他类型的相应子类别牌照。

此外,如果服务提供者通过网络向用户提供网络出版物,则需要根据《网络出版服务管理规定》等规则的要求,取得《网络出版服务许可证》;如果服务提供者提供互联网文化产品及其服务,则需要取得《网络文化经营许可证》;如果服务提供者提供了互联网视听节目服务(例如制作、编辑、集成并通过互联网向公众提供视音频节目,以及为他人提供上载传播视听节目服务),则需要取得《信息网络传播视听节目许可证》;如果服务提供者从事广播电视节目制作经营活动,则需要取得《广播电视节目制作经营许可证》。

(七) 数据出境问题

生成式人工智能服务提供者在提供服务中同样面临数据出境相关问题。例如,如果生成式人工智能服务接入境外的生成式人工智能技术或将运算服务器设置在境外,则可能涉及到向境外提供训练数据或用户输入的数据,并进一步关联数据出境问题。生成式人工智能服务提供者应结合具体业务情况和相关法律规定,选择申报数据出境安全评估、与境外接收方签订标准合同、实施个人信息保护认证等方式,保证数据出境的合法合规。

小 结

近年来,随着人工智能技术的快速发展和相关应用的迅速增多,相关法律风险也随之凸显。作为生成式人工智能服务的提供者,应对合规运营事项予以重点关注,做好相关法律问题的梳理以及风险预案,在合规运营的前提下,保证企业稳定发展。复制

免责声明:本公众号发布的文章,除标注“原创”外,均转载来源于互联网等公开渠道,版权归原著作权人或机构所有。我们尊重版权保护,如有问题请联系我们,谢谢!

举报