数字杂志阅读
快速下单入口 快速下单入口

ChatGPT应用的合规风险与相关启示

来源:《中国外汇》2023年第6期

ChatGPT(Chat Generative Pre-trained Transformer)本身并非一个外显的前端产品,而是使用Transformer神经网络架构、基于大量预训练自然语言处理模型,在多种任务类型上对自然语言进行微调,从而生成高质量自然语言文本的聊天机器人或技术应用。该产品由美国OpenAI公司于2022年11月30日发布,随后引起全球关注。ChatGPT在问答、客户服务、教育辅导、娱乐、自动化任务、文书翻译等各个方面的优异表现引起了全球范围内对其技术、伦理、合规性的大范围讨论。

2022年12月,为加快构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能,做强做优做大数字经济,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》正式发布。作为当下我国市场经济发展进程中的新型生产要素,数据要素是数字化、网络化、智能化的基础,它不仅快速融入生产、分配、流通、消费和社会服务管理等各环节当中,而且深刻改变着生产方式、生活方式和社会治理方式。ChatGPT是近年来影响范围最大的标志性技术,作为分析“数据要素”与“合规”之间关系的切入点,笔者拟探讨以数据作为生产要素的新兴技术在我国现行法律体系下的合规风险以及相关启示。

ChatGPT的工作原理及适用场景

作为信息载体,数据具有流动性,并在其流动过程中进一步发挥价值。数据全生命周期的流程同样适用于ChatGPT对数据的处理。从法律角度,还原ChatGPT工作原理,有助于判断其合规风险。

ChatGPT工作原理如下:一是在预先训练阶段,ChatGPT通过学习大量的文本语料来构建语言模型。这些语料包括各种文本,如新闻、小说、博客等。通过对语料的学习,ChatGPT可以捕捉语言的语法、语义和惯用法。二是预处理,ChatGPT的输入是自然语言文本,因此需要进行一些预处理,例如分词、词干提取、停用词去除等,以便模型可以更好地理解文本的含义。三是建立模型,ChatGPT是一种基于深度学习的预训练语言模型,它使用了多层的Transformer网络,并在大规模文本数据上进行了预训练。模型的输入是一个文本序列,输出是一个概率分布,表示在当前上下文中下一个词的出现概率。四是微调模型,开发者需要提供一个特定领域的文本数据集,例如对话数据、问答数据等,在此基础上对ChatGPT模型进行微调。微调的目的是让模型更好地适应特定的任务和领域,如回答特定问题、支持客户服务等。五是生成文本,在得到微调后的ChatGPT模型之后,可以使用其来生成自然语言文本。输入一个上下文序列,模型会输出一个概率分布,表示在此上下文中下一个词的出现概率,开发者可以根据需求选择概率最高的词作为下一个词,不断生成文本,直到达到预定的长度或满足特定条件。

所有互联网信息服务产品都有其预设的使用场景及使用功能。基于ChatGPT技术所设计的服务提供形式为对话(Chat),目前ChatGPT主要应用场景及功能如下:

一是问答系统。ChatGPT可以用于构建智能问答系统,如智能客服、智能助手等。用户可以通过输入问题来获取答案,ChatGPT会根据问题进行推理,给出最相关的答案。

二是文本生成。ChatGPT可以用于生成各种类型的文本,如文章、摘要、标题等。开发者可以通过微调ChatGPT模型来控制生成的文本风格和内容。

三是机器翻译。ChatGPT可以用于机器翻译,例如将一种语言的文本翻译成另一种语言的文本。机器翻译需要大量的语言模型和语料库,ChatGPT可以通过微调来适应不同的语言和领域。

四是语音识别。ChatGPT可以用于语音识别,如将音频文件转换成文本。语音识别需要对语音信号进行预处理和特征提取,ChatGPT可以通过微调来适应不同的语音信号和语音场景。

五是情感分析。ChatGPT可以用于情感分析,如自动判断一段文本的情感倾向。情感分析需要对文本语义进行理解和分析,ChatGPT可以通过微调来适应不同的情感表达和语境。

由此可见,目前ChatGPT适用的应用场景,主要是通过文本内容输出的形式提供服务。通常来说,人工智能是指能够在有限的或没有人类干预的情况下,自行执行被认为需要人类智慧的任务的机器和系统。而与之对应的,人工智能生成内容(Artificial Intelligence Generated Content,AIGC),泛指运用人工智能技术生成的内容,包括人工智能技术直接生成的内容,以及在人工智能技术直接生成的内容的基础上,后期经过人为修改后最终形成的内容。ChatGPT生成的内容属于AIGC。

潜在的合规风险以及相关监管规定

一是算法合规。近年来,推荐算法逐渐成为数据合规领域的一个重要问题,呈现于各类法律实践以及社会实践当中。2021年12月,国家互联网信息办公室联合工业和信息化部、公安部、市场监管总局发布《互联网信息服务算法推荐管理规定》(下称《算法推荐管理规定》)。根据《算法推荐管理规定》第二条第二款规定,“应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。”基于对上述规定的文理解释,ChatGPT所应用的生成合成类算法技术无疑属于算法推荐技术之一,根据《算法推荐管理规定》的要求,ChatGPT及同质产品需满足算法审核评估、显著标识、算法可解释、内容审查、确保用户自主决定权、备案及安全评估等方面的合规要求。

根据我国2023年1月10日正式实施的《互联网信息服务深度合成管理规定》(下称《深度合成规定》)第二十三条第一款规定,“深度合成技术,是指利用深度学习、虚拟现实等生成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。”ChatGPT通过大量训练数据开展算法训练,采用深度神经网络来学习语言的结构和规则,从而能够生成自然流畅的文本和语句,这一工作原理与上述规定相吻合。依据《深度合成规定》,企业在通过ChatGPT及同质产品直接或间接提供服务时,应当履行算法合规义务。目前,《深度合成规定》中所规定的合规义务包括但不限于信息安全主体责任、个人信息保护义务、内容审核义务、训练数据管理义务、算法定期评估义务等。

二是个人信息保护。《个人信息保护法》是我国关于个人信息主体及其个人信息权益保障的首要法律。从个人信息保护合规的角度来看,ChatGPT的主要合规风险包括个人信息权益响应风险以及数据来源风险。ChatGPT基本功能是聊天及对话,这一强大功能来自算法训练,在训练过程中将不可避免地涉及对用户聊天信息等隐私个人信息

阅读全部文章,请登录数字版阅读账户。 没有账户? 立即购买数字版杂志