英伟达出手给大模型安了个“护栏”,看不下去AI胡说八道
最佳答案:5月4日,大模型们胡说八道太严重,英伟达看不下去了。 他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。 这个新工具名叫护栏技术(NeMo Guardrails),相
5月4日,大模型们胡说八道太严重,英伟达看不下去了。
他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。
这个新工具名叫“护栏技术”(NeMo Guardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。
一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。
另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。
现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。
防止大模型胡言乱语的三类“护栏”
根据英伟达介绍,目前NeMo Guardrails一共提供三种形式的护栏技术:
话题限定护栏(topical guardrails)、对话安全护栏(safety guardrails)和攻击防御护栏(security guardrails)。
话题限定护栏,简单来说就是“防止大模型跑题”。
大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。
但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。
这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。
对话安全护栏,指避免大模型输出时“胡言乱语”。
胡言乱语包括两方面的情况。
一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;
另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。
攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。
这里不仅包括诱导大模型调用外部病毒APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。
所以,这样的护栏要如何打造?
如何打造一个大模型“护栏”?
这里我们先看看一个标准的“护栏”包含哪些要素。
具体来说,一个护栏应当包括三方面的内容,即格式规范(Canonical form)、消息(Messages)和交互流(Flows)。
首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。
例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。
然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:
最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:
一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。
具体工作流程如下:首先,将用户输入转换成某种格式规范(canonical form),据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。
类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。
这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:
目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。
对“护栏”技术感兴趣的小伙伴们,可以试一试了~
- 上一篇:印度捷行航空申请破产,原因想不到:普惠发动机故障太多
- 下一篇:没有了
相关文章
- 英伟达出手给大模型安了个“护栏
- 印度捷行航空申请破产,原因想不
- 3000亿投资美国4/3nm工艺,台积电搞
- 男子在西湖捞手机,日入约一万:
- 马斯克的星舰首飞:到底是成功了
- 欧洲电费/气价过高压垮当地居民,
- 自研“北斗高精”!百度地图宣布
- 天舟六号五月上中旬发射:世界运
- NVIDIA/AMD/高通集体推迟3nm,台积电遭
- 小米米家冰箱对开门610L冰晶白开售
- 疫苗到底有几种?点开看~
- 新冠病毒XBB.1.16变异株~~“大角星”
- “世界地球日”——密云区开展义务植树尽责活动
- 走进密云峡谷里的村庄 探索“无痕山林”生态旅游
- 博鳌亚洲论坛健康产业国际论坛在北京经开区开幕 为期两天
- 北京市2023年普通高等学校招生工作规定出炉
- 2023北京家庭教育主题培育实践活动启动 全年活动聚焦团结教育
- 密云区举办“助力密马—全民健身科学大讲堂”活动 近130名体育
- 环球热点评!北京市交通委所属10家事业单位招聘了!岗位条件公
- 每日速讯:探访这支神秘部队,惊现“小可爱”……
- 密云区卫生健康委开展2023年全民阅读暨“世界读书日”活动
- 迎“篮”而上 奋勇争先——密云区卫生健康系统第十届职工篮球
- 密云区计划生育协会召开近期重点工作部署会
- “书香启新篇 奋进铸辉煌”2023年密云区全民阅读活动正式启动
- 4月24日北京西部地区将有小雨或零星小雨现身 午后南风较强
- 北京冬奥会官方电影《北京2022》定档5月19日 发布了定档预告及