研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击 2023-07-31 12:18:54 来源:站长之家
(相关资料图)
编程客栈()7月31日 消息:研究人员发现,可以自动构建对抗性攻击,欺骗ChatGPT、Bardphp和 Claude 等主要语言模型 (LLM),以提供非预期且可能有害的内容
传统的越狱需要大量手动开发,通常可以由 LLM 供应商解决。然而,这些自动化攻击可以大量创建,并且可以在闭源和公开的聊天机器人上运行。
这项研究对大型语言模型(LLMs)的安全性进行了研究,发现可以自动构建对 LLMs 的对抗攻击,通过附加特定字符序列到用户查询中,使系统在产生有害内容的同时执行用户命令。这些攻击是自动化构建的,可以创建无数个攻击。
研究人员展示了一些攻击的示例,展示了在用户查询中添加对抗后缀字符串之前和之后 LLM 的行为。研究人员指出,这项研究包含的技术和方法可以让用户从一些公共 LLMs 生成有害内容。
攻击在计算机视觉领域已经存在了十多年,这表明
类似的对抗性攻这类威胁可能是人工智能系统固有的。研究还表明,可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越js来越大,我们应该考虑这些问题。
关键词:
相关阅读:
- 研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击
- 上海添心旺酒业:贵州特曲酱香白酒,茅台出品,尽显珍贵
- 环球网评:“中国正能量”,在赓续传承中激发磅礴力量
- 比尔 · 盖茨分享避免患上阿尔茨海默症的有效方法:保持良好的睡眠
- 让“大通道”释放“大活力”(人民时评)
- 开放的中国,依然是全球投资热土
- (成都大运会)丁宁“重返”赛场:体育是人与人交流的好平台
- 让“大通道”释放“大活力”(人民时评)
- 开放的中国,依然是全球投资热土
- 2023年8月北京限行日历表(建议收藏)
- 中欧班列今年开行突破一万列
- 2023年“最美应急管理工作者”发布
- 巴基斯坦首都地标建筑亮灯庆祝中巴经济走廊启动十周年
- 大运会遇上巴蜀韵味 真的很搭!
- (成都大运会)丁宁“重返”赛场:体育是人与人交流的好平台
- 水利部和中国气象局发布红色山洪灾害气象预警
- 地面突然塌陷!京西大悦城深夜通报
- 花花为大运会洗白白 网友:谭爷爷用帕子狂抹啦
- 涨停潮又来了!最新重磅数据出炉 这些板块飙涨
- 卖不完要自掏腰包刷单 星巴克月饼成员工"噩梦"?
热点
维权
资讯 推荐