文甲子光年科技产业智库,作者|刘杨楠‍‍,编辑|王博

  “Sora 的出现超乎所有人的预期,我们在 2021 年制定的部分防御策略,今天可能已经不适用了。”

  瑞莱智慧 RealAI 联合创始人&算法科学家萧子豪告诉「甲子光年」。

  虽然 Sora 还未对普通用户公开测试,但是 Sora 生成视频的逼真效果,不得不让人“未雨绸缪”。

  试想一下,如果骗子利用 Sora 生成一个人被抢救或者被绑架的视频,再用“AI 换脸”技术换成目标当事人亲友的形象,同时利用特殊方法切断当事人与亲友之间的联系,进而实施诈骗。如果在没有各方安全防护措施的情况下,是有可能成功的。

  即使没有诈骗,虚假新闻、谣言也会对社会产生不良影响。

  “人工智能进入爆发式发展的关键阶段。我们主张发展与安全并重,既要拥抱新事物新机遇,也要装好刹车再上路,共同推进人工智能全球治理。”3 月 7 日,中共中央政治局委员、外交部长王毅在回答记者有关人工智能的提问时明确表态。

  据不完全统计,在今年的全国两会上,已有 20 多位代表、委员围绕“人工智能”提出了相关建议。其中,“安全”与“合规”是他们关注的焦点。

  早在 ChatGPT 出现之初,「甲子光年」就曾在《第一批因 ChatGPT 坐牢的人,已经上路了》一文中写道:“在 ChatGPT 技术前景、商业模式都还方兴未艾的时刻,围绕自身的‘犯罪方案’以及所造成的负面影响却已真实发生。由新技术衍生的网络信息安全以及违法犯罪等方面的风险,成了摆在全球 AI 科学家、企业以及国家面前的严肃问题。”

  一年后,Sora 的出现,让新的安全问题出现在了人们面前,而出现多年的“AI 换脸”技术也在不断迭代升级。

  无论是近期香港警方披露的涉案金额高达 2 亿港元的“AI 换脸”诈骗案,还是前段时间梅西澄清视频被质疑“AI 换脸”风波,都让更多人意识到“眼见不一定为实”,AI 带来的争议和风险其实就在人们身边。

  “安全问题就像气候问题一样,如果大家现在只看重发展,不重视安全问题,一直拖延下去,等到很严重的时候再行动可能就太迟了。”萧子豪说。

  震撼、好奇与恐慌情绪交织,面对生成式 AI 模型带来的全新挑战,监管方、AI 安全厂商乃至置身其中的每一个人又该如何应对?

  隐秘的角落

  生成式 AI 模型是 Deepfakes(深度伪造)的技术基础,而以“AI 换脸”为代表的人脸伪造技术是 Deepfakes 的一个重要分支。

  2019 年,两位艺术家和一家广告公司制作了 Facebook 创始人马克·扎克伯格 (Mark Zuckerberg) 的 Deepfakes 视频,并将其上传到 Instagram。

  这段视频由艺术家 Bill Posters 和 Daniel Howe 与广告公司 Canny 合作制作,视频中马克·扎克伯格坐在办公桌前,似乎在发表有关 Facebook 权力的演讲。

  “想象一下:一个人完全控制了数十亿人被盗的数据、他们所有的秘密、他们的生活、他们的未来,”AI 版“扎克伯格”在视频中说,“谁控制了数据,谁就控制了未来。”

  原始的真实视频来自扎克伯格 2017 年 9 月在 Facebook 上发表的一次演讲。Instagram 的帖子称其是使用 CannyAI 的视频对话替换 (VDR) 技术创建的。

  可以看到,AI 版“扎克伯格”已经十分逼真,整个画面像是一个真实的新闻片段,词条写着“我们正在提高广告的透明度”。

  这件事引起了 Facebook 以及舆论的强烈反对。此后,Deepfakes 技术迅速生长迭代为一种新型骗局。在毕马威发布的报告中,80% 的领导者相信 Deepfakes对其业务构成风险,但只有 29% 的人表示他们已采取措施打击这些风险。

  随着生成式 AI 模型的发展,以 Deepfakes 为代表的安全问题也愈发难以被检测。

  开源生态繁荣的背面,也让生成式 AI 更容易被滥用。开源模型的开源协议一定程度上牺牲了开发者对模型的掌控。为了满足开源许可要求,其他人需要能够研究、使用、修改和共享人工智能系统。“修改”,则意味着其他人可以删除人工智能模型的原始创建者添加的任何保护措施。 

  这些新生的AI安全隐患也直指人性的幽暗之处——情色、暴力、金钱诈骗与权力争斗。

  互联网观察基金会 (IWF) 发现,犯罪分子正在用开源人工智能来创建儿童性虐待材料 (CSAM)。根据 IWF 报告,短短一个月内,他们在一个暗网论坛上记录了 20000 张人工智能生成的图像。令人毛骨悚然的是,IWF 指出,罪犯社区经常讨论 Stable Diffusion 模型。 

  据《纽约时报》报道,虽然尚未证明这些图像是如何制作的,但网络安全公司 Reality Defender 认为有 90% 的可能确认这些图像出自 Diffusion 模型。

  近期,新泽西州一所高中的学生制作了一个可以从女孩照片中制作露骨图像的网站,女同学报告说,她们是人工智能生成的裸照在学生中分发的受害者。而据哥伦比亚广播公司(CBS)新闻报道,这只是高中发生的许多类似事件的一个例子。 流行歌手泰勒·斯威夫特 (Taylor Swift) 此前也深受其害。

  生成式AI也正在“重塑”诈骗产业链。

  近期,香港警方披露了一起多人“AI 换脸”诈骗案,涉案金额高达 2 亿港元。据央视新闻报道,一家跨国公司香港分部的职员受邀参加总部首席财务官发起的“多人视频会议”,并按照要求先后转账多次,将 2 亿港元分别转账 15 次,转到 5 个本地银行账户内。之后,其向总部查询才知道受骗。警方调查得知,这起案件中所谓的视频会议中只有受害人一个人是“真人”,其他“参会人员”都是经过“AI 换脸”后的诈骗人员。

  相似的案件此前也有发生,2023 年 4 月 20 日,内蒙古包头市发生了一起金额高达 430 万元的诈骗案件,也与“AI 换脸”有关。

  此外,政治宣传和误导也是深度造假带来危害的领域。据美联社报道,今年 1 月,有人用 AI 模仿美国总统拜登的声音,给新罕布什尔州的选民打电话干扰选举。

  生成式 AI 虽然正以前所未有的速度重塑工业、科研及日常生活的方方面面,但由此带来的安全隐患也正在不断下探至更隐秘的角落。

  不过,魔高一尺,道高一丈。针对这些隐患的应对措施也在加速完善。

  魔高一尺,道高一丈

  作为全球人工智能领域的风向标,OpenAI 的一举一动都被放在显微镜下审视。安全,是 OpenAI 必须要完成的课题。

  2023 年 9 月,OpenAI 推出“Red Teaming Network(红队网络)”。

图片来源:OpenAI 官网

  这是一个签约专家组,旨在帮助为公司的人工智能模型提供风险评估信息。目前,红队可以捕捉(尽管不一定修复)OpenAI 的 DALL-E 2 等模型中的种族或性别偏见内容。

  此外,OpenAI 打算将识别元数据纳入任何面向公众的产品的未来版本中;现有的防御措施将拒绝违反公司使用政策的 prompt,包括描述极端暴力、性内容和名人肖像。 

  同时,OpenAI 和 Meta 等公司正在研究帮助识别人工智能制作内容的措施。例如,在创建人工智能制作内容时加上独特的“水印”,或在分发时引入检测人工智能图像特征的算法。

  然而,虽然相关工作已经取得了一些成果,但开源仍可能是一道顽固的裂痕,一些利用开源模型的犯罪分子不会配合使用这些功能;分发后检测人工智能生成的图像也只能在一定程度的置信度下完成,目前还会产生太多的误报或漏报。

  除了企业使用技术手段“以牙还牙”之外,政府监管力度也在大幅收紧。

  美国时间 2023 年 7 月 21 日,拜登于在白宫召集了七家发展人工智能技术的头部公司——亚马逊、Anthropic、谷歌、Inflection AI、Meta、微软和 OpenAI,并获得了七家人工智能头部企业的自愿性承诺,确保人工智能技术的安全性、有保障性和可信任性。

  同时,白宫呼吁七家领先的人工智能公司同意自愿保护未发布的模型权重。模型权重相当于人工智能模型的“秘密武器”,其他人能够通过修改模型权重,在没有保障措施的情况下在新系统中重新创造他们的能力。

  不止国外,国内也针对生成式AI的安全防御快马加鞭。

  瑞莱智慧便是其中之一,他们的策略是“用 AI 检测 AI”。

  瑞莱智慧 RealAI 于 2018 年 7 月依托清华大学人工智能研究院发起设立,面向城市治理、金融、教育科研、智能汽车等行业场景,提供以通用 AI 模型、AI 安全为核心能力的 AI 平台产品与行业解决方案。

  瑞莱智慧 RealAI 联合创始人&算法科学家萧子豪告诉「甲子光年」,目前对于 AI 换脸技术有两种主流方法,一种是识别视频是否有编辑痕迹,如液化、磨皮等均会留下特殊的编辑痕迹;一种是判断视频内容是否违背常识。此前,谷歌 Gemini 1.5 便用第二种方法“拆台”Sora,指出 Sora 生成视频违背物理常识。

  不过,萧子豪表示,谷歌 Gemini 基于人类反馈训练,这也间接决定了其在识别 AI 生成视频时存在一定局限性——人类无法识别的 Gemini 也无法识别。为此,瑞莱智慧着重开发相应技术识别人眼无法识别的痕迹。

  整体来看,生成式 AI 生成的虚假视频检测,或许需要一套完全不同于早年“AI 换脸”的检测技术。“AI 换脸的攻击方法比较多,但攻击区域比较小。但生成式 AI 的伪造方法还比较少,除了 Diffusion 外,其他技术路线做出来的视频都不够逼真,瑕疵会暴露在整幅画面上。”

  “AI 生成视频的检测和传统的 AI 换脸会有不同,但究竟有多大不同还无法确定,需要看更多 Sora 的视频示例才行。”萧子豪表示,团队正在对生成式 AI 进行一次系统性梳理,预判可能的发展趋势。从技术上看,Diffusion 模型生成的视频会有特别的频谱或噪点。

  中科睿鉴也是数字安全领域的代表性玩家,已在该赛道深耕近 20 年。

  Sora 的出现给 AI 视频检测带来了更大不确定性,带出了“真的假视频”(AI 生成视频),“假的假视频”(真人摆拍冒充 Sora 生成视频)等现象,判真判假都很重要。更有网友戏称:现在有真的真视频、假的真视频、真的假视频、假的假视频……

生成视频与真实视频检测结果对比,图片来源:中科睿鉴

  对此,中科睿鉴也在内部做了大量有关 Sora 生成的视频测试。结果显示,目前 Sora 生成的视频在技术上是能检测的。

  中科睿鉴公布的数据显示,已实现针对 Sora 的生成视频鉴定,实测准确率 85% 以上。除了 Sora,睿鉴生成视频检测引擎对十余种其他主流技术路线生成的视频,平均检出率在 90% 以上。

  中科睿鉴告诉「甲子光年」,面对生成模型技术原理突破带来的成代际的快速跃升,检测模型仅仅靠数据和算力的线性迭代是不够应对的,建设和积累伪造检测的 AI 底座和专用基础模型能力至关重要。

  国家监管方面也正在加快脚步。

  2023 年发布的《最高人民法院、最高人民检察院、公安部关于依法惩治网络暴力违法犯罪的指导意见》已有明确规定,对“利用‘深度合成’等生成式人工智能技术发布违法信息”的情形予以从重处罚。

  3 月 4 日下午,在全国政协十四届二次会议上,全国政协委员、全国工商联副主席、奇安信集团董事长齐向东建议,从供给侧的角度可以鼓励各行业头部企业与专业安全厂商结成创新联合体,在关键行业选取典型场景开展联合创新,共同探索大模型安全创新产品在威胁检测、漏洞挖掘、指挥研判等方面的应用,在实战中推动“AI+ 安全”进入越用越强的良性循环。

  从需求侧角度,齐向东表示,积极的政策引导是推动新事物落地应用、成长壮大的催化剂。建议像支持新能源汽车的发展一样,支持“AI+ 安全”发展,设置专项基金,对研发创新“AI+ 安全”产品的企业,给予政府基金、贴息贷款或科研项目等支持;对率先取得技术突破,实现成果转化的科研机构和企业给予奖励;对积极使用相关技术、产品和服务的企业给予相应补贴,推动“AI+ 安全”相关产业取得更多科技创新成果。

  全国人大代表、农工党中央委员、南昌大学元宇宙研究院院长闵卫东也提出,应当加快研究数字技术防范人工智能风险的相关建议。他建议,在人工智能飞速发展的同时,也要建立起相应的数字之“盾”,拉紧人工智能的“缰绳”。

  全国人大代表、科大讯飞董事长刘庆峰则建议围绕大模型的数据安全、隐私泄露、可靠性、知识产权等几大关键方面制定法律法规,提升通用人工智能技术可靠性与规范性;并针对通用人工智能技术可能带来的社会风险、伦理挑战和人类文明变化进行开放式课题研究。

  不过,一个残酷的现实是——建立数字之“盾”的命题依然任重而道远。

  一场永无止境的“追击”

  2021 年世界人工智能大会上,瑞莱智慧发布了生成式人工智能内容检测平台 DeepReal。

DeepReal 检测演示,图片来源:瑞莱智慧

  彼时,Deepfakes 的主要形式是通过换脸公众人物传播虚假言论;黑产也在用 AI 换脸诈骗获利。瑞莱智慧发布该产品的两大初衷,就是过滤虚假信息和反诈骗。

  “近几年 AI 发展太快,有时我们会高估它的速度,有时会低估,但大多数时候都在低估,”萧子豪说,“Sora 的出现超乎所有人的预期,我们在 2021 年制定的部分防御策略,今天可能已经不适用了。”

  2022 年,ChatGPT 引爆生成式 AI 的热潮后,萧子豪明显感到客户需求增加了。“AIGC 产品有其成熟和落地的周期,我们的检测技术也受 AIGC 技术和产品周期的影响。”萧子豪透露,接下来,产品迭代的重心将是持续适应攻击算法的演化。瑞莱智慧正在改进内部研发流程,从根本上提高适应的速度。

  毋庸置疑,生成式 AI 的普及会给 AI 安全厂商乃至全社会带来更大的挑战。

  不过,在萧子豪看来,最大的挑战不在于技术。“AIGC 产品生成的视频人眼辨识的难度确实增加了,但从技术角度出发,AI 攻击和防御技术的 gap 总体并没有质的加大。”

  真正的挑战在于,在客户的实际场景中,AI安全厂商常常要“戴着镣铐跳舞”。真正将一套 AI 安全解决方案落地到客户场景时,并不完全是技术比拼,首先要做的是把帐算清楚。“客户场景的数据特点、硬件条件以及具体的场景需求各有不同,我们需要考虑到方方面面。”萧子豪表示。

  长远来看,AI 安全更大的挑战在于,社会是否真正意识到了 AI 安全的紧迫性。“安全问题就像气候问题一样,如果大家现在只看重发展,不重视安全问题,一直拖延下去,等到很严重的时候再行动可能就太迟了。”萧子豪告诉「甲子光年」。

  毕竟,“防御”相对于“攻击”本就带有了被动意味。攻击技术变化多端,大多时候都是检测技术在追赶攻击技术。安全厂商和攻击方之间,是一场永无止境的“追击”。