人工智能打击犯罪,人工智能网络攻击
chanong
|EliE选,作者:Elie Bursztein,机器之心编辑,参加者:努尔哈赤努尔、张骞。
本文回顾了针对人工智能系统的三种攻击技术:对抗性输入、数据中毒攻击和模型盗窃技术。每个攻击描述中都添加了具体的示例和防御策略,为任何使用人工智能的人提供指导。为任何有兴趣实施欺诈预防的人提供。
对分类器的高级攻击可以分为三种类型:
对抗性输入:这是专门设计用于确保错误分类以避免检测的输入。恶意输入包括旨在逃避防病毒程序的恶意文档和试图逃避垃圾邮件过滤器的电子邮件。数据中毒攻击:这涉及向分类器提供对抗性训练数据。我们观察到的最常见的攻击类型是模型偏差。这会污染训练数据,使得分类器在对好数据和坏数据进行分类时产生偏向。我们在野外观察到的第二种类型的攻击是反馈武器化,它试图通过滥用反馈机制来操纵系统,将好的内容错误地分类为坏的内容(例如竞争对手的内容或(例如,作为报复性攻击的一部分))。模型盗窃技术:用于“窃取”(即复制)模型或通过黑盒检测恢复训练数据的身份。例如,它可能被用来窃取股票市场预测模型或垃圾邮件过滤模型,并更有效地使用它们或针对它们进行优化。本文将介绍每种类型的攻击,提供具体示例,并讨论可能的缓解措施。
本文是关于如何使用人工智能构建强大的反欺诈保护系统的系列文章的第四篇,也是最后一篇。在我们的第一篇文章中,我们解释了为什么人工智能是构建满足用户期望和日益复杂的攻击的强大保护系统的关键。在描述了构建和启动基于人工智能的防御系统的自然过程之后,第二篇博客文章讨论了与训练分类器相关的挑战。第三篇文章描述了在生产环境中使用分类器阻止攻击的主要问题。
本系列文章基于RSA 2018 上的一次演讲。
免责声明:本文旨在为那些有兴趣利用人工智能预防滥用的人提供概述,并为那些犹豫不决的人提供潜在的蓝图。因此,本文侧重于提供清晰的概述,并有意避免技术细节。也就是说,如果您是专家,我相信您会发现以前从未听说过的想法、技术和参考资料。希望您能受到启发,进一步探索它们。
敌意输入
攻击者不断用新的输入/有效负载探测分类器以避免检测。此类有效负载称为对抗性输入,因为它们被明确设计为绕过分类器。
下面是一个恶意输入的具体例子:几年前,一个聪明的垃圾邮件发送者发现,如果同一个多部分附件在一封电子邮件中多次出现,Gmail 会显示它,如上面的屏幕截图所示。我注意到它只显示最后一个附件那是。他通过添加包含许多已知域的不可见的第一个多部分来武器化这些知识以避免检测。这种攻击是一种称为关键字填充的攻击。
一般来说,分类器迟早会面临两种类型的对抗性输入:突变输入(专门设计用于逃避分类器的已知攻击的变体)和零日输入(专门设计用于逃避分类器的已知攻击的变体)。分类器)。(以前从未见过的有效负载)。让我们依次检查每个对抗性输入。
变化输入
过去几年,旨在帮助网络犯罪分子创建无法检测的有效负载的地下服务激增。该有效负载在秘密世界中以FUD(完全无法检测)有效负载而闻名。这些范围包括可以针对所有防病毒软件测试有效负载的测试服务,以及旨在以无法检测到的方式混淆恶意文档的自动加壳程序。上面的屏幕截图显示了两个这样的服务。
专门从事有效载荷制造的地下服务的复苏凸显了这一事实:
攻击者主动优化攻击,以最小化分类器的检测率。
因此,需要开发使攻击者难以优化有效负载的检测系统。以下是实现这一目标的三个关键设计策略。
1.限制信息泄露
这里的目标是在探测系统时给攻击者尽可能少的利润。尽量减少反馈并尽可能延迟反馈非常重要,例如不返回详细的错误代码或置信值。
2. 极限检测
该策略的目标是通过限制攻击者针对系统测试其有效负载的频率来减缓攻击。通过限制攻击者在您的系统上运行测试的频率,您可以降低攻击者创建恶意负载的速率。
该策略主要是通过对IP 和帐户等稀缺资源应用速率限制来实现的。这种类型的速率限制的一个典型示例是要求用户解析验证码以查看他们是否发帖过于频繁,如上所示。
这种激进的活动速率限制的负面影响是,它会鼓励恶意行为者创建虚假帐户并使用受感染的用户计算机来使其IP 池多样化。行业中广泛使用的速率限制是高度活跃的黑市论坛兴起的一个主要因素,这些论坛经常出售帐户和IP 地址,如上面的屏幕截图所示。
3、综合学**
最后但并非最不重要的一点是,结合不同的检测机制使攻击者更难以绕过整个系统。使用集成学**结合不同类型的检测方法,例如基于信誉的检测方法、AI 分类器、检测规则和异常检测,可以提高系统的稳健性。这是因为攻击者需要创建一种机制来同时规避所有这些机制。有效负载。
例如,如上面的屏幕截图所示,我们结合了多个分类器和辅助系统,以确保我们的Gmail 分类器能够抵御垃圾邮件发送者。这样的系统包括信誉系统、大规模线性分类器、深度学**分类器和许多其他秘密技术。
对深度神经网络的对抗性攻击的示例
如何创建对抗性示例来欺骗深度神经网络(DNN)是相关研究非常活跃的领域。现在,如上图所示,取自论文《Explaining and Harnessing Adversarial Examples》 (https://arxiv.org/abs/1412.6572),创建一个完全愚弄DNN 的难以察觉的扰动是一件简单的事情。
最近的工作(https://arxiv.org/abs/1711.11561) 表明CNN 倾向于学**数据集中的表面规律而不是泛化,并且学**对噪声的高级表示不太敏感。因此,它已被证明容易受到对抗性的影响输入攻击。
此攻击影响所有DNN,包括基于强化学**的DNN (https://arxiv.org/abs/1701.04143),如上面视频中突出显示的。如果您想了解有关此类攻击的更多信息,请阅读Ian Goodfellow 关于该主题的介绍性文章或开始尝试Clever Hans 实验(https://github.com/tensorflow/cleverhans)。
从防御者的角度来看,这种类型的攻击(到目前为止)已被证明是非常有问题的,因为没有有效的方法来防御这种攻击。基本上,DNN 没有有效的方法为所有输入生成良好的输出。 DNN 在非常大的空间上执行非线性/非凸优化,并且很难做到,因为我们没有教它们学**泛化能力良好的高级表示。有关更多信息,请参阅Ian 和Nicolas 的详细文章。
零日进入
可以完全击败分类器的另一种明显的对抗性输入类型是新颖的攻击。尽管新的攻击很少见,但它们可能具有很大的破坏性,因此了解如何应对非常重要。
虽然新攻击的出现有很多不可预测的潜在原因,但根据我们的经验,以下两个事件可能会导致新攻击的出现:
部署新产品或功能:本质上,添加功能为攻击者提供了快速探索的新攻击面。因此,在新产品发布时提供零日防护是必要的(但困难的)。增加回报:虽然很少讨论,但新攻击的激增很大程度上是由利润丰厚的攻击向量推动的。这种行为的最新例子包括,为了应对2017 年底比特币价格飙升,越来越多地滥用Google Cloud 等云服务来挖掘加密货币。随着比特币价格飙升至10,000 美元以上,试图窃取Google Cloud 挖矿计算资源的新攻击正在激增。我们将在本文后面解释如何发现这些新攻击。
总之,纳西姆·塔勒布的形式化黑天鹅理论既适用于基于人工智能的防御,也适用于任何类型的防御。
迟早,不可预测的攻击会让分类器感到困惑,并带来严重的后果。
但是,您对此无能为力,因为您无法预测哪些攻击会使分类器失常或此类攻击何时发生。您可以计划避免此类攻击并制定应急计划来缓解这种情况。以下是准备黑天鹅事件时需要考虑的一些方向。
1. 制定事件响应流程
首先要做的是开发和测试您的事件恢复流程,以确保您在意外情况下能够做出适当的响应。这包括但不限于:调试分类器时,可以控制延迟或停止处理并知道要调用哪个分类器。
Google SRE(站点可靠性工程)手册有一章介绍事件管理(https://landing.google.com/sre/book/chapters/managing-incidents.html),另一章介绍事件响应(https://landing.google.com/sre/book) )。 /chapters/emergency-response.html)。如需更多关注网络安全的文档,请参阅NIST(美国国家标准与技术研究院)网络安全事件恢复指南(https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-184.pdf)。最后,如果您想观看对话,请观看视频“Google 如何运行灾难恢复培训(DiRT) 计划”(https://www.usenix.org/conference/lisa15/conference-program/presentation/krishnan)。 “如何应对Facebook 事件”视频(https://www.usenix.org/node/197445)。
2. 使用迁移学**来确保新产品的安全
明显的关键问题是缺乏训练分类器的历史数据。缓解这个问题的一种方法是利用迁移学**。这允许您重用一个域中已存在的数据并将其应用到另一个域。
例如,如果您想处理图像,则可以利用现有的预训练模型(https://keras.io/applications/),但如果您想处理文本,则可以使用公共数据集,例如Toxic Comment Jigsaw数据集.Masu.
3.利用异常检测
本质上,新的攻击会产生一系列以前未遇到的与系统使用方式相关的异常,因此异常检测算法可以用作第一道防线。
造成一系列新异常的新攻击的历史示例是麻省理工学院赌博集团对马萨诸塞州WinFall 彩票游戏的攻击(https://www.theatlantic.com/business/archive/2016/02/how-mit-students -gamed-彩票/470349/)。
早在2005 年,多个赌博集团就发现了WinFall 彩票系统的缺陷。如果头奖平均分配给所有参与者,那么每购买2 美元的彩票,您将平均获得2.30 美元的利润。每当资金池超过200 万美元时,就会发生这种分割,称为“滚减”。
为了避免与其他组织分享收益,麻省理工学院集团三周前决定大规模购买彩票,并开始了抵制行动。显然,从极少数零售商处购买的大量彩票导致彩票组织发现了一些异常情况。
最近,正如本文前面提到的,当比特币价格在2017 年飙升时,一些恶意行为者试图通过在谷歌云实例上免费挖矿来获利,一个人的身份已经开始被识别。为了免费获得实例,他们使用了各种攻击手段,包括滥用免费套餐、使用被盗的信用卡、危害合法云用户的计算机以及通过网络钓鱼接管云用户的帐户。我试图利用它。
这种攻击很快就变得非常流行,成千上万的人观看了有关如何在谷歌云中挖矿的YouTube 教程(正常情况下这是无法盈利的)。显然,我们没想到恶意挖矿会成为如此大的问题。
幸运的是,Google Cloud 实例已经配备了异常检测系统,以防出现问题。正如预期的那样,从上面直接取自异常检测系统仪表板的图表可以看出,当实例开始挖掘时,其临时行为会发生巨大变化。在该示例中,传统资源的使用方式完全不同。这种转变检测可用于遏制这种新的攻击媒介,并确保所涉及的云平台和GCE 客户端的稳定性。
数据中毒
分类器面临的第二种类型的攻击是攻击者试图通过破坏数据来破坏系统。
模型偏差
第一种类型的中毒攻击称为模型偏差,攻击者试图毒害训练数据,以便在对好输入和坏输入进行分类时改变分类器的学**边界。例如,模型偏差可用于污染训练数据并欺骗分类器将某些恶意二进制文件标记为良性。
具体例子
事实上,我们经常看到尖端垃圾邮件发送者团体试图通过将大量垃圾邮件报告为非垃圾邮件来覆盖Gmail 过滤器。如图所示,从2017 年11 月下旬到2018 年初,至少发生了四次大规模恶意操作试图扭曲分类器。
因此,在设计基于人工智能的防御时,应考虑以下事实:
攻击者积极寻求改变利用和合理使用之间的已知界限,以达到他们的优势。
缓解策略
可以使用三种策略来防止攻击者扭曲模型:
使用明智的数据采样:您应该确保一小部分实体(包括IP 和用户)不会构成模型训练数据的大部分。特别要注意的是,不要过分重视用户报告的误报和漏报。这可以通过限制每个用户可以发布的示例的数量,或者通过使用根据报告的示例的数量衰减的权重来实现。将新训练的分类器与之前的分类器进行比较,以估计它发生了多少变化。例如,您可以执行暗启动并比较相同流量的两个输出。替代方案包括A/B 测试或对一小部分流量进行回溯测试。构建一个标准数据集,分类器在部署到生产之前必须准确预测该数据集。理想情况下,该数据集包含一组精心策划的攻击以及代表系统的常规内容。此过程可确保您能够在武器化攻击对用户产生负面影响之前检测到何时会对您的模型造成重大挫折。武器化反馈
第二种类型的数据中毒攻击是将用户反馈系统武器化以攻击合法用户和内容。一旦攻击者意识到用户反馈被用于某种形式的惩罚目的,他们就会尝试利用这一事实。
具体例子
我们在2017 年目睹了最令人震惊的将用户反馈武器化的尝试之一,决定通过留下数千条1 星评论来破坏CNN 的应用商店排名。这是一群4chan 用户。
不良行为者出于各种原因积极利用反馈武器化,包括压制竞争、报复和掩盖自己的踪迹。上面的屏幕截图显示了一个黑市帖子,讨论如何使用Google 击败竞争对手。
因此,在构建系统时,您应该满足以下先决条件:
任何反馈机制都将成为针对合法用户和内容的武器。
缓解策略
在将缓解反馈武器化的过程中需要记住两件事:
不要在反馈和惩罚之间建立直接循环。相反,在做出决定之前,一定要评估反馈的可靠性并将其与其他信号结合起来。不要认为从滥用内容中获利的所有者应对此负责。例如,所有者购买这张照片并不是因为它获得了数百个假点赞。我们见过无数攻击者提取合法内容以掩盖其踪迹或惩罚无辜用户的案例。模型盗窃攻击
如果不提及旨在恢复训练期间使用的模型或数据信息的攻击,本文将是不完整的。这种攻击是一个严重的问题,因为这些模型代表了根据公司一些最有价值的数据(例如金融交易、医疗信息和用户交易)进行训练的宝贵知识产权资产。
确保根据用户敏感数据(例如癌症相关数据)训练的模型的安全性非常重要。 (https://www.cs.cornell.edu/~shmat/shmat_oak17).pdf),因为这些模型可能被滥用来泄露敏感的用户信息。
攻击
盗窃攻击主要有两种型号:
重建模型:这里的关键思想是攻击者可以通过探索公共API 来重建模型,并将其用作预言机来逐步改进模型。最近的一篇论文(https://www.usenix.org/system/files/conference/usenixsecurity16/sec16_paper_tramer.pdf)表明,这种攻击对大多数人工智能算法都有效,包括支持向量机、随机森林和深度神经网络。您认为。成员披露:在这里,攻击者构建了一个影子模型,可以确定是否使用特定记录来训练模型。尽管此类攻击无法恢复模型,但可能会暴露敏感信息。防御
针对模型盗窃攻击最著名的防御措施是PATE (https://arxiv.org/abs/1802.08908),这是由Ian Goodfellow 及其同事开发的隐私框架。如上图所示,PATE 背后的关键思想是分割数据并训练多个可以组合起来做出决策的模型。这一决定被其他各种隐私系统的噪音所掩盖。
要了解有关差异隐私的更多信息,请参阅Matt 的介绍性文章:https://blog.cryptographyengineering.com/2016/06/15/what-is-fferential-privacy/。有关PATE 和模型盗窃攻击的更多信息,请参阅Ian 关于此主题的文章(http://www.cleverhans.io/privacy/2018/04/29/privacy-and-machine-learning.html)。
结论是
是时候结束这个关于如何利用人工智能打击欺诈和欺诈的长系列了。本系列的主要内容(详细信息请参阅第一篇文章)是:
人工智能是构建满足用户期望并响应日益复杂的攻击的保护机制的关键。
正如本文和前两篇文章所解释的,要在实践中开展这项工作,需要克服一些困难。但现在人工智能框架已经成熟且有据可查,现在是开始在防御系统中使用人工智能的最佳时机。因此,不要被这些挑战吓倒。








