当前位置: 首页 > > 天 方 夜 “谈” 第4期 | IOT设备的自动发现及大规模标注

天 方 夜 “谈” 第4期 | IOT设备的自动发现及大规模标注

发表于:2020-03-18 20:48 作者: 方滨兴班 阅读数(5404人)

Acquisitional Rule-based Engine for Discovering Internet-of-Thing Devices

开源项目地址:http://are1.tech/

本文发表于27th USENIX Security,第一作者是Feng Xuan,来自中国科学院大学网络安全学院。

背景

许多具有通信功能的设备为了提高效率已经连接到互联网。不可否认,在线物联网设备的开发和使用将促进经济发展和提高生活质量。但是,这些物联网设备也会带来严峻的安全挑战,例如设备漏洞,管理不善和错误配置。尽管越来越多种IoT设备连接到住宅网络,但大多数用户缺乏安全意识,难以解决物联网设备因为管理不善和错误配置出现的问题。

解决安全威胁有两种基本方法:被动防御和主动防御。被动防御通常需要下载设备的固件映像来进行分析,导致漏洞利用和检测之间存在明显的时间延迟。主动防御是通过预测恶意来源来防止潜在的危害。因此如果是大规模安全事件,主动防御会比反应被动防御更有效(例如,Mirai 僵尸网络)。发现和标注物联网设备是保护物联网设备的先决条件。然而基于机器学习的设备分类需要带有标签的大量训练数据,因此,大规模自动设备发现和标注仍然是物联网中的一个悬而未决的问题。

文中提出了一种基于采集规则的引擎(ARE),它可以不需要任何训练数据就能自动生成、发现和标注物联网设备的规则。ARE通过利用来自物联网设备的应用层响应数据和相关网站中的产品描述来设计设备规则,以进行设备标注。作者将事务定义为一对文本单元,由物联网设备的应用层数据和网页上的物联网设备的相应描述组成。ARE收集事务数据集过程如下:

(1)ARE从在线物联网设备接收应用层响应数据;

(2)ARE使用响应数据中的相关术语作为搜索查询关键词;

(3)ARE从搜索结果列表中爬取网站。对于那些相关的网页,ARE使用命名实体识别(NER)来提取设备标注,包括设备类型、供应商和产品等。

ARE架构

图片.png

图1:用于学习设备规则的ARE架构

图1显示了ARE的高级架构。每个组件的功能简单描述如下:

(1)事务收集。收集模块在网络中收集数据。该模块分两步进行:第一步是收集网络中的响应数据,并过滤掉非IoT设备的响应数据;第二步使用网络爬虫获得IoT设备的描述网页,然后删除爬取数据中的冗余内容。

(2)规则挖掘器。ARE利用规则挖掘器实现事务集中自动化生成,无需人工。例如,当制造商发布新的IoT设备产品时,该模块可以动态地学习规则。

(3)规则库。规则库是一个标准文件,它以{A⇒B}格式存储每个规则,并带有时间戳。A表示响应数据中的关键字,B表示设备标注(t,v,p)。应用程序通过API Get(规则)与ARE交互,规则库将最新规则返回给用户。

(4)规划。规划更新ARE中的规则库以用于应用程序。API更新(网络,时间)通知规划器模块在当前网络中生成新规则并从该空间收集数据,并且将删除过时的规则。

ARE限制

1 假响应

事务是来自IoT设备的响应数据与来自搜索引擎的相关网页之间的关联。如果响应数据是伪造的(例如,蜜罐可以模拟IoT设备),则事务集可能包含错误信息,会导致不准确的关联规则。此外,攻击者可能在攻击设备时更改应用程序数据。在这两种情况下,事务集可能已损坏。幸运的是,与大量常规IoT设备相比,虚假响应数据的数量很少。

2 中间件

许多物联网设备都位于中间盒(例如住宅/企业/本地网络中的防火墙/ NAT)之后,并且可能无法被外界访问。例如,通用即插即用(UPnP)可以将多个设备通过计算机连接到网络。在这种情况下,规则无法找到中间盒后面的IoT设备。但是,如果应用程序具有搜索本地网络的权限,则可以在本地网络内重新收集事务。并且如图2所示,规则挖掘器可以学习新规则。这样原型系统可以无缝部署在大型住宅/企业/本地网络中,管理网络中的一系列物联网设备以收集事务。也就是说,ARE也可以用于内部扫描。

图片.png

图2:用于生成规则的规则挖掘器

3 OEM

OEM(代工生产,委托他人生产的合作方式)导致厂商和其他供应商的零件混合。一些制造商可能会向其它制造商转售设备,这会导致设备型号信息模糊不清。在这种情况下,无论是指纹识别还是标志获取技术都无法解决OEM问题。ARE提供尽力服务(标准的因特网服务模式)以生成物联网设备规则。

4 私有二进制协议  

ARE利用了许多应用程序协议包含的设备信息。如果应用程序协议是私有二进制的,则无法将其数据包标记为文本以生成搜索关键字。但是,一些供应商使用专有二进制协议进行业务考虑。如今,没有工具能够分析物联网设备的专有协议。ARE也无法为这些物联网设备提供规则。

基于ARE的应用

作者在文章介绍了三个基于ARE的应用程序,这些应用程序证明了ARE的有效性。

1 互联网范围的设备测量

物联网设备通常部署在许多不同的地方,例如家庭,基础设施和运输系统。传统的物联网设备通常隐藏在带有NAT/PAT/防火墙的宽带路由器的后面,但如今的物联网设备大多是直接暴露在互联网上的。因此,有必要对因特网范围内的物联网设备进行测量,以深入了解它们在因特网上的部署和使用。以前的互联网范围内的测量主要集中在网络拓扑,网站和终端主机上,但在物联网设备上却做得很少。

在IDM应用程序中,作者使用来自Censys的三个应用层数据集,包括HTTP,FTP和Telnet。此外,作者还在Amazon EC2上部署了收集模块,其中包含2个内存为8GB、带宽为450Mbps的vCPU(电脑中的虚拟处理器),用于收集RTSP应用层响应数据。并使用MaxMind的GEOIP 数据库来查找物联网设备的位置,该位置包含IP地址和城市级位置标签之间的关系。总的来说,一共发现了690万个物联网设备,其中包括来自HTTP的390万个,来自FTP的150万个,来自Telnet的100万个以及来自RTSP的50万个。使用ARE规则,IDM应用程序可以为每个IoT设备提供标注。

2 定义讲解:

Censys :一个搜索引擎,可监控连接到互联网的所有设备。

Amazon EC2 :亚马逊公司提供的Web服务,是一个让用户可以租用云端计算机运行所需应用的系统。

3 受损的设备检测

对受损的IoT设备的检测是基于恶意IoT流量行为的捕获。利用蜜罐流量来检测基于包含唯一数据包内容签名的Miria僵尸网络。在收集可疑IP之后,使用Nmap标识规则来获取设备类型。同样,开发CDD应用程序是为了发现受损设备。

作者在四个国家(巴西,中国,印度和乌克兰)的六个城市(包括福州,哈尔科夫,昆明(2个蜜罐),马哈拉施特拉邦,圣地)部署七个蜜罐作为监控互联网流量的有利位置。在CDD中使用开源Cowrie SSH / Telnet Honeypot 。每个蜜罐都配置了SSH / Telnet弱凭证,并指示将流量函数转发到CDD应用程序。如果蜜罐捕获一个尝试使用SSH或Telnet连接到部署的蜜罐的IP地址,就把这个IP留在Kafka队列中。CDD在Amazon EC2上运行,并向Kafka队列中的每个IP地址发送请求以接收响应数据。然后,ARE规则用于从响应数据中识别IoT设备。这种设计背后的基本原理在于,普通的物联网设备不会访问蜜罐。如果物联网设备访问部署的蜜罐,则只有两个原因:它被错误配置或受到侵入。

图片.png

图3:受损的物联网设备分布

图3显示了CDD应用程序捕获的受感染设备的数量。我们可以看到每天可以捕获大约50种不同的受入侵物联网设备。总的来说,在12,928个蜜罐IP地址中检测到近2,000个受入侵的物联网设备。许多入侵物联网设备在成功进行暴力攻击后,将在部署的蜜罐上执行一些命令,并试图破坏更多设备。

4 易受攻击的设备分析

底层易受攻击设备的披露对安全社区也很有价值。从防御的角度来看,它可以帮助我们找出哪些在线设备容易受到攻击,并立即为关键基础设施执行安全补丁。通常,IoT设备的漏洞与特定的IoT设备模型相关联。例如,海康威视DS76xxNI-E1 / 2系列和海康威视DS-77xxxNI-E4系列设备存在缓冲区溢出漏洞CVE-2015-4409。

开发VDA应用程序可以揭示潜在的易受攻击的设备。VDA首先从NVD网站抓取漏洞信息。对于每个漏洞项,VDA都会获取其供应商名称和产品名称。然后,VDA使用正则表达式将规则与漏洞信息进行匹配。我们提取漏洞的类别信息并将类似的弱点描述分组。一个漏洞通常发生在多个平台和设备模型上。表1列出了在线物联网设备的通用弱点(CWE),其中左列是CWE ID,中间列是弱点描述,右列是具有此类漏洞的物联网设备的数量。VDA应用程序旨在揭示Internet上可访问的底层易受攻击的设备。

图片.png

表1:CWE(软件弱点类型列表)前十

从表中可以看出,网络空间中仍然存在大量潜在的易受攻击的设备。CWE列表中的前10个漏洞大多数都与不安全的设备有关,如果开发人员更加关注安全性,则可以轻松避免这些漏洞。而且在CVE网站上,已为这些IoT设备分发了安全补丁。但是,更新物联网设备的安全补丁对许多用户来说是一项非常困难的任务。他们必须从官方支持的网站或通过管理工具下载固件,然后将固件安装到ROM中以重新编程设备的集成芯片电路。

结论

随着越来越多的物联网设备连接到互联网,发现和标注这些设备对于管理和安全至关重要。在本文中,作者提出了一种基于采集规则的引擎(ARE),用于发现和标注物联网设备。ARE无需人工或训练数据即可自动执行规则生成过程。作者设计ARE模型并将ARE应用于三个应用案例:(1)在整个IPv4空间中发现数百万个物联网设备;(2)发现数千个具有恶意行为的受损物联网设备;(3)揭示数十万个物联网设备仍然容易受到恶意攻击的事实。