【竞争情报】Web监视:通过OSINT从大数据到小数据分析

Time:

Author:漠漠睡

前言

每个组织都应该知道Internet上正在流通的有关其活动的信息,以便它可以采取具体的行动来应对对组织的任何潜在威胁或为自己的企业获取竞争优势。组织不仅应监视所谓的“情感” ,而且还应监视例如有关未经授权销售产品的信息,存在被分类为机密信息,未经授权使用名称和商标以及伪造信息的信息。

由Internet上自由传播的信息所引起的特定风险的识别和评估通常不能令人满意,效率低下且成本高昂。监视Web意味着直接处理大数据,这会带来许多挑战:要管理的信息太多,要专注于研究的信息的可用性有限,重复和令人沮丧的手动工作,及时获取信息的问题以及解决方案的分配获得结果的优先级。

应该注意的是,Web监视过程将可用服务的重点放在了特定的数据上,与通用搜索引擎相比,它可以提高研究质量。有专门的搜索引擎,门户网站和社交网络,它们配备了自己的内部研究人员和汇总人员。使用专业搜索引擎让从通用的手动搜索过程(成本高昂,效率低下,晦涩,延迟)到更具针对性的服务(自动,经济,智能,按时)成为可能,这对于发现业务目标的外部风险非常有用。因此,经过适当筛选,汇总和整理的结果信息应集中于一面,易于分析,并且质量更高。

为了演示所有这些内容,本文介绍了一个Web监视项目,该项目被证明对于监视任务的范围是可持续的且足够的。它于2016年在一家地理位置公司中创建和实施,该公司在汽车领域提供多种产品。在这种情况下,如果仅通过人工研究进行管理,则在Internet上识别对业务可能具有重要意义的信息将被证明是无效的。

一、定义Web监视模型的三个步骤

建立对组织可能感兴趣的网络上所有信息的搜索系统的第一步(网络监视)是建立采集规则(例如,行业,活动类型,价值,问题,需求,目标,期望)。

在对其背景和问题进行分析之后,组织可以准备一份Internet风险列表。这对于识别和隔离关键信息列表很有用,这将构成搜索规则的定义基础。

第二步包括了解互联网上哪些类型的公共信息档案(新闻,论坛,电子商务,网页,数据库,文件共享服务,消息,社交媒体等)对于业务目标而言是有用的。需要明确的是,该组织需要确定公开来源情报(OSINT)服务为提高信息的恢复是有用的。

第三步(也是最后一步)是对数据进行系统分析,以提取最简化的,因此最易于管理的信息集。该技术可以强大地制定决策,但是对业务目标的一点人类知识就可以大大减少误报,收集的数据对组织而言不是问题,并且其知识也不能给组织带来任何好处。因此,有必要使用涉及技术和人力资源的组织过程。

二、Web监视服务:

根据对企业内部目的,问题,要求和期望的了解来识别关键字和搜索规则。

与大数据的总混乱相比,从OSINT服务中提取的专用数据集要足够小,足以用传统方法进行处理。

通过结合人工和排名算法,进一步减少了数据集的大小并提高了结果的质量。

所获得的结果的上层按期望的排名排列,代表了有助于高层管理人员了解公司面临的风险或潜在机会的信息。

三、Web监视过程概述

Web监视过程总结在图1中。

必须有一个主管(执行委员会)团队来负责该过程,该团队执行以下三个主要功能:

1、定义可以从描述的Web监视中受益的公司资产

例如,对于由官方备件网络建立的资产而言,存在未经授权的分销商出现的风险(可能带有假冒产品);因此,它向操作团队提供了有关重点产品的说明。结果,运营团队将某些产品的名称及其规格输入到搜索术语列表中(在图3中的标准11中),并在“ OSINT来源”列中输入某些值得关注的在线销售门户。

2、指导负责系统管理的运营团队获得对(从系统)收到的通知的反馈,并不断与公司环境保持一致。

3、分析收到的通知后,采取行动降低风险水平或抓住机会。

运营团队由在研究领域具有丰富经验的个人组成,他们使用执行委员会的指示(在Internet上)创建与公司目标一致的可靠业务标识。精心组织的动态关键词列表,包括权重和相关规则,代表业务的虚拟模型以及风险,威胁或机会的主要因素(使用优势-劣势-机会-威胁[SWOT] 分析以关注外部因素)。团队成员必须更新关键字列表,使其权重与公司要求保持一致,并且如果与他们的知识无关,则必须(手动)调整结果的分类。

四、搜索模型的逻辑结构

如图2所示,Web监视系统的主要功能概述可以更好地理解其整体逻辑操作。

三个不同操作阶段的顺序提供了系统中主要操作的流程:

1、搜索 -网络爬虫(也称为蜘蛛),由关键词和相关关联规则的指导下,扫描Internet搜索特定的数据集(称为蜘蛛巢穴)。每个Web搜寻器都专门在单个OSINT数据源中进行搜索。搜索结果以操作团队定义的频率保存在蜘蛛巢中。Web搜寻器可以启动多次,例如,每个风险类别一次。

2、标准化 -正确过滤的搜索数据集,将馈送到由所有结果组成的单个数据集(结果数据集)。连接到风险类别的简单过滤器指导数据的提取。元数据记录中的转换阶段(提取,转换,运输和装载[ETTL]管道)在结果数据集中实际记录的传输或更新(如果该记录已经存在)之前。

3、优先级排序 -结果数据集,包含搜索数据集中收集的所有记录的并集。由操作团队执行的数据评估和排名算法为每个记录分配一个分数。该算法使用手动评估和老化策略来提高其分类质量。只有第一级记录(显着分数)才有权保留在表示层(最终用户可见的数据库)中;数据库的隐藏部分包含所有剩余的降级记录。

计划好的过程将提取每个风险类别的最高(指定数量)记录的摘要,并将电子邮件发送给执行团队的成员。团队必须检查每份报告,然后采取行动,将做出的每项决定通知运营团队。运营团队计划更改并通过重复操作周期来实施更改。

五、通过网络爬虫搜索

至此所描述的搜索的一个特殊功能是需要有针对性的Web爬虫,每种都针对Internet上的特定目标。满足这些条件的开源平台是Scrapy。在这种环境下,聚焦的爬虫被写入在Python中,其结果被存储在MySQL 数据库。对大约15种不同的Spider的编程显示了所选平台如何使相对容易地创建新Spider成为可能。关于蜘蛛的使用频率,对搜索可能未经授权的销售的站点的分析表明,如何最佳设置7到10天的时间。这也考虑到无论如何都要对收集的数据进行部分分析。

每个OSINT源都由一个或多个蜘蛛搜索,这些蜘蛛是同类的,但是具有自己的操作参数和独立的规则。根据分配的搜索和频率规则分析每个源。结果是满足搜索条件的页面连接以及某些其他数据。

数据根据来源和搜索条件的类型而有所不同,但是目的是至少恢复URL,日期和作者,并提取清除了HTML标签的文本。为了便于操作团队使用,还将下载找到的页面的屏幕截图。

立即检查每个蜘蛛收集的数据,并在需要时将其存储在蜘蛛数据库中。记录将由于重复或互联网站点(例如公司站点,受信任站点)被视为安全站点而被丢弃,因为它们被认为没有潜在风险。从OSINT源,蜘蛛网和相关数据库创建的每个组都是一个单独的对象(模块),这使系统更强大。其中之一的故障不会扩散,但可能只会损害本地更新。

在数据收集期间,蜘蛛程序会根据页面上找到的术语的类型和数量及其权重,为找到的每个页面分配一个临时分数。然后,在将结果归一化/传输到结果数据库期间,将分数转换为页面的真实排名,并从蜘蛛,数据源和搜索类别中获得额外的权重。

数据到结果数据集的标准化/传输是在蜘蛛搜索会话结束时执行的批处理。它基于每个蜘蛛不同的存储过程。

六、搜索条件

描述搜索条件所采用的方法使用两种类型的数据:风险类别和OSINT源。图3中的表阐明了这一概念。

风险类别和OSINT源共同标识了搜索条件。风险类别在操作上定义了将要采用的过滤类型,而OSINT源则标识了将在Internet上进行搜索的位置。

数据过滤基于可被各种搜索条件重用的动态列表。搜索规则捕获与Internet上的企业标识相对应的网页,但是仅当存在其他包含关键字并且没有特定的排除关键字时才捕获该网页。为了使排序算法正确工作,必须对每条记录进行加权。

定义规则的方法要求准备一个逻辑表达式,该逻辑表达式根据以下过程将关键字的动态列表组合在一起:列表由数据库表的一系列行表示,每个表的权重各不相同。该表的单个单元格中的单词通过与OR逻辑连接在一起使用。列使用AND逻辑(可能取反),行之间始终使用OR逻辑连接。

七、用户界面

系统为所有Internet页面提供与所标识的选择规则相对应的内容作为输出,并通过自动算法对它们进行分类和排列。团队成员可以使用他们的知识和经验来手动更改任何页面的分类。此手动分类会影响排名算法,从而影响顺序。它通过亲和力传播,并保留修改的历史记录,从而影响任何其他数据处理,从而提高了执行委员会的通知质量。

为了快速释放数据接口,已采用了Drupal,它是一种开源内容管理系统(CMS)。CMS(表示层)的数据库与收集和处理的数据(数据层)的数据库保持分开,以便根据需要允许使用其他类型的用户界面。

CMS从结果数据集中读取数据,并管理数据对操作团队成员的访问,显示和管理。一组方便的参数和过滤器可减少所显示数据的最终收集。可以按风险类别,搜索条件,严重性,部门,来源和其他因素进行过滤,并更改列的顺序。结果显示了一个简单的格式化数据表(图4)。

作为附加步骤,可以扩展每一行(等效于网页)以查看其详细信息(图5),并且,如有必要,还可以使用提供的链接访问Internet上的原始页面。

八、结论

本文介绍了一种解决方案,该解决方案用于在巨大的非结构化世界范围内识别潜在企业感兴趣的信息。此信息可用于执行详细调查,以寻找具体威胁。

该方法在开源IT工具与人力资源之间取得了平衡,以获得两者的最佳组合。

通过这种方法,组织将运营团队的技能和经验与执行委员会不断与业务目标保持一致的联系起来。该技术将运营团队的大数据转换为小数据,并进一步减少了数据量,还提高了执行委员会的最终质量(图1)。

通过在专门的门户网站或搜索引擎上执行爬虫程序化的操作来减少大数据,使整个系统的开发和管理更加简单经济。此外,通过基于风险类别的模块化方法,数据库的大小取决于搜索标准的数量和规则的限制性,而不取决于公司的特征(例如,大小,产品,组织,地理位置,风险敞口)在网上)。

随着时间的流逝,这种类型的Web分析已成为企业风险管理的重要组成部分,可以有效地集成到信息安全连续监视(ISCM)系统中。当然,成本必须考虑。OSINT技术的模块化和使用一直是真正的驱动力,可确保就系统而言较低的经济风险。此外,采用开放源代码软件,尤其是针对爬虫和数据库的开放源代码软件,可以在不降低结果质量的同时,从实现和完整工作顺序两方面大幅降低成本。

作者:Paolo Gasperi,CISM,CSIRT Transits First-I,ISO 27001,Luigi Sbriz,CISM,CRISC,ISO 27001,ITILv3和Marco Tomazzoni,CSIRT Transits First-I

相关情报书籍推荐: