您当前的位置:钢材 > 型钢 > 市场分析

结构dqe,结构dq

来源:头条 作者: chanong
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

异构网络无处不在。人们喜欢从这样的网络中发现稀有但有意义的物体和模式。无论结构或内容相似度如何,相应的对象都可以用于数据分析。然而,结构和内容之间的主要区别值得更多关注。在本文中,我们提出了一种称为“结构-2-内容”的异常相关性检测方法,该方法在结构级别和内容级别逐步发现异常相关性。结构2 的内容解决了三个重要问题: (1)如何衡量目标对象的结构和内容相似性?(2)如何确定对象的代表性特征?(3)添加新数据或删除旧数据?如何。为了应对这些挑战,结构2 内容应用了四种主要技术:(1)使用两个矩阵分别保留结构和内容相似性;(2)使用三元组;表示对象之间的接近程度;(3)将镜像步骤和迭代过程获得top-K异常值相关性;(4)仅更新NG 3元组,而不是从头开始训练所有数据。它可以帮助您逐步插入或删除数据,而无需使用大量实验表明,本文提出的方法对于检测异常相关性具有良好的效果。关键词:离群值相关性、异构网络、结构级别、内容级别、相似性。

1.简介:在分析异构信息网络中的多类型对象和多类型关系时,识别罕见的、有趣的和显着的对象、模式或子图至少比理解它们要好。

通讯作者. 1013

通用数据分布或模型。作为数据挖掘领域的一个重要领域,异常值检测可用于提取网络中与其他方法显着不同的对象、模式或子图。对于由多个节点和边组成的异构网络,人们提出了许多方法来识别异常或可疑的单个顶点和子图上的顶点[1-4]。例如,在书目网络中,如果作者的出版物与其研究领域无关,则他可能是独立的局外人。例如,考虑气候研究中心子网中的异常值:如果Nomad 浮标的温度下降超过10 度,它可能会发生故障或经历波涛汹涌的海面。然而,如果多个游牧浮标在短时间内在不同地点表现出相同的现象,那就值得怀疑了。这意味着这些地区正在发生极端天气。

在本文中,我们提出了一种称为“结构2 内容”的增量异常相关性检测方法。该方法的主要思想是分别计算目标对象在结构和内容层面的相似度。测量结构相似性和内容相似性之间的差异,并获得异常相关性。三元组用于表示两个对象之间的关系。该对象可以是目标对象或表示目标对象的特征。两个物体之间的重量是它们之间的接近度。我们还提出了一个镜像步骤来获得两个对象之间的间接EECT。此外,由于参数加载方法可能会导致可用性问题,因此我们提出了一个称为覆盖率的概念,以在不使用太多参数的情况下获得足够的特征来表示目标对象。最后,我们对结构和内容水平之间异常相关性的差异进行了排名。还显示了插入新数据和删除旧数据时的增量过程。此过程仅更新一部分数据,而不是从头开始训练所有数据。我们用Aminer 和Yahoo! 做了一些实验。结构2 电影用于验证内容模型的E 有效性。实验结果表明,结构内容可以有效发现异常相关性。

在异构网络中,不仅识别单个异常值,而且检测异常值之间的相关性也非常重要。所有对象在结构或内容上都可能是正常的。然而,检测单个异常值可能会忽略对象之间的相关性。从不同的角度来看,例如在结构和内容层面上,它们的相似之处也可能有很大不同。此外,异构网络中异常值的相关性也不同于同质网络中异常值的相关性。在异构网络中,与异常相关的两个对象可能属于同一类型,但在整个计算过程中必须考虑多类型对象和多类型关系。然而,在同构网络中,具有异常相关性的两个对象不具有多类型关系,并且可能仅基于统计数据及其值而相关。

本文的贡献可总结如下。

(1)详细研究异构网络的结构和内容差异,提出异构网络中异常相关性检测的渐进方法。

(2) 三元组用于表示多种类型的对象及其对应关系。

(3)结合镜像步骤和迭代计算过程以获得目标对象在内容级别的特征表示。

(4) 插入和删除过程逐步展示了如何获得异常关联。

(5)在两个真实数据集上的大量实验证明了该方法的有效性。

本文的其余部分组织如下。相关工作将在第二节中讨论。 2. 第3 节介绍本文使用的定义和概念。我们提出的结构内容模型的总体框架也在第2 节中描述。三。第4 节描述了如何使用三元组和镜像步骤来测量结构级别的相似性。第5 节描述了如何使用三元组和迭代过程来测量内容级别的相似性。第6 节描述了如何识别离群值相关性以及如何插入新数据和删除旧数据。我们进行了多次综合实验,以在几秒钟内评估所提出方法的效率和有效性。 7. 提供实验设置、性能指标、数据集和结果。第8 节得出我们的结论。第9 节描述了未来的工作。

2.相关工作异常值检测方法已经被研究了很长时间。大多数传统方法是基于统计的[1, 5]、基于邻近性的[6, 7]、基于聚类的[8-10]、基于分类的[11, 12]和异常值收集[13]。高等人[14]使用了一种新的目标函数,使用标记和未标记的数据进行半监督异常检测。 Rasheed和Alhajj[15]提出了一种基于时间序列周期性的sux三叉树算法的离群模式检测框架。处理的对象属于同一类型。因此,他们提出的方法只能用于同质信息网络。

近年来,随着异构网络的出现,整个网络中对象的类型和关系呈现多样化。最初针对同构网络的方法不适用于异构网络。异构网络的离群点检测方法有两种:单离群点和子图离群点。 Gupta 等人[16]提出了一个新概念,称为社区分布异常(cdoutliers)。它使用非负矩阵分解来检测社区分布不遵循其他常见社区分布模式的对象。他们还在异构网络中以单个顶点的形式提取异常值。 Zhuang等人[17]提出了一种基于查询的异构网络子网异常检测方法。他们定义了子网相似性的概念,并根据异常值对子网进行了排名。异常值由子图表示。

此外,许多研究人员还深入研究了一些增量异常检测方法,以降低时间复杂度和空间复杂度。 Pokrajac 等人[18]开发了一种增量异常检测方法。他们提出了一个称为基于连接的异常因子(cof) 的概念,并展示了如何在每次插入或删除时更新cof。 Ju和Li[19]提出了一种增量方法IODM(增量异常值检测模型)。他们挖掘数据集中的关联规则并增量更新关联规则仓库(ARW)以检测异常交易。增量过程只更新部分数据,而不是从头开始训练所有数据,可以节省大量时间和空间。

三。问题定义我们从一些正式的问题定义开始,并提出了一些新概念。接下来,我们概述结构2内容的总体框架。本章介绍了主要方法和完整的理论。 4-6.为了陈述一个完整的理论,我们需要以下概念:

定义1(异构信息网络[20])。假设给定一个有向图G=_V;E;'A;R_。 V 是节点集,E 是边集。和是两个实体类型映射函数。 _v_2 a 表示每个实体v 对应a 中的特定实体类型。 e_2 r表示每条边e对应属于r的某种关系。如果节点类型为jaj1或边类型为jrj1,则认为是异构信息网络,否则认为是同构信息网络。

在现实世界中,存在着许多异构的信息网络实例。例如,书目网络具有四种类型的节点:文章、作者、术语和位置,以及表示出版物到出版物、写作到写作和引用到引用关系的多个边。电影网络有四种类型的节点:电影、演员、流派和语言,以及代表它们之间关系的边。

定义2(前一个节点和下一个节点)。给定一个无向图g=_v;e_。 A;B 2 V.A 和B 通过G 连接,得到_A;B_2 E。节点A 被访问,但节点B 未被访问。然后我们认为a是b的前驱(a可以用^b_表示,b称为a(b可以用^)表示)。

定义3(异常相关)。假设异构网络有n个对象作为输入,结构层和内容层中任意两个对象的相似度分别用si,j和ci,j表示。计算si;j 和ci;j 之间的差。找出si;j 和ci;j 之间差异的前k 个值。与前k 个差异相对应的对象相关性_i;j_ 被视为异常相关性。

与同构网络中的异常相关性检测相比,异构网络中的异常相关性检测是不同的。在同构网络中,离群值相关性只能根据两个对象之间的统计来获得。离群值相关性之间没有结构或内容信息。然而,在异构网络中,多种类型的对象和多种类型的关系的存在使得检测异常相关性变得更加复杂。

定义4(启用的功能)。如果一个特征X被赋予了一个词项权重值,则称其为有效特征,否则称其为无效特征。

定义5(范围)。有效特征与特征总数的比值定义为覆盖率,表示为cr。

图1 显示了我们建议的结构2 内容框架。我们从两个方面计算异构信息网络中对象之间的相似度。图1。结构2 内容模型的总体框架。

看法。第一个是对象之间结构层面的相似性,如图1 左侧所示。第二个是对象之间内容级别的相似性,如图1 右侧所示。接下来,我们利用矩阵s 和c 之间的较大差异来获得前k 个离群值相关性。

4.结构层组件在本节中,我们从结构角度计算两个对象之间的相似度。此外,Structure2content 模型的结构级组件是增量过程。当新数据出现时,无需从头开始计算,大大降低了时间复杂度。在几秒钟内查看组合步骤。分别为4.1和镜像步骤4.2。三元组用于计算异构网络中任意两个对象之间的结构关系。

4.1. 组合程序

给定一个由多种类型的对象及其对应关系组成的异构网络G。在异常值检测领域,人们从网络结构和网络内容的角度进行了异常值检测的研究。然而,很少有研究从网络结构和内容信息的差异角度检测异常相关性。此外,当插入新数据或删除旧数据时,传统的异常值检测方法通常从头开始计算对象的异常值。因此,我们首先提出一种增量异常相关检测方法来计算结构级别的对象相似度。

众所周知,异构网络包含许多不同类型的对象。某些类型的对象被用作计算接近度的目标。目标对象以多条记录的形式表示。例如,在书目网络中,作者可以被视为目标对象。这些记录以共同作者的身份出现。电影网络可能会将演员视为目标。这些唱片都有联合主演。结构层的最终相似度存储在矩阵S中,如下所示。 2s13 2s12;11 s12;22 s21;nn 3SSNN=664S.27775=4…;1…;2 SN…;N 56S.666SS777

Serial Number; Serial Number; 为了逐步获得异常值相关性,异构网络中的感兴趣对象以3元组的形式存储,用_oi; eij; oj_表示。 oi和oj是目标对象,eij表示oi和oj之间的接近程度。

表格1。已记录十个案例,其中包括几位作者。

ID

共同作者ID

ID

共同作者ID

磷1

A1;A2;A3;A4

林6 A2;A8;A9

磷2

A1;A2;A4;A5

磷7

a2;a4;a5;a10

磷3

A4;A5;A6;A7

林8 A3; A6; A11

磷4

A1;A2;A4;A6

磷9

A1;A2;A3;A4

磷5

A2;A8

磷10

A1;A3;A6;A7

表2. 从表1 生成的所有三个元组。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三项式

f1,1,2g f1,1,2g f4,1,5g f1,1,2g f2,1,8g f2,1,8g f2,1,4g f3,1,6g f1,1,2g f1,1,3g f1,1,3g f1,1,4g f4,1,6g f1,1,4g f2,1,9g f2,1,5g f3,1,11g f1,1,3g f1,1,6g f1,1,4g f1,1,5g f4,1,7g f1,1,6g f8,1,9g f2,1,10g f6,1,11g f1,1,4g f1,1,7g f2,1,3g f2,1,4g f5,1,6g f2,1,4g f4,1,5g f2,1,3g f3,1,6G F 2,1,4g F 2,1,5g F 5,1,7g F 2,1,6g F 4,1,10g F 2,1,4g F 3,1,7g

3,1,4 4,1,5 6,1,7 4,1,6 5,1,10 3,1,4 6,1,7

F G F G F G F G F G F G F G F G G F G

结构层oi和oj之间的相似度包括连接步骤和镜像步骤两部分,并且使用式(1)计算如下:

soi;oj=sdoi;oj_smoi;oj;_1_

这里,sdo;是oi和oj之间的直接类比。例如,表1有10条记录,代表10个文章ID和对应的作者ID。如表2所示,我们使用三元组来表示两位作者之间的关系。根据直接合着关系,将三个元组合并(如表3所示)并I oJ

使用等式(2)计算sdo。我

X iri;J

sdoi;oj=sdoj;oi=n;_2_跟我来

其中n 是数据集中包含oi 或oj 的记录总数。式(2)的条件是i必须小于j,仅仅考虑直接相似性是不够的。用于计算增量过程的间接相似性和镜像步骤将在下一节中讨论。

4.2. 镜像步骤

在本节中,我们提出了一种称为镜像步骤的方法,该方法计算两个对象之间的间接相似度并逐步检索异常值。当我们得到表3中的三个元组后,我们将这三个元组镜像到原始元组的另一侧。

表3. 合并后的所有3 元组。

f1,0.25,2g f1,0.5,3g f1,0.57,4g f1,0.14,5g f1,0.29,6g f1,0.17,7g

F2、0.22、3G

F 2,0.625,4g F 2,0.25,5g F 2,0.1,6g F 2,0.29,8g F 2,0.14,9g F 2,0.14,10g

f3,0.25,4g f4,0.5,5g f5,0.17,6g f3,0.33,6g f4,0.29,6g f5,0.25,7g

f3,0.2,7g f4,0.14,7g f5,0.33,10g f3,0.25,11g f4,0.17,10g

F6,0.5,7g F8,0.5,9g F6,0.25,11g

表4. 镜像表3 中的3 元组。

F2,0.25,1g f3,0.5,1g f4,0.57,1g f5,0.14,1g f6,0.29,1g f7,0.17,1g

F3.0.22,2克

f4,0.625,2g f5,0.25,2g f6,0.1,2g f8,0.29,2g f9,0.14,2g

10,0.14,2

f4,0.25,3g f5,0.5,4g f6,0.17,5g f6,0,33,3g f6,0.29,4g f7,0.25,5g

f7,0.2,3g f7,0.14,4g f10,0.33,5g f11,0.25,3g f10,0.17,4g

F7,0.5,6g F9,0.5,8g F11,0.25,6g

F/G型

3元组。例如,表3中的3元组f1,0.25,2g变为表4中的3元组f1,0.25,1g。测量OA 和O 的紧密度并仅提取包含作者的记录会导致信息过多丢失,因为忽略了间接协作。例如,A 和A 与A 合作,A 和A 合作发表多篇论文,A 和A 与A 合作发表一篇论文。当然,A与A之间的亲密度高于A与A之间的亲密度。我们使用方程(3)来计算镜像步骤中两个对象之间的间接相似度。 3 63 6 3 6 1247 113 11 63 6 3 11T

smoi;oj=smoj;oi=xei;kek;j;_3_K 1

这里,t是具有间接合著者关系的作者数量。这是smo 中三元组数量的一半。例如,使用表3和表4中的三个元组计算OA和OIN的结构水平之间的相似度如下。此外,算法1还描述了一种计算结构层中对象之间相关性的算法。我是J3 6

SO3;O6=SDO3;O6_Smo3;O6

0:33_e3;1e1;6_e3;2e2;6_e3;4e4;6_e3;7e7;6_e3;11e11:6_

0:33_0:5 0:29_0:22 0:1_0:25 0:29_0:2 0:5_0:25 0:25_0:732:

0:732:

5. 内容级组件

仅仅考虑异构网络上的链路结构是不准确和不全面的。在本节中,我们提出了一种迭代方法,该方法结合三元组来计算内容层中对象之间的接近度。 ContentLevel组件使用其他类型的对象来表示目标对象的特征。例如,在书目网络中,关键字可以被视为作者的特征。在电影网络中,类型可以被视为演员的特征。因此,内容层面上的对象之间的紧密度存储在矩阵C中如下: CNN=62646CCC…N1277735=62664CC12…;111 CC21…;222 CCN12…;NNN 57377;C

中国中国;

其中,ci;j表示对象oi和oj之间的内容级别相似度。以下是迭代计算ci;j 的方法。与矩阵S中的si;j类似,特征及其对应关系由三个元组表示(表示为_ti;rij;tj_,如表5所示)。在书目网络中,ti和tj代表目标对象。特征对象rij 是ti 和tj 之间的接近度。表5 列出了所有三个元组。还需要镜像步骤来获得任意两者之间的最终接近度。

表5.10 论文ID 和相应关键字的示例。

ID

关键词

ID

关键词

磷1

A;B;C;H

磷6

G;I;K;L

磷2

C;D;E

磷7

C;F;G;我

磷3

A;C;F;G

磷8

C;D;E;I;J

磷4

C;D;I;J

磷9

A;C;D

磷5

G;我

磷10

A;B;D;E

表6. 从表5 生成的所有三个元组。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三项式

FA, 1, BG-FC, 1, DG-FA, 1, CG-FC, 1, DG-FA, 1, GG-FG, 1, IG-FC, 1, FG-FC, 1, DG-FA, 1,CG-FA,1,BG-FA,1,CG-FC,1,EG-FA,1,FG-FC,1,IG-FA,1,IG-FA,1,BG-FC,1, GG-FC,1,EG-FA,1,DG-FA,1,CG-FA,1,CG-FC,1,LG-FC,1,1,1,ig-FC,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ig-fc,1,dg-fa,1,eg-fb,1 ,cg-fc,1,fg-fd,1,ig-fi,1,kg-ff,1,ggfc,1,jg fb,1,dg

FB,1,汞

fc,1,gg fd,1,jg

FI,1,LG FF,1,IG FD,1,EG

FB,1,示例

FC,1,汞

FF、1、GG FI、1、JG

fk,1,lg fg,1,ig fd,1,ig fd,1,jg fe,1,ig fe,1jg fi,1,jg

FD,1,示例

特征。假设作者ap 发表论文p1 和p2,并使用式(4)计算与ap 直接相关的关键词q 的权重项。

WPQ=N_P_D_PQ_Log_N_S;_4_K 琳琳Q1

这里,n_p_是作者ap发表的论文数量。 d_pq_是AP发表的论文中出现的关键词的Q个数。因此,AP发表的文章中出现的关键词越多,这些关键词在AP的词权重中体现得越清晰。 k_p_是作者ap发布的关键词总数。 ns 是网络中的论文总数。 p_q_ 是包含关键字p_q_ 的论文数量。也就是说,如果某个关键词在一个集合中的多篇论文中频繁使用,则不认为它特别代表该类型的论文。例如,“关键字\数据挖掘”是一个广泛的研究领域。如果作者发表了包含此关键字的论文,您可能不知道该论文涵盖的研究领域。随着关键字变得更加具体,例如时间异常检测和异常相关性检测,可以用术语权重更具体地表达特征。因此,WPC=2log6 2 710_=0:067:1

使用术语权重值指定的特征称为有效特征。与目标对象直接相关的功能将添加到启用的功能集中。将直接相关的属性应用于目标对象是不够的。与目标对象间接相关的特征也应该使用术语权重来分配。直接获得与作者相关的关键词的术语权重后,我们找到有效特征的后代节点,并为无效特征分配术语权重值。然后,将无效特征添加到有效特征集中,直到CR达到80%。一旦CR达到80%,我们相信这些特征就可以用于内容级别的相似度计算。由于图可能包含圆形,因此我们可以使用辅助数组来标记每个顶点,并防止图遍历算法出现在循环内部。迭代计算的过程如下。

wpq=wp^q rq^q;_5_

这里,rq^q 是节点q 与其前一个节点^q 之间的接近度,如上所述。 wp^q 是目标节点ap 的^q 项的权重。如果所有目标对象的覆盖率满足要求,则可以使用余弦相似度计算内容级别的相似度,并将其存储在上面的矩阵C中。算法2描述了计算内容级相关性的算法如下。

6. 用于检测离群值相关性的结构2内容模型

在本节中,我们介绍如何使用Structure2content 模型检测异常关联(第6.1 节)。第6.2 节和第6.3 节描述了当新数据插入数据集中时如何更新现有数据,以及如何丢弃一些旧数据。

6.1. 异常相关检测流程

根据第2节的描述。结构和内容级别的相似性分别存储在矩阵S 和C 中。接下来计算S和C的Frobenius范数,即JJSJJF和JJCJJF。 jjjf 是矩阵的Frobenius 范数:jj jjf pms_。在S和C相同数量级的情况下,结构层面的相似性和内容层面的相似性是等价的。因此,S 和C 的Frobenius 规范是相同的。首先,将jjsjjf 除以jjjjf 即可得到参数。接下来,将矩阵C 的每个元素乘以参数,使得jjsjjf 与jjjjf 相同。矩阵mos 用于存储s c 的绝对值,其_i;j_ 项是每个有序相关性_i;j_ 的s i;j c i;j 的绝对值。每个对象之间的相关性差异被存储在MOS中,可以找到两个对象在结构层面和内容层面上的最大差异。 mos的top-k值意味着两个目标对象的结构和内容之间存在最大差异。在整个异构网络中,相应对象的相关性被视为离群相关性。 n2Mn1=2

6.2. 插入

结构2 在内容模型插入过程中,在将一组新记录插入到原始数据集中后,必须同时更新矩阵S和C。假设要插入一组包含多类型对象和对应关系的记录,并且插入的目标对象也用三元组表示。整个插入过程包括两个部分:(1)插入新的对象相关性,(2)更新现有的结构级和内容级相似性。插入新对象关联时的计算过程如上所述。如果插入的对象关联已存在于原始数据集中,我们首先使用新的对象关联来计算结构级别的相似度。插入的目标对象由三元组表示,从而产生所有对象依赖关系的最终表示。增量部分

INCO;使用公式(1)计算。例如,插入的记录为fa;a;ag。新记录的对象依赖关系为fa;ag、fa;ag、fa;ag。 a和a之间的直接相似度(用s incdo;_表示)为1=1/40:143。包括aa、ais在内共有7条记录。白炽灯的e输入为1=7=0:143。使用镜像步骤的间接相似性(表示为s i oJ1361336163 6 i oJ7 3 6 31 16)

incmo;_ 是e inc 乘以e inc,等于1=1/4 0:02。在这种情况下,增量部分s inco; 等于s incdo; 加上s incmo;最终结构层面的相似度为i oJ31 1649 3o6 3o6 3o6。

incoplus 即=0:732_0:143_0:02=0:877.3o6 3o63o6

6.3. 删除

在实际应用中,除了插入新记录外,还需要删除一些旧的数据对象。删除这些旧记录时,必须消除合并和镜像步骤引入的相似性。例如,删除表1中的一条记录(如p)。我们不需要重新计算数据集中的所有数据,而是需要删除表2 的第三列并更新包含a;a;a a 和a a 的所有三个元组。类似地,在计算内容层面的相似度时,特征之间的相似度的计算方式与上述相同。可以迭代地获得目标对象之间的相似度。 3456 7

7.实验与结果

众所周知,由于缺乏基本事实,异常值评估一直是一个难题。在本节中,我们定义一个称为pout 的异常值度量来评估异构网络中的异常值相关性(第7.1 节)。精确率和召回率也用作性能指标(第7.1 节)。接下来,使用两个数据集aminer 和yahoo!this movie 来验证所提出的结构2(第7.2 节)的内容有效性。在本文的其余部分中,我们进行了一些实验,以验证在异构网络中挖掘离群值相关性(秒)时,计算结构级别和内容级别之间的显着区别是否成立。 7.3)。

7.1. 绩效指标

为了测试我们提出的异常相关检测方法的质量,设计了一种新的性能指标,即pout。 pout 可以测量错误标记或丢失的对象关联的数量。 “标记为错误”表示该对象的依赖关系正常

数据,但标记为异常相关性。\“缺少”意味着对象相关性应该是离群相关,但它不存在于Top-K离群相关集中。错误标记的离群值相关性的数量用w表示。离群值检测过程中丢失的离群值相关性的数量用m表示。outcorr是数据集中手动注释的总离群值相关性。相应地,我们使用等式(6)计算出:pout?jw_m j 100%:_6_ 2 奥科尔 与另一种流行的评估度量(称为准确性)相反,pout使用了两种相反的情况:真-负和假-正,来测试在检测过程中是否识别了所有可能的异常值相关性。另外两个常见的指标,精度和召回,也适用于重新评估我们提出的检测模型的可用性[21]。异常值相关性检测的精度是被指定为Top-K异常值相关性的对象相关性的分数,它衡量了拒绝正常对象相关性的效果。回忆是由手动注释数据分配的对象相关性的分数,它测量了在所有异常相关性结束时的表现。因此,精度和召回使用公式计算。(7)和(8)如下:精度为1/4 J J J WJ 100%;_7_科尔德科尔德科尔德 召回1/4 J J WJ 100%8_奥科尔 其中corrd是Top-K离群值相关性中的一组对象相关性。outcorr是数据集中手动注释的总离群值相关性。f-measure[22]作为精度和召回的调和平均值,也用于测量我们方法的性能。用式(9)计算: F测度γ2_精度_召回;γ9γ1 精确召回 其中是重新考虑精确性和召回的相对重要性的权重。显然,如果大于1,那么召回值比精度值更重要。在本文中,被赋予一个常数1。 7.2. 数据集集合 我们使用两个真实的数据集进行实验:Aminer[23]和Yahoo!电影[24]。 氨基。我们从aminer生成数据,aminer是一个书目异构信息网络。它主要由三部分组成,分别是阿明的作者、阿明的论文作者和阿明的合著者。它拥有1712433位作者和2092356篇论文,涵盖计算机科学的不同领域。有四种类型的节点:论文、作者、地点和术语,以及构建整个异构信息网络的几种边缘。为了更准确地检测异常值,对原始数据集进行了补充。使用爬虫[25]提取每篇论文的关键字(用k表示),并将其添加到aminer-paper.txt中每个记录的末尾。在每个数据集中有100个异常值关联被手动注释。 雅虎!电影。雅虎!电影作为分级和分类数据集的一部分,可以应用于异构信息网络中。这个数据集包括六个方面的信息,包括电影、演员、电影分级等。多类型顶点及其之间的多类型关系可用于分类、聚类或检测异常值。评级信息可用于预测或推荐系统。我们选择部分数据,包括` lm标题、演员和类型进行实验,并添加100个对象相关性作为异常相关性。 7.3. 结果 在本节中,我们进行了实验,以检验我们提出的结构内容的有效性和效率。我们进行了第一次实验,以证明我们提出的方法的性能。我们提取数据集中不同数量的对象来观察pout、precision、recall和f-measure。图2和图3显示了随着对象数量的增加,两个数据集上的结果。由于我们在图2中选择了前100个值和相应的对象相关性作为离群值相关性,因此jcor rdj在这种情况下等于joutcorrj,这使得精度与 (a)(b) 图2。aminer和yahoo!上结构2内容的pout和f-measure!电影。(选择前100个对象相关性作为离群值相关性)。 (a)(b) 图3。Aminer和Yahoo!上结构2内容的pout、precision、recall和f-measure!电影。(选择前50个对象相关性作为离群值相关性)。 回忆。另外,pout与精度之和为1。因此,我们只在图2中提供pout和f-measure。在图3中,我们选择前50个值和相应的对象相关性。图3中的召回低于图2中的召回,因为手动标注的离群值相关性数量与检测到的离群值相关性(即图3中的joutcorrj?2jcorrdj)不同。aminer中的功能数量高于yahoo!中的功能数量。电影,这可能导致更高的精度在aminer。同时,可能需要较长的时间才能在胺液中获得充分的特性。 在第二个实验中,我们验证了我们提出的算法的可扩展性。在Aminer和Yahoo!电影数据集,我们将对象数量从1000增加到4000,然后观察运行时间。图4显示,随着数据量的线性增长,执行时间几乎是线性增长,而不是指数增长。然后,我们将处理器的数量从2更改为8,然后观察运行时间。图5表明,随着处理器数量的增加,执行时间大大缩短,这意味着我们提出的方法可以执行并行计算。 在第三个实验中,我们使用三个基线算法(cdoutliers[16]、基于查询的[17]、abcoutliers[26])进行了比较实验。CDoutlier基于联合非负矩阵分解发现了所有对象类型的流行社区分布模式。cdoutlier组作者基于他们的研究区域分布。也就是说,它只考虑网络中的内容信息。根据用户输入的查询,基于查询的异常值检测。在整个过程中,它考虑的结构信息多于内容信息。Abcoutliers计算所有匹配的群组结果。它不如基于查询的算法有效。图6中的曲线表明 图4。在aminer和yahoo!上不同数据数量条件下的运行时间比较电影数据集。(选择前100个对象相关性作为离群值相关性)。 图5。在aminer和yahoo!上不同处理器数量条件下的运行时间比较。电影数据集。(选择前100个对象相关性作为离群值相关性)。 (a)(b)图6。Aminer和Yahoo!四种异常值检测方法的性能比较电影。 structure2内容的性能优于cdoutlier、query-based和abcoutlier。 在第四个实验中,我们验证了该方法的有效性。从图7的曲线可以看出,结构2内容的时间复杂度比其他基线算法要低得多。此外,当我们插入新数据或删除过时数据时,我们的增量方法不需要从头计算相似性。它可以大大降低时间复杂度和空间复杂度。 在第五个实验中,我们提供了一个案例研究来说明什么样的对象相关性应该被视为异常相关性。我们根据数据集的格式对数据进行注释。例如,在aminer中,我们添加了'fty author (a)(b) 图7。我们建议的结构内容和三个基线算法的运行时间,两个数据集上的对象数不同。 表7.Aminer数据集异常关联的案例研究。 论文编号 作者 关键词 磷1 A1,A2 k1、k2、k3、k4、k5 磷2 A1,A2 K6、K7、K8、K9、K10 磷3 一1 k1、k2、k3、k4、k5 磷4 一2 K6、K7、K8、K9、K10 磷5 A3,A4 K11、K12、K13、K14、K15 磷6 A5,A6 K11、K12、K13、K14、K15 具有结构相似性但几乎没有内容相似性的关联,并添加另一个具有内容相似性但几乎没有结构相似性的作者关联。在前一个案例中,两位作者是多篇论文的共同作者,但他们的研究领域完全不同。在后一种情况下,两位作者的研究领域几乎相同,但他们从不在论文上合作。基于以上两种情况,我们在aminer中注释数据。表7列出了两种异常值相关性。例如,aa和aa被认为是离群关联,因为它们在两篇论文上协作,但它们的研究领域完全不同。此外,a(a_)和a(a_)被视为离群关联,因为它们的研究领域相同,但以前从未合作过。我们可以互相推荐,看看他们能否进行学术交流。1 2 3 45 6 8。结论 In this paper, we propose an incremental outlier correlation detection method for heterogeneous information networks based on 3-tuples and structure-content difference. The Structure2Content model includes two parts: structure-level and content-level. In these two parts, the 3-tuples and the mirror step are used to measure the closeness degree between target objects. An iterative process and the coverage rate are combined to get su±cient features to represent the target objects in contentlevel. The insertion and deletion process demonstrates that our proposed method does not need to train the data from the beginning when inserting new data or deleting obsoleted data. In addition, using 3-tuples to store the target objects and the corresponding relations can save more space than using the adjacent matrix. Experimental results show that our proposed outlier detection method, Structure2Content, can incrementally discover outlier correlations in heterogeneous information networks. 9. Future Work Future work on highlighting the heterogeneity during the calculating process is needed. For example, it would be interesting to use 3-tuples to represent the relations between di?erent types of objects. Also, we plan to detect outliers and outlier correlations simultaneously. Then, we can carry on comprehensive analysis about single outliers and outlier correlations. And we should think about how to deal with new objects with little information. The work on development of distributed version of the incremental outlier detection algorithm is also needed. Acknowledgments This work is supported by the National Natural Science Foundation of China under grant No. 60903098, the Project of Jilin Provincial Industrial Technology Research and Development (JF2012c016-2), and Graduate Innovation Fund of Jilin University (2016183, 2016184). References 1. F. Angiulli and F. Fassetti, Towards generalizing the uniˉcation with statistical outliers: The gradient outlier factor measure, ACM Trans. Knowl. Discov. Data 10(3) (2016), Article ID: 27. 2. F. Angiulli, F. Fassetti, L. Palopoli and G. Manco, Outlying property detection withnumerical attributes, Data Mining Knowl. Discov. (2013) 1–30. 3. C. C. Aggarwal and S. Sathe, Theoretical foundations and algorithms for outlierensemblesk, ACM SIGKDD Expl. Newslett. 17(1) (2015) 24–47. 4. F. Dufrenois and J. C. Noyer, One class proximal support vector machines, Pattern Recognition 52 (2016) 96–112. 5. F. Chen, C. T. Lu and A. P. Boedihardjo, GLS-SOD: A generalized local statisticalapproach for spatial outlier detection, in Proc. 16th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2010. 6. G. H. Orair, C. H. C. Teixeira, W. Meira Jr., Y. Wang and S. Parthasarathy, Distancebased outlier detection: Consolidation and renewed bearing, in Proc. VLDB Endowment 3(1–2) 2010. 7. R. Gupta and K. Pandey, Density based outlier detection technique, Adv. Intell. Syst. Comput. 433 (2016) 51–58. 8. T. Zhang, R. Ramakrishnan and M. Livny, BIRCH: An e±cient data clustering methodfor very large databases, in ACM SIGMOD Record (ACM, 1996). 9. S. Guha, R. Rastogi and K. Shim, CURE: An e±cient clustering algorithm for largedatabases, in ACM SIGMOD Record (ACM, 1998). 10. G. Karypis, E. H. Han and V. Kumar, Chameleon: Hierarchical clustering using dynamicmodeling, Computer 32(8) (1999) 68–75. 11. T. B. Wu, Y. Cheng, Z. K. Hu, W. P. Xie and Y. L. Liu, A new PLS and bayesianclassiˉcation based online outlier detection method, in Proc. 3rd Int. Conf. Advanced Design and Manufacturing Engineering, 2013. 12. N. Koochakzadeh, K. Kianmehr, J. Jida, I. Lee, R. Alhajj and J. Rokne, Semi-superviseddynamic classiˉcation for intrusion detection, Int. J. Softw. Eng. Knowl. Eng. 20(2) (2010) 139–154. 13. I. S. Sitanggang and D. A. M. Baehaki, Global and collective outliers detection on hotspotdata as forest ˉres indicator in Riau Province, Indonesia, in Proc. 2nd IEEE Int. Conf. Spatial Data Mining and Geographical Knowledge Services, 2015, pp. 66–70. 14. J. Gao, H. B. Cheng and P. N. Tan, Semi-supervised outlier detection, in Proc. 2006 ACM Symp. Applied Computing, 2006, pp. 635–636. 15. F. Rasheed and R. Alhajj, A framework for periodic outlier pattern detection in timeseries sequences, IEEE Trans. Cybernetics 44(5) (2014) 569–582. 16. M. Gupta, J. Gao, C. Aggarwal and J. Han, Community distribution outlier detection inheterogeneous information networks, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2013, pp. 557–573. 17. H. Zhuang, J. Zhang, G. Brova, J. Tang, H. Cam, X. Yan and J. Han, Mining query-basedsubnetwork outliers in heterogeneous information networks, IEEE Int. Conf. Data Mining, 2014, pp. 1127–1132. 18. D. Pokrajac, N. Reljin, N. Pejcic and A. Lazarevic, Incremental connectivity-based outlierfactor algorithm, in Proc. Int. Conf. Visions of Computer Science BCS International Academic Conference, 2008, pp. 211–224. 19. C. H. Ju and Y. L. Li, An incremental outlier detection model for transactions datastreams, J. Inf. Comput. Sci. 10(1) (2013) 49–59. 20. Y. Sun, J. Han, X. Yan, P. S. Yu and T. Wu, PathSim: Meta path-based top-k similaritysearch in heterogeneous information networks, in VLDB'11, 2011, pp. 992–1003. 21. B. Liu, Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, 2nd edn. (Springer, Berlin, 2011). 22. W. B. Croft, D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice (Addison-Wesley, 2009). 23. J. Tang, J. Zhang, L. M. Yao, J. Z. Li, L. Zhang and Z. Su, Arnetminer: Extraction andmining of academic social networks, in Proc. 14th ACM SIGKDD Int. Conf. Knowl. Discovery and Data Mining, 2008, pp. 990–998. 24. Yahoo! webscope program, http://webscope.sandbox.yahoo.com. Accessed: 28/01/2016. 25. T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowl.-Based Syst. 51 (2013) 15–26. 26. M. Gupta, J. Gao, X. F. Yan, H. Cam and J. W. Han, On detecting association-basedclique outliers in heterogeneous information networks, Advances in Social Networks Analysis and Mining, 2013, pp. 108–115.
责任编辑:德勤钢铁网 标签:

热门搜索

相关文章

广告
德勤钢铁网 |市场分析

结构dqe,结构dq

chanong

|

异构网络无处不在。人们喜欢从这样的网络中发现稀有但有意义的物体和模式。无论结构或内容相似度如何,相应的对象都可以用于数据分析。然而,结构和内容之间的主要区别值得更多关注。在本文中,我们提出了一种称为“结构-2-内容”的异常相关性检测方法,该方法在结构级别和内容级别逐步发现异常相关性。结构2 的内容解决了三个重要问题: (1)如何衡量目标对象的结构和内容相似性?(2)如何确定对象的代表性特征?(3)添加新数据或删除旧数据?如何。为了应对这些挑战,结构2 内容应用了四种主要技术:(1)使用两个矩阵分别保留结构和内容相似性;(2)使用三元组;表示对象之间的接近程度;(3)将镜像步骤和迭代过程获得top-K异常值相关性;(4)仅更新NG 3元组,而不是从头开始训练所有数据。它可以帮助您逐步插入或删除数据,而无需使用大量实验表明,本文提出的方法对于检测异常相关性具有良好的效果。关键词:离群值相关性、异构网络、结构级别、内容级别、相似性。

1.简介:在分析异构信息网络中的多类型对象和多类型关系时,识别罕见的、有趣的和显着的对象、模式或子图至少比理解它们要好。

通讯作者. 1013

通用数据分布或模型。作为数据挖掘领域的一个重要领域,异常值检测可用于提取网络中与其他方法显着不同的对象、模式或子图。对于由多个节点和边组成的异构网络,人们提出了许多方法来识别异常或可疑的单个顶点和子图上的顶点[1-4]。例如,在书目网络中,如果作者的出版物与其研究领域无关,则他可能是独立的局外人。例如,考虑气候研究中心子网中的异常值:如果Nomad 浮标的温度下降超过10 度,它可能会发生故障或经历波涛汹涌的海面。然而,如果多个游牧浮标在短时间内在不同地点表现出相同的现象,那就值得怀疑了。这意味着这些地区正在发生极端天气。

在本文中,我们提出了一种称为“结构2 内容”的增量异常相关性检测方法。该方法的主要思想是分别计算目标对象在结构和内容层面的相似度。测量结构相似性和内容相似性之间的差异,并获得异常相关性。三元组用于表示两个对象之间的关系。该对象可以是目标对象或表示目标对象的特征。两个物体之间的重量是它们之间的接近度。我们还提出了一个镜像步骤来获得两个对象之间的间接EECT。此外,由于参数加载方法可能会导致可用性问题,因此我们提出了一个称为覆盖率的概念,以在不使用太多参数的情况下获得足够的特征来表示目标对象。最后,我们对结构和内容水平之间异常相关性的差异进行了排名。还显示了插入新数据和删除旧数据时的增量过程。此过程仅更新一部分数据,而不是从头开始训练所有数据。我们用Aminer 和Yahoo! 做了一些实验。结构2 电影用于验证内容模型的E 有效性。实验结果表明,结构内容可以有效发现异常相关性。

在异构网络中,不仅识别单个异常值,而且检测异常值之间的相关性也非常重要。所有对象在结构或内容上都可能是正常的。然而,检测单个异常值可能会忽略对象之间的相关性。从不同的角度来看,例如在结构和内容层面上,它们的相似之处也可能有很大不同。此外,异构网络中异常值的相关性也不同于同质网络中异常值的相关性。在异构网络中,与异常相关的两个对象可能属于同一类型,但在整个计算过程中必须考虑多类型对象和多类型关系。然而,在同构网络中,具有异常相关性的两个对象不具有多类型关系,并且可能仅基于统计数据及其值而相关。

本文的贡献可总结如下。

(1)详细研究异构网络的结构和内容差异,提出异构网络中异常相关性检测的渐进方法。

(2) 三元组用于表示多种类型的对象及其对应关系。

(3)结合镜像步骤和迭代计算过程以获得目标对象在内容级别的特征表示。

(4) 插入和删除过程逐步展示了如何获得异常关联。

(5)在两个真实数据集上的大量实验证明了该方法的有效性。

本文的其余部分组织如下。相关工作将在第二节中讨论。 2. 第3 节介绍本文使用的定义和概念。我们提出的结构内容模型的总体框架也在第2 节中描述。三。第4 节描述了如何使用三元组和镜像步骤来测量结构级别的相似性。第5 节描述了如何使用三元组和迭代过程来测量内容级别的相似性。第6 节描述了如何识别离群值相关性以及如何插入新数据和删除旧数据。我们进行了多次综合实验,以在几秒钟内评估所提出方法的效率和有效性。 7. 提供实验设置、性能指标、数据集和结果。第8 节得出我们的结论。第9 节描述了未来的工作。

2.相关工作异常值检测方法已经被研究了很长时间。大多数传统方法是基于统计的[1, 5]、基于邻近性的[6, 7]、基于聚类的[8-10]、基于分类的[11, 12]和异常值收集[13]。高等人[14]使用了一种新的目标函数,使用标记和未标记的数据进行半监督异常检测。 Rasheed和Alhajj[15]提出了一种基于时间序列周期性的sux三叉树算法的离群模式检测框架。处理的对象属于同一类型。因此,他们提出的方法只能用于同质信息网络。

近年来,随着异构网络的出现,整个网络中对象的类型和关系呈现多样化。最初针对同构网络的方法不适用于异构网络。异构网络的离群点检测方法有两种:单离群点和子图离群点。 Gupta 等人[16]提出了一个新概念,称为社区分布异常(cdoutliers)。它使用非负矩阵分解来检测社区分布不遵循其他常见社区分布模式的对象。他们还在异构网络中以单个顶点的形式提取异常值。 Zhuang等人[17]提出了一种基于查询的异构网络子网异常检测方法。他们定义了子网相似性的概念,并根据异常值对子网进行了排名。异常值由子图表示。

此外,许多研究人员还深入研究了一些增量异常检测方法,以降低时间复杂度和空间复杂度。 Pokrajac 等人[18]开发了一种增量异常检测方法。他们提出了一个称为基于连接的异常因子(cof) 的概念,并展示了如何在每次插入或删除时更新cof。 Ju和Li[19]提出了一种增量方法IODM(增量异常值检测模型)。他们挖掘数据集中的关联规则并增量更新关联规则仓库(ARW)以检测异常交易。增量过程只更新部分数据,而不是从头开始训练所有数据,可以节省大量时间和空间。

三。问题定义我们从一些正式的问题定义开始,并提出了一些新概念。接下来,我们概述结构2内容的总体框架。本章介绍了主要方法和完整的理论。 4-6.为了陈述一个完整的理论,我们需要以下概念:

定义1(异构信息网络[20])。假设给定一个有向图G=_V;E;'A;R_。 V 是节点集,E 是边集。和是两个实体类型映射函数。 _v_2 a 表示每个实体v 对应a 中的特定实体类型。 e_2 r表示每条边e对应属于r的某种关系。如果节点类型为jaj1或边类型为jrj1,则认为是异构信息网络,否则认为是同构信息网络。

在现实世界中,存在着许多异构的信息网络实例。例如,书目网络具有四种类型的节点:文章、作者、术语和位置,以及表示出版物到出版物、写作到写作和引用到引用关系的多个边。电影网络有四种类型的节点:电影、演员、流派和语言,以及代表它们之间关系的边。

定义2(前一个节点和下一个节点)。给定一个无向图g=_v;e_。 A;B 2 V.A 和B 通过G 连接,得到_A;B_2 E。节点A 被访问,但节点B 未被访问。然后我们认为a是b的前驱(a可以用^b_表示,b称为a(b可以用^)表示)。

定义3(异常相关)。假设异构网络有n个对象作为输入,结构层和内容层中任意两个对象的相似度分别用si,j和ci,j表示。计算si;j 和ci;j 之间的差。找出si;j 和ci;j 之间差异的前k 个值。与前k 个差异相对应的对象相关性_i;j_ 被视为异常相关性。

与同构网络中的异常相关性检测相比,异构网络中的异常相关性检测是不同的。在同构网络中,离群值相关性只能根据两个对象之间的统计来获得。离群值相关性之间没有结构或内容信息。然而,在异构网络中,多种类型的对象和多种类型的关系的存在使得检测异常相关性变得更加复杂。

定义4(启用的功能)。如果一个特征X被赋予了一个词项权重值,则称其为有效特征,否则称其为无效特征。

定义5(范围)。有效特征与特征总数的比值定义为覆盖率,表示为cr。

图1 显示了我们建议的结构2 内容框架。我们从两个方面计算异构信息网络中对象之间的相似度。图1。结构2 内容模型的总体框架。

看法。第一个是对象之间结构层面的相似性,如图1 左侧所示。第二个是对象之间内容级别的相似性,如图1 右侧所示。接下来,我们利用矩阵s 和c 之间的较大差异来获得前k 个离群值相关性。

4.结构层组件在本节中,我们从结构角度计算两个对象之间的相似度。此外,Structure2content 模型的结构级组件是增量过程。当新数据出现时,无需从头开始计算,大大降低了时间复杂度。在几秒钟内查看组合步骤。分别为4.1和镜像步骤4.2。三元组用于计算异构网络中任意两个对象之间的结构关系。

4.1. 组合程序

给定一个由多种类型的对象及其对应关系组成的异构网络G。在异常值检测领域,人们从网络结构和网络内容的角度进行了异常值检测的研究。然而,很少有研究从网络结构和内容信息的差异角度检测异常相关性。此外,当插入新数据或删除旧数据时,传统的异常值检测方法通常从头开始计算对象的异常值。因此,我们首先提出一种增量异常相关检测方法来计算结构级别的对象相似度。

众所周知,异构网络包含许多不同类型的对象。某些类型的对象被用作计算接近度的目标。目标对象以多条记录的形式表示。例如,在书目网络中,作者可以被视为目标对象。这些记录以共同作者的身份出现。电影网络可能会将演员视为目标。这些唱片都有联合主演。结构层的最终相似度存储在矩阵S中,如下所示。 2s13 2s12;11 s12;22 s21;nn 3SSNN=664S.27775=4…;1…;2 SN…;N 56S.666SS777

Serial Number; Serial Number; 为了逐步获得异常值相关性,异构网络中的感兴趣对象以3元组的形式存储,用_oi; eij; oj_表示。 oi和oj是目标对象,eij表示oi和oj之间的接近程度。

表格1。已记录十个案例,其中包括几位作者。

ID

共同作者ID

ID

共同作者ID

磷1

A1;A2;A3;A4

林6 A2;A8;A9

磷2

A1;A2;A4;A5

磷7

a2;a4;a5;a10

磷3

A4;A5;A6;A7

林8 A3; A6; A11

磷4

A1;A2;A4;A6

磷9

A1;A2;A3;A4

磷5

A2;A8

磷10

A1;A3;A6;A7

表2. 从表1 生成的所有三个元组。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三项式

f1,1,2g f1,1,2g f4,1,5g f1,1,2g f2,1,8g f2,1,8g f2,1,4g f3,1,6g f1,1,2g f1,1,3g f1,1,3g f1,1,4g f4,1,6g f1,1,4g f2,1,9g f2,1,5g f3,1,11g f1,1,3g f1,1,6g f1,1,4g f1,1,5g f4,1,7g f1,1,6g f8,1,9g f2,1,10g f6,1,11g f1,1,4g f1,1,7g f2,1,3g f2,1,4g f5,1,6g f2,1,4g f4,1,5g f2,1,3g f3,1,6G F 2,1,4g F 2,1,5g F 5,1,7g F 2,1,6g F 4,1,10g F 2,1,4g F 3,1,7g

3,1,4 4,1,5 6,1,7 4,1,6 5,1,10 3,1,4 6,1,7

F G F G F G F G F G F G F G F G G F G

结构层oi和oj之间的相似度包括连接步骤和镜像步骤两部分,并且使用式(1)计算如下:

soi;oj=sdoi;oj_smoi;oj;_1_

这里,sdo;是oi和oj之间的直接类比。例如,表1有10条记录,代表10个文章ID和对应的作者ID。如表2所示,我们使用三元组来表示两位作者之间的关系。根据直接合着关系,将三个元组合并(如表3所示)并I oJ

使用等式(2)计算sdo。我

X iri;J

sdoi;oj=sdoj;oi=n;_2_跟我来

其中n 是数据集中包含oi 或oj 的记录总数。式(2)的条件是i必须小于j,仅仅考虑直接相似性是不够的。用于计算增量过程的间接相似性和镜像步骤将在下一节中讨论。

4.2. 镜像步骤

在本节中,我们提出了一种称为镜像步骤的方法,该方法计算两个对象之间的间接相似度并逐步检索异常值。当我们得到表3中的三个元组后,我们将这三个元组镜像到原始元组的另一侧。

表3. 合并后的所有3 元组。

f1,0.25,2g f1,0.5,3g f1,0.57,4g f1,0.14,5g f1,0.29,6g f1,0.17,7g

F2、0.22、3G

F 2,0.625,4g F 2,0.25,5g F 2,0.1,6g F 2,0.29,8g F 2,0.14,9g F 2,0.14,10g

f3,0.25,4g f4,0.5,5g f5,0.17,6g f3,0.33,6g f4,0.29,6g f5,0.25,7g

f3,0.2,7g f4,0.14,7g f5,0.33,10g f3,0.25,11g f4,0.17,10g

F6,0.5,7g F8,0.5,9g F6,0.25,11g

表4. 镜像表3 中的3 元组。

F2,0.25,1g f3,0.5,1g f4,0.57,1g f5,0.14,1g f6,0.29,1g f7,0.17,1g

F3.0.22,2克

f4,0.625,2g f5,0.25,2g f6,0.1,2g f8,0.29,2g f9,0.14,2g

10,0.14,2

f4,0.25,3g f5,0.5,4g f6,0.17,5g f6,0,33,3g f6,0.29,4g f7,0.25,5g

f7,0.2,3g f7,0.14,4g f10,0.33,5g f11,0.25,3g f10,0.17,4g

F7,0.5,6g F9,0.5,8g F11,0.25,6g

F/G型

3元组。例如,表3中的3元组f1,0.25,2g变为表4中的3元组f1,0.25,1g。测量OA 和O 的紧密度并仅提取包含作者的记录会导致信息过多丢失,因为忽略了间接协作。例如,A 和A 与A 合作,A 和A 合作发表多篇论文,A 和A 与A 合作发表一篇论文。当然,A与A之间的亲密度高于A与A之间的亲密度。我们使用方程(3)来计算镜像步骤中两个对象之间的间接相似度。 3 63 6 3 6 1247 113 11 63 6 3 11T

smoi;oj=smoj;oi=xei;kek;j;_3_K 1

这里,t是具有间接合著者关系的作者数量。这是smo 中三元组数量的一半。例如,使用表3和表4中的三个元组计算OA和OIN的结构水平之间的相似度如下。此外,算法1还描述了一种计算结构层中对象之间相关性的算法。我是J3 6

SO3;O6=SDO3;O6_Smo3;O6

0:33_e3;1e1;6_e3;2e2;6_e3;4e4;6_e3;7e7;6_e3;11e11:6_

0:33_0:5 0:29_0:22 0:1_0:25 0:29_0:2 0:5_0:25 0:25_0:732:

0:732:

5. 内容级组件

仅仅考虑异构网络上的链路结构是不准确和不全面的。在本节中,我们提出了一种迭代方法,该方法结合三元组来计算内容层中对象之间的接近度。 ContentLevel组件使用其他类型的对象来表示目标对象的特征。例如,在书目网络中,关键字可以被视为作者的特征。在电影网络中,类型可以被视为演员的特征。因此,内容层面上的对象之间的紧密度存储在矩阵C中如下: CNN=62646CCC…N1277735=62664CC12…;111 CC21…;222 CCN12…;NNN 57377;C

中国中国;

其中,ci;j表示对象oi和oj之间的内容级别相似度。以下是迭代计算ci;j 的方法。与矩阵S中的si;j类似,特征及其对应关系由三个元组表示(表示为_ti;rij;tj_,如表5所示)。在书目网络中,ti和tj代表目标对象。特征对象rij 是ti 和tj 之间的接近度。表5 列出了所有三个元组。还需要镜像步骤来获得任意两者之间的最终接近度。

表5.10 论文ID 和相应关键字的示例。

ID

关键词

ID

关键词

磷1

A;B;C;H

磷6

G;I;K;L

磷2

C;D;E

磷7

C;F;G;我

磷3

A;C;F;G

磷8

C;D;E;I;J

磷4

C;D;I;J

磷9

A;C;D

磷5

G;我

磷10

A;B;D;E

表6. 从表5 生成的所有三个元组。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三项式

FA, 1, BG-FC, 1, DG-FA, 1, CG-FC, 1, DG-FA, 1, GG-FG, 1, IG-FC, 1, FG-FC, 1, DG-FA, 1,CG-FA,1,BG-FA,1,CG-FC,1,EG-FA,1,FG-FC,1,IG-FA,1,IG-FA,1,BG-FC,1, GG-FC,1,EG-FA,1,DG-FA,1,CG-FA,1,CG-FC,1,LG-FC,1,1,1,ig-FC,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ig-fc,1,dg-fa,1,eg-fb,1 ,cg-fc,1,fg-fd,1,ig-fi,1,kg-ff,1,ggfc,1,jg fb,1,dg

FB,1,汞

fc,1,gg fd,1,jg

FI,1,LG FF,1,IG FD,1,EG

FB,1,示例

FC,1,汞

FF、1、GG FI、1、JG

fk,1,lg fg,1,ig fd,1,ig fd,1,jg fe,1,ig fe,1jg fi,1,jg

FD,1,示例

特征。假设作者ap 发表论文p1 和p2,并使用式(4)计算与ap 直接相关的关键词q 的权重项。

WPQ=N_P_D_PQ_Log_N_S;_4_K 琳琳Q1

这里,n_p_是作者ap发表的论文数量。 d_pq_是AP发表的论文中出现的关键词的Q个数。因此,AP发表的文章中出现的关键词越多,这些关键词在AP的词权重中体现得越清晰。 k_p_是作者ap发布的关键词总数。 ns 是网络中的论文总数。 p_q_ 是包含关键字p_q_ 的论文数量。也就是说,如果某个关键词在一个集合中的多篇论文中频繁使用,则不认为它特别代表该类型的论文。例如,“关键字\数据挖掘”是一个广泛的研究领域。如果作者发表了包含此关键字的论文,您可能不知道该论文涵盖的研究领域。随着关键字变得更加具体,例如时间异常检测和异常相关性检测,可以用术语权重更具体地表达特征。因此,WPC=2log6 2 710_=0:067:1

使用术语权重值指定的特征称为有效特征。与目标对象直接相关的功能将添加到启用的功能集中。将直接相关的属性应用于目标对象是不够的。与目标对象间接相关的特征也应该使用术语权重来分配。直接获得与作者相关的关键词的术语权重后,我们找到有效特征的后代节点,并为无效特征分配术语权重值。然后,将无效特征添加到有效特征集中,直到CR达到80%。一旦CR达到80%,我们相信这些特征就可以用于内容级别的相似度计算。由于图可能包含圆形,因此我们可以使用辅助数组来标记每个顶点,并防止图遍历算法出现在循环内部。迭代计算的过程如下。

wpq=wp^q rq^q;_5_

这里,rq^q 是节点q 与其前一个节点^q 之间的接近度,如上所述。 wp^q 是目标节点ap 的^q 项的权重。如果所有目标对象的覆盖率满足要求,则可以使用余弦相似度计算内容级别的相似度,并将其存储在上面的矩阵C中。算法2描述了计算内容级相关性的算法如下。

6. 用于检测离群值相关性的结构2内容模型

在本节中,我们介绍如何使用Structure2content 模型检测异常关联(第6.1 节)。第6.2 节和第6.3 节描述了当新数据插入数据集中时如何更新现有数据,以及如何丢弃一些旧数据。

6.1. 异常相关检测流程

根据第2节的描述。结构和内容级别的相似性分别存储在矩阵S 和C 中。接下来计算S和C的Frobenius范数,即JJSJJF和JJCJJF。 jjjf 是矩阵的Frobenius 范数:jj jjf pms_。在S和C相同数量级的情况下,结构层面的相似性和内容层面的相似性是等价的。因此,S 和C 的Frobenius 规范是相同的。首先,将jjsjjf 除以jjjjf 即可得到参数。接下来,将矩阵C 的每个元素乘以参数,使得jjsjjf 与jjjjf 相同。矩阵mos 用于存储s c 的绝对值,其_i;j_ 项是每个有序相关性_i;j_ 的s i;j c i;j 的绝对值。每个对象之间的相关性差异被存储在MOS中,可以找到两个对象在结构层面和内容层面上的最大差异。 mos的top-k值意味着两个目标对象的结构和内容之间存在最大差异。在整个异构网络中,相应对象的相关性被视为离群相关性。 n2Mn1=2

6.2. 插入

结构2 在内容模型插入过程中,在将一组新记录插入到原始数据集中后,必须同时更新矩阵S和C。假设要插入一组包含多类型对象和对应关系的记录,并且插入的目标对象也用三元组表示。整个插入过程包括两个部分:(1)插入新的对象相关性,(2)更新现有的结构级和内容级相似性。插入新对象关联时的计算过程如上所述。如果插入的对象关联已存在于原始数据集中,我们首先使用新的对象关联来计算结构级别的相似度。插入的目标对象由三元组表示,从而产生所有对象依赖关系的最终表示。增量部分

INCO;使用公式(1)计算。例如,插入的记录为fa;a;ag。新记录的对象依赖关系为fa;ag、fa;ag、fa;ag。 a和a之间的直接相似度(用s incdo;_表示)为1=1/40:143。包括aa、ais在内共有7条记录。白炽灯的e输入为1=7=0:143。使用镜像步骤的间接相似性(表示为s i oJ1361336163 6 i oJ7 3 6 31 16)

incmo;_ 是e inc 乘以e inc,等于1=1/4 0:02。在这种情况下,增量部分s inco; 等于s incdo; 加上s incmo;最终结构层面的相似度为i oJ31 1649 3o6 3o6 3o6。

incoplus 即=0:732_0:143_0:02=0:877.3o6 3o63o6

6.3. 删除

在实际应用中,除了插入新记录外,还需要删除一些旧的数据对象。删除这些旧记录时,必须消除合并和镜像步骤引入的相似性。例如,删除表1中的一条记录(如p)。我们不需要重新计算数据集中的所有数据,而是需要删除表2 的第三列并更新包含a;a;a a 和a a 的所有三个元组。类似地,在计算内容层面的相似度时,特征之间的相似度的计算方式与上述相同。可以迭代地获得目标对象之间的相似度。 3456 7

7.实验与结果

众所周知,由于缺乏基本事实,异常值评估一直是一个难题。在本节中,我们定义一个称为pout 的异常值度量来评估异构网络中的异常值相关性(第7.1 节)。精确率和召回率也用作性能指标(第7.1 节)。接下来,使用两个数据集aminer 和yahoo!this movie 来验证所提出的结构2(第7.2 节)的内容有效性。在本文的其余部分中,我们进行了一些实验,以验证在异构网络中挖掘离群值相关性(秒)时,计算结构级别和内容级别之间的显着区别是否成立。 7.3)。

7.1. 绩效指标

为了测试我们提出的异常相关检测方法的质量,设计了一种新的性能指标,即pout。 pout 可以测量错误标记或丢失的对象关联的数量。 “标记为错误”表示该对象的依赖关系正常

数据,但标记为异常相关性。\“缺少”意味着对象相关性应该是离群相关,但它不存在于Top-K离群相关集中。错误标记的离群值相关性的数量用w表示。离群值检测过程中丢失的离群值相关性的数量用m表示。outcorr是数据集中手动注释的总离群值相关性。相应地,我们使用等式(6)计算出:pout?jw_m j 100%:_6_ 2 奥科尔 与另一种流行的评估度量(称为准确性)相反,pout使用了两种相反的情况:真-负和假-正,来测试在检测过程中是否识别了所有可能的异常值相关性。另外两个常见的指标,精度和召回,也适用于重新评估我们提出的检测模型的可用性[21]。异常值相关性检测的精度是被指定为Top-K异常值相关性的对象相关性的分数,它衡量了拒绝正常对象相关性的效果。回忆是由手动注释数据分配的对象相关性的分数,它测量了在所有异常相关性结束时的表现。因此,精度和召回使用公式计算。(7)和(8)如下:精度为1/4 J J J WJ 100%;_7_科尔德科尔德科尔德 召回1/4 J J WJ 100%8_奥科尔 其中corrd是Top-K离群值相关性中的一组对象相关性。outcorr是数据集中手动注释的总离群值相关性。f-measure[22]作为精度和召回的调和平均值,也用于测量我们方法的性能。用式(9)计算: F测度γ2_精度_召回;γ9γ1 精确召回 其中是重新考虑精确性和召回的相对重要性的权重。显然,如果大于1,那么召回值比精度值更重要。在本文中,被赋予一个常数1。 7.2. 数据集集合 我们使用两个真实的数据集进行实验:Aminer[23]和Yahoo!电影[24]。 氨基。我们从aminer生成数据,aminer是一个书目异构信息网络。它主要由三部分组成,分别是阿明的作者、阿明的论文作者和阿明的合著者。它拥有1712433位作者和2092356篇论文,涵盖计算机科学的不同领域。有四种类型的节点:论文、作者、地点和术语,以及构建整个异构信息网络的几种边缘。为了更准确地检测异常值,对原始数据集进行了补充。使用爬虫[25]提取每篇论文的关键字(用k表示),并将其添加到aminer-paper.txt中每个记录的末尾。在每个数据集中有100个异常值关联被手动注释。 雅虎!电影。雅虎!电影作为分级和分类数据集的一部分,可以应用于异构信息网络中。这个数据集包括六个方面的信息,包括电影、演员、电影分级等。多类型顶点及其之间的多类型关系可用于分类、聚类或检测异常值。评级信息可用于预测或推荐系统。我们选择部分数据,包括` lm标题、演员和类型进行实验,并添加100个对象相关性作为异常相关性。 7.3. 结果 在本节中,我们进行了实验,以检验我们提出的结构内容的有效性和效率。我们进行了第一次实验,以证明我们提出的方法的性能。我们提取数据集中不同数量的对象来观察pout、precision、recall和f-measure。图2和图3显示了随着对象数量的增加,两个数据集上的结果。由于我们在图2中选择了前100个值和相应的对象相关性作为离群值相关性,因此jcor rdj在这种情况下等于joutcorrj,这使得精度与 (a)(b) 图2。aminer和yahoo!上结构2内容的pout和f-measure!电影。(选择前100个对象相关性作为离群值相关性)。 (a)(b) 图3。Aminer和Yahoo!上结构2内容的pout、precision、recall和f-measure!电影。(选择前50个对象相关性作为离群值相关性)。 回忆。另外,pout与精度之和为1。因此,我们只在图2中提供pout和f-measure。在图3中,我们选择前50个值和相应的对象相关性。图3中的召回低于图2中的召回,因为手动标注的离群值相关性数量与检测到的离群值相关性(即图3中的joutcorrj?2jcorrdj)不同。aminer中的功能数量高于yahoo!中的功能数量。电影,这可能导致更高的精度在aminer。同时,可能需要较长的时间才能在胺液中获得充分的特性。 在第二个实验中,我们验证了我们提出的算法的可扩展性。在Aminer和Yahoo!电影数据集,我们将对象数量从1000增加到4000,然后观察运行时间。图4显示,随着数据量的线性增长,执行时间几乎是线性增长,而不是指数增长。然后,我们将处理器的数量从2更改为8,然后观察运行时间。图5表明,随着处理器数量的增加,执行时间大大缩短,这意味着我们提出的方法可以执行并行计算。 在第三个实验中,我们使用三个基线算法(cdoutliers[16]、基于查询的[17]、abcoutliers[26])进行了比较实验。CDoutlier基于联合非负矩阵分解发现了所有对象类型的流行社区分布模式。cdoutlier组作者基于他们的研究区域分布。也就是说,它只考虑网络中的内容信息。根据用户输入的查询,基于查询的异常值检测。在整个过程中,它考虑的结构信息多于内容信息。Abcoutliers计算所有匹配的群组结果。它不如基于查询的算法有效。图6中的曲线表明 图4。在aminer和yahoo!上不同数据数量条件下的运行时间比较电影数据集。(选择前100个对象相关性作为离群值相关性)。 图5。在aminer和yahoo!上不同处理器数量条件下的运行时间比较。电影数据集。(选择前100个对象相关性作为离群值相关性)。 (a)(b)图6。Aminer和Yahoo!四种异常值检测方法的性能比较电影。 structure2内容的性能优于cdoutlier、query-based和abcoutlier。 在第四个实验中,我们验证了该方法的有效性。从图7的曲线可以看出,结构2内容的时间复杂度比其他基线算法要低得多。此外,当我们插入新数据或删除过时数据时,我们的增量方法不需要从头计算相似性。它可以大大降低时间复杂度和空间复杂度。 在第五个实验中,我们提供了一个案例研究来说明什么样的对象相关性应该被视为异常相关性。我们根据数据集的格式对数据进行注释。例如,在aminer中,我们添加了'fty author (a)(b) 图7。我们建议的结构内容和三个基线算法的运行时间,两个数据集上的对象数不同。 表7.Aminer数据集异常关联的案例研究。 论文编号 作者 关键词 磷1 A1,A2 k1、k2、k3、k4、k5 磷2 A1,A2 K6、K7、K8、K9、K10 磷3 一1 k1、k2、k3、k4、k5 磷4 一2 K6、K7、K8、K9、K10 磷5 A3,A4 K11、K12、K13、K14、K15 磷6 A5,A6 K11、K12、K13、K14、K15 具有结构相似性但几乎没有内容相似性的关联,并添加另一个具有内容相似性但几乎没有结构相似性的作者关联。在前一个案例中,两位作者是多篇论文的共同作者,但他们的研究领域完全不同。在后一种情况下,两位作者的研究领域几乎相同,但他们从不在论文上合作。基于以上两种情况,我们在aminer中注释数据。表7列出了两种异常值相关性。例如,aa和aa被认为是离群关联,因为它们在两篇论文上协作,但它们的研究领域完全不同。此外,a(a_)和a(a_)被视为离群关联,因为它们的研究领域相同,但以前从未合作过。我们可以互相推荐,看看他们能否进行学术交流。1 2 3 45 6 8。结论 In this paper, we propose an incremental outlier correlation detection method for heterogeneous information networks based on 3-tuples and structure-content difference. The Structure2Content model includes two parts: structure-level and content-level. In these two parts, the 3-tuples and the mirror step are used to measure the closeness degree between target objects. An iterative process and the coverage rate are combined to get su±cient features to represent the target objects in contentlevel. The insertion and deletion process demonstrates that our proposed method does not need to train the data from the beginning when inserting new data or deleting obsoleted data. In addition, using 3-tuples to store the target objects and the corresponding relations can save more space than using the adjacent matrix. Experimental results show that our proposed outlier detection method, Structure2Content, can incrementally discover outlier correlations in heterogeneous information networks. 9. Future Work Future work on highlighting the heterogeneity during the calculating process is needed. For example, it would be interesting to use 3-tuples to represent the relations between di?erent types of objects. Also, we plan to detect outliers and outlier correlations simultaneously. Then, we can carry on comprehensive analysis about single outliers and outlier correlations. And we should think about how to deal with new objects with little information. The work on development of distributed version of the incremental outlier detection algorithm is also needed. Acknowledgments This work is supported by the National Natural Science Foundation of China under grant No. 60903098, the Project of Jilin Provincial Industrial Technology Research and Development (JF2012c016-2), and Graduate Innovation Fund of Jilin University (2016183, 2016184). References 1. F. Angiulli and F. Fassetti, Towards generalizing the uniˉcation with statistical outliers: The gradient outlier factor measure, ACM Trans. Knowl. Discov. Data 10(3) (2016), Article ID: 27. 2. F. Angiulli, F. Fassetti, L. Palopoli and G. Manco, Outlying property detection withnumerical attributes, Data Mining Knowl. Discov. (2013) 1–30. 3. C. C. Aggarwal and S. Sathe, Theoretical foundations and algorithms for outlierensemblesk, ACM SIGKDD Expl. Newslett. 17(1) (2015) 24–47. 4. F. Dufrenois and J. C. Noyer, One class proximal support vector machines, Pattern Recognition 52 (2016) 96–112. 5. F. Chen, C. T. Lu and A. P. Boedihardjo, GLS-SOD: A generalized local statisticalapproach for spatial outlier detection, in Proc. 16th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2010. 6. G. H. Orair, C. H. C. Teixeira, W. Meira Jr., Y. Wang and S. Parthasarathy, Distancebased outlier detection: Consolidation and renewed bearing, in Proc. VLDB Endowment 3(1–2) 2010. 7. R. Gupta and K. Pandey, Density based outlier detection technique, Adv. Intell. Syst. Comput. 433 (2016) 51–58. 8. T. Zhang, R. Ramakrishnan and M. Livny, BIRCH: An e±cient data clustering methodfor very large databases, in ACM SIGMOD Record (ACM, 1996). 9. S. Guha, R. Rastogi and K. Shim, CURE: An e±cient clustering algorithm for largedatabases, in ACM SIGMOD Record (ACM, 1998). 10. G. Karypis, E. H. Han and V. Kumar, Chameleon: Hierarchical clustering using dynamicmodeling, Computer 32(8) (1999) 68–75. 11. T. B. Wu, Y. Cheng, Z. K. Hu, W. P. Xie and Y. L. Liu, A new PLS and bayesianclassiˉcation based online outlier detection method, in Proc. 3rd Int. Conf. Advanced Design and Manufacturing Engineering, 2013. 12. N. Koochakzadeh, K. Kianmehr, J. Jida, I. Lee, R. Alhajj and J. Rokne, Semi-superviseddynamic classiˉcation for intrusion detection, Int. J. Softw. Eng. Knowl. Eng. 20(2) (2010) 139–154. 13. I. S. Sitanggang and D. A. M. Baehaki, Global and collective outliers detection on hotspotdata as forest ˉres indicator in Riau Province, Indonesia, in Proc. 2nd IEEE Int. Conf. Spatial Data Mining and Geographical Knowledge Services, 2015, pp. 66–70. 14. J. Gao, H. B. Cheng and P. N. Tan, Semi-supervised outlier detection, in Proc. 2006 ACM Symp. Applied Computing, 2006, pp. 635–636. 15. F. Rasheed and R. Alhajj, A framework for periodic outlier pattern detection in timeseries sequences, IEEE Trans. Cybernetics 44(5) (2014) 569–582. 16. M. Gupta, J. Gao, C. Aggarwal and J. Han, Community distribution outlier detection inheterogeneous information networks, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2013, pp. 557–573. 17. H. Zhuang, J. Zhang, G. Brova, J. Tang, H. Cam, X. Yan and J. Han, Mining query-basedsubnetwork outliers in heterogeneous information networks, IEEE Int. Conf. Data Mining, 2014, pp. 1127–1132. 18. D. Pokrajac, N. Reljin, N. Pejcic and A. Lazarevic, Incremental connectivity-based outlierfactor algorithm, in Proc. Int. Conf. Visions of Computer Science BCS International Academic Conference, 2008, pp. 211–224. 19. C. H. Ju and Y. L. Li, An incremental outlier detection model for transactions datastreams, J. Inf. Comput. Sci. 10(1) (2013) 49–59. 20. Y. Sun, J. Han, X. Yan, P. S. Yu and T. Wu, PathSim: Meta path-based top-k similaritysearch in heterogeneous information networks, in VLDB'11, 2011, pp. 992–1003. 21. B. Liu, Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, 2nd edn. (Springer, Berlin, 2011). 22. W. B. Croft, D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice (Addison-Wesley, 2009). 23. J. Tang, J. Zhang, L. M. Yao, J. Z. Li, L. Zhang and Z. Su, Arnetminer: Extraction andmining of academic social networks, in Proc. 14th ACM SIGKDD Int. Conf. Knowl. Discovery and Data Mining, 2008, pp. 990–998. 24. Yahoo! webscope program, http://webscope.sandbox.yahoo.com. Accessed: 28/01/2016. 25. T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowl.-Based Syst. 51 (2013) 15–26. 26. M. Gupta, J. Gao, X. F. Yan, H. Cam and J. W. Han, On detecting association-basedclique outliers in heterogeneous information networks, Advances in Social Networks Analysis and Mining, 2013, pp. 108–115.

市场分析