客服电话:15682930301

计算机网络论文

当前位置: 毕业论文>计算机论文>计算机网络论文 > 正文

社交网络中基于机器学习的可信计算

发布时间:2019-12-17 14:18文字数:14333字

  摘 要:随着社会进步和科技发展,产生了不同于以往的社交网络,并且对于不同的用户需求就会产生各式各样的社交网络。随着社交网络的流行,使得越来越多各式各样的社会团体涌来,其中也出现了带有歹意的用户和恶意的平台。随着社交网络的开放程度和流行程度日益增加,社交网络中的安全性要求越来越高,建立一个对于用户来说可以安心进行交易不再担心会有被欺骗等问题的社交网络环境便是一个迫在眉睫的任务。

  本文采用了基于机器学习方法的可信计算,和传统的利用交易方的行为历史来判断交易是否值得信任相比,学习的方法就更加符合需求。基于机器学习方法是使用购买方根据自己的交易历史来建立一个信息知识库,基于那些能够分辨出成功不成功的交易的相关特征来评估交易的可信性。同时计算出信任程度用以进行不同程度的推荐,以便给用户提供方便快捷可信的备选方案。通过理论的推导以及实验的分析,论文中所提到的方法比其他的信任机制更加准确,尤其在交易方的已往行为历史相当少、不完整或者不精确的时候,这个方法便能体现出其优越性。

  关键词:机器学习;信任管理;推荐系统

  前 言

  在各式各样的大规模系统中,购买方需要和各式各样的交易方进行联系,这些交易方和购买方以前很少或者没有共享的过去的交互历史。为了评价这些交互的风险并且决定这位不知名的交易方是否可靠,因此一个可靠有效的信任机制便是相当必要的。

  和传统的方法进行相比,传统的方法中的信息是有必要并且有效的,但是传统方法通常依赖的是购买者无法获得的知识。例如,许多传统方法依赖的是建立购买者和交易方之间的信任路径(即“信任关系”)。但是这种方法对于大规模系统中很难找到,尤其当交易方的行为历史几乎为零的状态。因此,本文呈现了一中基于机器学习方法的信任评估方法。使用这种方法建立模型后便可以预测潜在交易的风险。这项工作表明机器学习可以建模和量化信任。这个的意思并不是说机器学习的方法应用于所有场景,由于他的使用依赖于恰当的信息,这些信息恰好是和传统的信任模型中有些不同的。也就是说,澳门太阳城赌城官网探索的是在传统信任模型中被忽略掉的信息。

  澳门太阳城赌城官网使用特征向量模拟购买方的本地知识库,即过去的交易。首先假设两个类别:成功交易和失败交易。在机器学习算法中,决策树算法(Decision Tree,DT)的属于常见的学习算法。决策树算法的目的是用于分类和预测,在这个过程中,递归实现树结构,从而达到分类和预测的功能。

  本文的贡献在于基于机器学习进行社交网络中交易的可信度的计算并且给出相应的推荐。澳门太阳城赌城官网依赖的是机器学习中的决策树算法(DT)并且使用的是传统信任模型中经常忽略的知识库的信息,这使得潜在交易的可信度得到提升。

  第1章 绪 论

  在本章中,首先介绍了为什么要研究社交网络,即社交网络的研究背景,接着讲述了在社交网络中使用机器学习的方法计算可信度这个选题的意义。接着概括了这篇论文中所做的主要工作以及与传统相比存在的优点,本章最后介绍了本论文的组织结构。

  第1.1节 研究背景

  在21世纪后期[1],出现了基于web的社交网络。随之产生的还有大量的网络群体并且使之成为当今社会最为广泛的网络信息交流媒介之一[2]。其中用户的种类很多,第一种,个人用户,这些人使用社交网络增进朋友以及亲人之间的感情,第二种,商业用户,商业用户可以通过社交网络平台建立代表其自身的企业账户用以推广自身产品或者用于发布最新的新闻资讯。随之产生的新型的交易方式,越来越多的电子商务和网络平台,第一种是正规的专业的电子商务平台的网络营销手段,如:淘宝,微店;第二种是通过微博、微信等社交网络平台发展起来的电子商务平台,如:代购;第三种便是通过社交网络平台上所谓的“朋友”之间的信息扩散来进行的网上平台的代理。

  根据CNNIC数据[3],直到2016年底,澳门太阳城赌城网址的互联网的普及率已经达到了53.2%,和去年相比较上升了3.9%,随着互联网的普及率,澳门太阳城赌城网址的互联网使用的数量规模已经达到7.3亿人,和去年相比上升了25%,中国人口基数大,进行网购的基数也很大,推动了中国的网络消费逐渐增长且增长速度很快,如图1.1所示。

  图1.1 中国的网民数量以及互联网的普及率发展趋势

  近年来,随着电子商务平台的逐步发展,网络消费占据越来越大的份额,逐渐从实体消费变成网络消费为主导,逐渐重建消费的格局,与此同时用户在网络上进行购物的习惯也在渐渐的形成。直到2016年末,在人口数量方面,进行网上购物的用户人数已经有4.6亿人,而在2015年底,规模才达到5345万规模,2016年与2015年相比,增加了13%。在市场规模方面,直到2015年末,中国在网上进行交易的钱数已达到4万亿元人民币,和2015年相比较,增长了36%。这个份额在全国总消费中占据达到12.6%,相比较增长了2%。从而预测到2018年,这个占比还会越来越大,预测会达到19.2%,这个占比所相对应于网上购物所占市场总交易钱数是7.5万亿元,这个规模大概是2015年所对应的2倍多。如图1.2所示。

  图1.2 2011-2018年中国网上购物市场的交易规模

  从《中国网民权益保护调查报告2016》报告的结果显示,在2016年的一年期间,中国的互联网使用人民由于信息泄露导致诈骗电话诈骗信息引起的诈骗、各种的垃圾信息使得全国总经济损失已经达到915亿元。

  由此社交网络中的电子商务平台发展现状可总结如下:

  (1)电子商务平台正逐渐成为消费者购买物品的重要媒介之一

  电子商务的逐渐发展,互联网用户的逐渐增加,在社交网络中所呈现的特点是交流性强传播性广速度快,使得电子商务的宣传力度增强,从而减少了购物的流程,降低了人们生活方式复杂性。社交网络正慢慢成为网络购物不可或缺的方式之一

  (2)电子商务逐渐在社交网络上开始传播

  随着社交网络的蓬勃发展,网上上的商品种类不断丰富,用户需要在海量的信息中快速的找到能够满足自身需求的商品。在已经形成了信任关系的社交网络中,对于所信任的人之间可以进行互相的分享,从而可以进行推荐,根据自己的实际需要从而找到所需要的商品最终进行判断取舍。

  (3)社交网络现在的安全遭受极大的挑战

  各式各样人群的出现,使得社交网络上安全性慢慢降低。电子商务上直接以聊天的形成达成交易,在不正规的平台上存在着巨大的风险。像“代购”等,这些商家并不具备代购的资格,其中还会涉及到偷税漏税的走私行为。

  第1.2节 选题意义

  社交网络的核心价值在于人与人之间的关系,为了给用户更好的提供关系化的服务,需要澳门太阳城赌城官网充分的挖掘出每个人之间的信息和关系。互联网中海量的信息,对于用户来说过量的信息造成了用户在选择过程中产生了困难,使得用户无法获得自身所需的有效的信息,这就是所谓的信息过载问题[4]。网络用户需要一个真实可靠并且能够有效的进行信息沟通且进行分享的交流平台,为了降低交易所存在的风险,需要澳门太阳城赌城官网充分计算交易之间的可信性以便用户进行选择。使用机器学习的方法更能机械化准确的给出结果,减少了人工的复杂性以及不准确性。

  因此研究基于机器学习方法的社交网络中的可信度对于交易过程中具有很重要的理论和现实意义。

  第1.3节 本文的主要工作

  本文在社交网络中的传统方法的基础上,分析传统方法所存在的不足之处,以及基于这些不足之处提出使用机器学习方法的优点,研究基于机器学习的可信计算,并且进行实验验证。本文主要完成的工作是,定义一个基于机器学习的信任框架,本文所使用的机器学习算法是决策树算法。本文依赖于使用购买方个人的知识信息库来判断某个潜在交易是否可信,并且将值得信任的交易推荐给购买方。

  第1.4节 本文的组织结构

  本文共分为五章,具体结构安排如下:

  第一章:绪论。先简要的介绍了基于机器学习方法的可信计算这个课题的研究背景,分析了现有社交网络的发展状况,以及选题意义,本文的主要工作是什么,最后介绍了这篇文章是如何组织内容的。

  第二章:相关理论文献。本章介绍了社交网络、机器学习、决策树、信任的相关理论以及所参考的文献。

  第三章:基本的信任框架。本章介绍了在构建框架的过程中进行的步骤,特征收集,构建模型,以便后期的使用,形成基本的信任框架。

  第四章:用于信任评估的机器学习算法。讲述了本文使用的机器学习算法ID3算法的流程。

  第五章:实验。首先介绍了模拟环境和代码架构,然后介绍了图形化界面运行的步骤,以及所得出的结果,并且分析所得出的结果。

  第六章:总结与展望。总结全文,并且提出本文所存在的不足展望后续工作。

  第2章 相关理论文献

  本章详细阐述了相关的理论基础,在读本论文之前可以详细了解相关理论概念。

  第2.1节 社交网络

  第2.1.1节 社交网络概念

  澳门太阳城赌城官网可以把社交网络(Social Network Service,简称SNS)看作一个网络空间,社交网络中的每一位都可以在这个网络空间中创建个人的页面、添加联系人的姓名和联系方式并且可以积极的进行互动交流(Ellison等)[5]。人们可以在社交网络平台上发布内容、分享心情或者与熟悉或陌生的人进行公开或私下的交流切磋(Subrahmanyam和Greenfield, 2008)[6]。并且人们还可以在社交网络中找到趣味相投之人(Choi,2006;Boyd和Fllison,2008)[7][8]。所以说,社交网络可以看成是由图片分享、电子邮件、留言板、博客、即时消息组成的。不管是国内还是国外都存在着对社交网络不同的定义,本文将部分存在的定义整理如下:

  (1)于2007年,Byod和Ellison对社交网络的定义是:社交网络是一种网络服务,社交网站为用户提供了以下功能:1)能创建个人页面;2)能添加其他用户为好友;3)能浏览其他用户的个人页面[8]。

  (2)于2007年,Lenhart和Madden提出对社交网络的定义是:社交网络提供了一个网络平台,用户可以在平台中创建个人主页,并且能通过平台与其他用户建立联系[9]。

  (3)于2008年,Peterson提出:社交网络是为具有共同兴趣爱好、生活方式或行为的人建立社会联系的一种网上服务[10]。

  (4)于2009年,黄婷表示社交网络是:社交网络是以网站为载体,为用户提供各种交互功能,帮助用户拓展、维系社交圈[11]。

  (5)于2009年,Gangadharbatla提出:社交网络包含四个方面:1)个人的页面信息;2)每个人的好友圈;3)加入的群体或小组;4)对直接或间接关系的清楚描述[12]。

  (6)于2012年,李勇军提出定义:社交网络是一个右边界的系统:1)系统的主体是用户,用户可以选择公开或半公开个人信息;2)用户能创建和维护与其他用户之间的关系以及日志、照片等个人分享的信息;3)用户能浏览和评价朋友分享的信息[13]。

  第2.2.2节 社交网络分类

  1. 根据社交网络的功能分类

  《2011年中国社交网络投资研究报告[14]》根据社交网络的功能将社交网络分为两类,垂直类和综合类。

  (1)垂直类。垂直类是指通过兴趣爱好和其他不认识的人结识好友关系的社交平台。在这个平台中,更加适合于有着志趣相投之人深入话题。如:豆瓣,知乎等。

  (2)综合类。综合类是指在社交网络平台中有很多的社交关系是通过搜索、推荐等方法进行结识并且维系关系,如qq,微信,微博等。

  2. 根据社交网络的服务用户进行分类

  王方芳[15](2010)根据社交网络的目标用户的不同分成白领类、校园类、综合类。

  (1)白领类。是指以白领为目标用户,在这个社交网络平台中可以和自己的朋友保持联系,通过分享信息,可以互相了解动态。

  (2)校园类。是指以学生作为目标用户,同时在此社交网络中大多使用的是真是信息。

  (3)综合类。这一类没有很明确的目标用户,它的开放程度比前两者都要大,但是功能并没有太大的区分。

  3.根据用户的使用需求进行分类

  Hagel和Armstrong(1997)[16]将社交网络分为四类,兴趣需求,人际关系需求,交易需求。

  (1)人际关系需求。在社交网络中,这是澳门太阳城赌城网址现在主流的类型,其为目标用户提供了维系朋友关系的社交网络平台,并且通过此方式进而扩大自己的社交圈。

  (2)兴趣需求。相比较于没有共同兴趣爱好的人,志趣相投的人更加容易结识以便在一起进行交流讨论信息的活动,从而分享知识共享信息交流心得体会。

  (3)交易需求。为用户提供了一个可以进行交易的网络平台。

  此外,很多专家学者还提出很多可以对社交网络进行分类的分类方法。

  第2.2节 机器学习

  机器学习(Machine Learning,ML)在多个学科领域中都有涉及,很多领域进行交叉的学科,专门研究计算机是如何模拟或者实现人类的学习行为,来获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能(Artificial Intelligence,AI)的核心,是使计算机具有智能的根本途径。机器学习正在对大量的学科领域产生巨大的关联作用。

  第2.2.1节 机器学习概念

  机器学习的实现原理是:在计算机使用某种或多种算法进行计算的时候,模糊的模拟人类的行为并且通过计算机使用代码进而实现此功能,从而获得相应的知识和技能,最终改善性能的科学。在计算机模拟的过程中,是通过一个关于计算机、进行数据的构建、建立模型的一个过程。机器学习出现在在21世纪中期,后面生活中很多都存在着机器学习。在生活中,机器学习的应用非常广泛,如无人驾驶汽车、AlphaGo等。

  近年来,人工智能越来越被重视,机器学习的应用也越来越广,逐步成为人工智能的核心之一。理论正在一步一步的付诸实践,现在已被成功的应用到很多领域,如智能搜索,智能机器人,模式识别等领域。

  机器学习按照学习形式进行分类可以分为两类,监督学习和非监督学习。以下是机器学习系统的基本结构,如图2.1所示。

  待学习数据

  训练数据集 知识 学习结果

  图2.1 机器学习系统的基本结构

  第2.2.2节 监督学习

  监督学习(Supervised Learning)是指从一批有标记的训练数据集中进行学习并且推断出一个确定的输出结果。监督学习可以分为两类[17],“回归”和“分类”。

  在回归问题中,澳门太阳城赌城官网会预测出一个连续值,也就是说澳门太阳城赌城官网试图将输入变量和输出用一个连续函数对应起来;而在分类问题中,澳门太阳城赌城官网会预测一个离散值,澳门太阳城赌城官网试图将输入变量与离散的类别对应起来。

  监督学习的原理如下:首先收集训练集,然后进行学习算法的训练得出某个函数,接着输入样本的特征X,通过这个学习函数 后便可以输出样本的学习特征Y,如图2.2所示。

  图2.2 监督学习原理

  监督学习中常用的一个算法是决策树算法,这也是本文中所使用的机器学习算法。

  第2.2.3节 无监督学习

  无监督学习(Unsupervised Learning),即无经验的学习,是指在不知道结果的条件下,澳门太阳城赌城官网可以通过聚类的方式从数据中提取出一个特殊的结构,无监督学习的输入数据是没有标签的。即与监督学习相比(如图2.2),没有样本输出特征Y。

  在无监督学习中,聚类(Clustering)是最常用的方法,其基本思想可以认为是研究的样本或者变量之间在某种程度上存在着一定的相似性。它将数据集合分为几个类,在一批样本存在着多个观测指标,根据这些观测指标,能够找出某些可以用来度量样本与样本之间或者变量与变量之间相似程度的统计量,以这些统计量作为分类的依据,将一些相似程度高的聚合在一起变为一类,将另外一些相似程度较高的聚合在一起变为另一类,直到所有的样本在统计量的范围内聚合到不同的类别之中,每个类别之间的相似程度较低。

  其中研究样本与样本之间相似程度的观测指标有两种:

  (1)相似系数

  样本与样本之间的相似度越高,表明性质越接近,它的相似系数就越来越接近1或者-1,而不同类别之间,也就是两者之间无关的变量他们之间的相似系数就越来越接近0,最后,相似程度越高的分为一类,相似程度越低的分为不同的一类。

  (2)距离

  不同样本代表一个点,将这些点映射到p维空间上,并且选择其中一种度量每个点与另一个点之间的距离,最后归到一类的时候距离相对比较近,归为不同的类的时候距离相对比较远。距离统计量中存在的方法有绝对距离、欧式距离、兰氏距离等等。

  所说的聚类分析,其实就是根据不同类别之间的相似性程度的高低确定哪些样本是归为一类的。常见的聚类的算法包括K均值聚类(K-Means)、基于密度的聚类方法、凝聚层次聚类和图团体检测的方法等。在实际的应用过程中,常常会在无监督学习中对某些数据进行标记实现改进达到半监督学习的目的,最终更能符合人们期望。

  第2.3节 决策树

  第2.3.1节 概念

  决策树(decision tree,DT)是属于分类方法,在对每一个节点进行测试的时候同时将一个个数据集使用递归的方法分成一些细小的分支。在给出许多种情况的条件下,已知某种情况发生的概率的基础上,构建树形结构的一棵决策树,以此评价项目进行过程中所遭遇的情况概率以此预估风险,通过这棵树来给出方法可行性的概率问题,这是一种直观的使用概率分析的图解方法。决策树可以将目标属性和属性值之间建立一对一的映射关系,因此在机器学习中决策树算法可以看作是一个预测模型。

  决策树在机器学习中存在一个经典的算法,即ID3算法。这也是本文中所使用的算法。

  第2.3.2节 信息熵

  在20世纪末,“信息熵”这个概念被香农发现并且提出,从而解决了在度量信息的时候所遇到难以计算值的问题。熵(Entropy)的概念的灵感来源于统计热力学,从而提出熵概念。熵是用来描述一个系统它的有无秩序的程度。即熵值越高就表示系统混乱程度越高,相反,若熵值越低表示系统的有序性越高。熵使用数值的形式来不同程度的描述在随机变量取值过程中的不确定性的程度。

  第2.4节 信任

  第2.4.1节 信任的概念

  在社交网络中,信任是一个普遍存在的问题。各个学科领域的专家学者对信任这个领域进行了相关的研究,并且根据自己对信任的理解给出不同的信任定义。

  (1)于1990年,Crosby提出对信任的定义:信任是消费者认为销售人员会按有利于消费者长期利益的方式行事的理念[18]。

  (2)于1994年,Morgan和Hunt提出:信任是指合作中一方对另一方的可靠性和诚实度有足够的信心[19]。

  (3)于1994年,Ganesan定义:信任是依赖于自己所相信的交易伙伴的意愿[20]。

  (4)于1995年,Lewicki和Bunker提出定义:信任是一个人在有风险的情况下,对他人的动机持有积极预期的一种状态[21]。

  (5)于1995年,Korsgaard等提出:信任是指团队的成员对于其领导者的善意有信心的程度,特别是指团队成员相信其领导者是诚实的、正直的和无偏差的执行其职务的程度[22]。

  (6)于1997年,Nooteboom等提出:倾向性的信任可定义为:X根据自己的利益信任Y而与Y合作,则X相信,即使有利可图,Y也不会采取机会主义行为来损害X的利益[23]。

  (7)于2001年,Jacobs等提出:对于销售员的信任是在一个交换关系中,对销售人员的言词或承诺是可依赖的,以及他将会实践其责任的信念[24]。

  第2.4.2节 信任的属性

  从不同的参考文献中可以得出对于信任的不同程度上的认识,并且对于信任的影响其中包括各种上下文的因素问题,得出以下属性性质:

  (1)信任的主观性

  信任是授信方对受信方的一种主观上的判断,完全由授信方对受信方的主观感觉所决定,每一个不同的授信方都有不同的判断准则。由于主要是由授信方根据之前的互动以及不同的情况下所做出的判断,所以即使是在相同的环境相同的时间段相同的动作,只要是不同的授信方便会有不同的信任结果。

  (2)信任的动态性

  信任会由实体的内因或者实体的外因所引起。

  内因,如:实体当时的心理情况、实体所具有的性格特征、实体所掌握的知识结构等。外因,如:实体当时所处的环境,实体当时所做的事情等。

  实体的内因取决于实体的内在因素,这种不管在现实中还是虚拟社会中,都无法由其他人通过观察的方法进行量化从而得到判断值。而外因是可以通过长时间的直接或者间接观察得知,因此虽然外因也是不确定并且很模糊的,但是还是可以做到预测,进行量化最终推理出来的,因此能够进行管理。所以在研究信任的过程中应当紧密联系上下文环境,否则离开了上下文环境的时候从而讨论有关信任的问题时是没有任何意义的。

  (3)信任的传递性

  当两个实体之间存在多次交互时,那么这两个实体就可以根据他们之间的交互行为历史中所产生的行为历史对对方进行判断与评价,通过这种方式所建立起来的信任关系是直接信任的关系。

  如果即将进行交互的实体之前从来都没有过直接的接触,或者即使有过直接的接触但是了解不是很多,希望能够多了解对方以提高判断的准确性的时候,就可以通过第三方的推荐信息作为判断的参考值,通过这种方式建立起来的信任关系是间接信任关系。

  (4)信任的不对称性

  从现实的经验中可知,信任关系只存在单向,不存在双向。举例:假设实体A信任于实体B,不有效等价于实体B也信任实体A。因此,A对B的信任程度和B对A的信任程度不等价。信任的关系各式各样,存在一对一的信任关系,也有可能是多对多的信任关系,也可以是一对多、多对一的信任关系。

  (5)信任的时间相关性

  信任的时间相关性表明信任程度会随着时间越长慢慢的下降。就像文章前面所说,信任是根据行为历史进行判断,但是时间越来越长的时候,当时的历史行为对于当时来说它的参考意义慢慢变弱。也就是说,在某个时刻,A信任B,但是时间越久,A对B的了解程度越来越低。也就说明,时间越近的双方交易对当前的可信度影响更高,反之,时间越久远,越不存在说服力。

  (6)信任的自反性

  任何一个实体都会无条件的信任自己,对自己不会存在怀疑心理。

  (7)信任的可度量性

  前文所说,对于影响实体的外因是可以进行观察预测的,所以在对外因进行采样的时候,可以获得一个在相对情况下稳定的特征值。有个成语说,由内而外,内因可以表现出外因,可以通过这个方法间接的获得内因。尽管是一个比较模糊的量,但是还是可以被量化,如模糊数学中的隶属函数。

  第2.5节 本章小结

  本章从社会网络分析开始,了解了社交网络的概念和社交网络的分类,接着讲述了机器学习内容中的概念,并且机器学习可以分为监督学习和无监督学习,其次说明了决策树的相关理论,介绍了决策树和决策树中所用到的信息熵这个概念,最后描写了信任的相关内容,从概念和属性方面分别讲述。

  第3章 基本的信任框架

  传统的方法使用的是交易方自己的行为历史判断是否可以进行与之交易,本文提出的方法则与传统方法不同,本文使用的是当前交易方所提交的交易特征。由于这种方法依赖的是交易的特征,而不是根据交易方的交易历史,这样就防止了当交易方的行为历史几乎为零或者交易方的交易存在虚假的情况。此方法主要在交易方的行为历史稀缺的时候得以显示其优越性。而且避免了当信息缺失时寻找第三方时的信息不准确的情况。

  第3.1节 特征收集

  在社交网络中,网络信息几乎公开,收集信息也是很容易的事情。从交易方的简介或者从交易的上下文都可以得到交易方的基本信息,从而就可以得到相应的特征。接下来举个网上拍卖的例子来表示特征是如何被收集的。

  例如,Bob是一位购买者,Sally是一位卖照相机的卖方,Bob需要评价Sally的交易是否值得信任,从三个种类可以提取出代表这个交易的特征:

  (1)Sally自己,例如年龄、性别、和Bob之间的物理距离、和Bob是否有亲属关系、和Bob是否是同一个家乡等。

  (2)在系统中的Sally,例如系统年龄、成功和不成功交易的数量,Sally是否提供了电话号码,她的简历是否完整,Sally已经卖了的数量、商品平均发布时间、用户评论的好评差评是多少、Sally自己有的朋友等等。

  (3)Sally所卖的照相机,在相同种类中的平均价格,库存中相同项目的数量、对于这些照片的评论数量、对这个相机进行拍卖的购买者的数量、购买者的平均年龄等。

  在第一个中,Sally自己的个人信息可以进行伪造。但是在上述所提到的种类中第二个第三个就很难进行伪造,因为这些信息被服务交换平台进行维护难以造假。还可以包括特定于目标代理商的一些历史信息,如成功不成功的交易的数量等,虽然这些特征和传统信任机制中所使用的特征类似,但是它是以一种不同的方式加以利用。这些信息并不是直接的确定交易商的信誉级别,而是用以寻找能够提取处潜在交易和过去成功和不成功交易之间所存在的关系。

  和现有的信任模型相比,这种特征收集的方式在对付恶意的交易方来说更加健壮。在传统的信任模型中,恶意的交易方很轻易的就可以伪造反馈来宣扬自己使得购买方更加的相信自己,这种情况得到的结果并不是真实可靠的。但是本文所使用的方法和传统方法就不相比雷同,由于攻击者不知道购买方本地的知识库,在恶意进行伪造的时候很难伪造和潜在交易相关的特征来误导购买方。而且容易被伪造的特征将会被机器学习算法认为是无用的。因此本文所提出的方法和现有的信任系统相比针对于常见的攻击来说更具有弹性。

  第3.2节 模型构建

  如图3.1所示,这是本文所提出的信任框架,这个框架包括三个部分,存储部分、信任计算引擎部分、知识收集部分。

  第3.3节 本章小结

  本章讲述了机器学习方法中进行特征收集的过程中需要考虑的种类,真实的实体,系统中的实体,所要进行售卖的货物,这三个种类所要考虑的特征。接下来对本文所提出的方法进行了模型的构建,分为存储部分,信任计算引擎,知识收集三个部分,并且说明了每个部分所负责的主要功能。

  第4章 用于信任评估的机器学习算法

  用于信任评估的机器学习算法使用的是存储功能中的元组进行训练,然后将潜在交易的特征向量作为输入,并且输出产生成功和不成功结果的可能性,并且通过不同的权重计算出成功交易值得信任的信任程度。值得提出的是在所有特征中,根据区分能力的不同,对推荐影响力大的特征最终会被选中,即特征将成功和不成功交易区分开的程度。使用机器学习算法的益处在于机器学习算法能够自动的决定哪些特征是有用的,哪些特征是无用的。有用的特征的区分开成功和不成功事务的能力将会很强,而区分能力几乎可以忽略的特征将会对最终的推荐有着可以忽略的影响。

  第4.1节 使用决策树

  决策树中除了叶子节点的其他节点代表着事务的每个特征,连接这些点的边代表的是特征的值。因此一个潜在交易的特征向量值在决策树中定义了一条从根节点到叶子节点之间的路径代表着这个决策是否值得信任。一个决策树使用过去的交易建立,从一个给出的以往交易集,可以构建出一些不同的决策树,这取决于特征被测试的顺序。由于建立一个最优的决策树是一个NP困难问题,现在已经提出了一些有效的学习树,如ID3、C4.5等,本文中采用的是ID3算法,这个算法依赖的是信息增益在树的每个节点选择出分类特征。信息增益使用熵进行衡量。熵被用于描述一系列例子的纯度。

  当所有过去的类别都属于同一个类别(即成功或不成功)的时候,熵将会呈现一个最小值为零,当过去的类别最终被分为两个类别的时候,熵将会有一个最大值1。使用熵这个方法可以计算出每一组交易中每个特征的信息增益,从而选择出最佳的特征作为节点。特征的信息增益衡量了熵的减少,一个高的信息增益代表着一个低的熵,从而考虑相关的特征改善分类。

  如图4.1所示,显示了决策树构造的流程。

  图4.1 决策树算法

  在构造决策树的过程中,在每一步中,使用最大化信息增益的方法获得最佳的特征。算法的输入是交易方过去的交易,这些交易都以一个特征向量和结果的元组作为输入。如果所有的交易都是成功或者是不成功的,那么这个算法简单的返回一个单独的节点,即根节点的树,标记上“+”或者“-”,如果特征向量是空的,算法就会返回一棵树,如果大多数过去交易是成功的就标记为“+”否则标记上“-”。计算每一个特征的信息增益,拥有最大的信息增益的特征就会被选作树的根节点,接下来,根据特征向量的可能值添加不同的分支,接着计算剩下特征的信息增益,选择最佳的特征进行递归过程,当所有的特征都被测试或者当树完整的将所有的过去交易都分类开,这个算法就会停止。

  第4.2节 本章小结

  本章讲述了用于信任评估过程的机器学习算法,首先讲述了使用机器学习算法应用信任评估的思想,然后讲述了本文中所使用的机器学习算法,即ID3算法,介绍了ID3算法的主要流程。

  第5章 实验

  第5.1节 模拟环境

  本文使用人工模拟数据的方式模拟类似于网上拍卖的数据。同时在模拟数据中,如果对于产品的反馈是积极的就可以被认为是成功的,否则就被认为是不成功的。在这个模拟数据中提取几个特征,商品种类、商品价格、已售出的产品数量等等。本文使用决策树算法中的ID3方法。这个购买者将会收集这位卖方的交易历史,使用决策树算法预测某个或某些潜在交易是否成功,并且将这些成功的交易根据不同的权重分别计算出信任值进行不同程度的推荐并且进行排序。购买方可以根据这些交易的排序结果,选择出不同的交易进行浏览。

  其中MainWindow.xaml 是此程序的图形化界面,定义了相关的控件。Attribute.cs是属性类,即分类的标签。DecisionTree.cs 是本程序的核心代码,主要有计算熵、计算信息增益、递归构建决策树等方法的类,MenuItem.cs是表格中的标题类,TreeNode.cs是构建决策树的过程中所要用到的节点类。Resource文件夹中存放的是所需要打开的excel文件表,包括训练表和测试表和预测表,训练表和测试表格式如表5.1所示,预测表如表5.2所示。

  在代码的实现过程中,加入了权重的部分,不管是在训练数据产生结构树部分还是预测数据进行打分部分,都使用了不同的权重。在建立树型结构的过程中,某种特征可能对交易结果影响比较大,如好评率,某种特征对交易结果影响比较小,如购买者年龄,所以在构建决策树的过程中不能一视同仁。于是采用设置不同权重的方法,对每一个特征的不同取值设置不同的权重,在此基础上,一个特征的不同取值情况下的取值越大或越小都会存在着递增或递减的权重取值。在构建决策树的过程中,计算信息熵、信息增益的时候都会根据不同的取值添加进不同的权重,这样就不会完全依照每个特征的取值情况,可以人为的使得在特征选择的过程中对某些特征进行偏重的选择。在预测部分也是如此,在形成的决策树中,根据得出的规则预测每一笔交易是否值得信任,并且根据权重问题得出不同的信任得分,假设每一个特征的分数均为1,对所有的特征取值进行加权平均最终得出得分,并且进行排序。评出评分以后购买方就可以根据这些评分结果自由选择值得信任的交易商品,并且由于是排过序的,所以更加方便购买方进行选择不同程度信任的商品。

  第5.3节 实验结果

  这一节讲述的便是通过做实验得出的结果,分为两个部分,训练数据部分和预测数据部分。

  首先是训练数据部分。

  在出现的图形化界面中,选择打开文件按钮选择相应的训练集数据输入到所形成的表格中,并且点击run按钮,这里需要注意的是,如果表中数据为空时,不能继续接下来的操作。可以得到三个不同视图的结构图,这三个视图以不同的模式展示了通过ID3算法得出的结构图。分别是树视图、输出树、规则。分别如图5.2,图5.3,图5.4所示。

  以上部分是训练数据的部分,使用ID3算法将训练集的数据进行决策树的构建,形成相应的树结构。

  接下来是预测部分,由于预测的时候可以将结果显示出来,所以在预测的过程中也将测试的部分完成了。在预测部分,仍然是先打开文件放入图形化界面的表格中,点击predict按钮,便得到输出的结果,并且根据权重进行排序,预测结果是不符合推荐条件的为false,其评分结果为0,预测结果是符合推荐条件的为true,并且根据权重获得相应的评分分数,并且按照分数排序,给予不同程度的推荐给购买方。如图5.5所示。

  图5.5 预测结果图

  第5.4节 实验结果分析

  在训练数据部分,得出三种可视化的结果,从这三个结果中,可以得出相应的规则。在交易的过程中,不同特征所对应的数据都会产生不同的规则,在进行预测的时候可以按照此规则进行相关程度的预测。

  在预测数据部分,预测结果是符合推荐条件的结果是true,并且计算出其对应的每一个特征取值的加权平均计算出评分,预测结果是不符合推荐条件的结果为false,其所对应的评分值为0,计算出所有的评分以后进行排序,由高到低进行排序,在购买方进行选择时可以挑选出最值得信任或者次信任的交易,而不是盲目的将所有的值得信任的全部丢给购买方,更加人性化一些。

  在测试数据集部分,根据已经得出的决策树规则进行测试,最终得出的测试准确率达到79%。

  和传统的信任模型相比,提出基于机器学习的方法在很多方面都更胜一筹。具有以下优点:

  (1)由于依赖的是信任者本地知识库,降低了来自第三方信息不准确的风险,与此同时,攻击方不知道信任者本地的知识库,所以当攻击方想要伪造信息时不能有效的伪造信息混淆信任者,因此更加安全可靠了。

  (2)当交易方几乎没有交易历史,传统的使用其行为历史来判断可靠性的方法不再适用,因此使用机器学习的方法提取交易特征,这样尤其在数据稀疏的情况下优越性更加明显。

  第5.5节 本章小结

  本章讲述了实验部分,首先讲述了进行这个实验所进行的环境设置,然后讲述了代码架构,进行代码实现过程中如何构建代码,接下来就是实验结果,讲述了出现图形化界面时一步一步的载入数据训练数据和预测数据的,最后便是对整个实验结果的分析,与传统方法相比所具有的优点,在实际应用过程中的可行性。

  从实验结果可知,通过将特征向量和结果的元组作为输入,结合权重问题,可以训练出相应的规则。然后根据这个规则,再输入潜在交易的特征向量的时候,可以预测出相应的结果,并且将值得信任的结果计算出信任度最终给出推荐,分数越高的具有的推荐性越强,便于用户。

  第6章 总结与展望

  第6.1节 本文总结

  本文提出了基于机器学习的可信度的计算的方法,它通过从过去的相关交易中学习对这个交易方的潜在交易进行分类。本文使用的是决策树算法ID3,和传统的依赖于交易方的行为历史来预测交易信任相比,本文采用的方法是依赖于信任者的本地知识库和一些关于目标交易的信息,而不是依赖于交易方的行为历史。因此在遇到交易方行为历史几乎为零或者行为历史不被人所获得,以及当第三方信息不可靠或者第三方信息在获取的过程中所花费的价格昂贵时,本文提出的方法就相当适用于这种情况,更能体现其优越性。在决策系统中,当一个最终决定人需要拿定主意时,本文提出的方法就能够提供指导。

  实验表明,和传统方法相比,使用机器学习的方法更能体现其优越性,而且这个方法依赖的是信任者的本地知识库,更加的安全可靠。

  第6.2节 后续工作展望

  然而,本文也存在一些不足之处。

  (1)实验程序的复杂度较高,使得程序运行速度慢,应该进行算法的优化,降低对软件性能的影响,同时提高准确率。

  (2)本文只使用了ID3算法进行信任计算,应该尝试其他的机器学习算法进行计算,进行比较后获得较好的用于信任计算的机器学习算法。

  为了使得这个方法更加适合使用,还需要不断的完善。

  • 发表咨询
  • 文秘咨询
  • 在线咨询

移动版:社交网络中基于机器学习的可信计算

本文标签: