微博焦点流传者挖掘与流传规模展望研究

微博焦点流传者挖掘与流传规模展望研究,

再连系PageRank算法头脑,提出了一种有用的焦点流传者挖掘算法,从而精准地评估各条微博中各节点的影响力差异,识别焦点流传者。最后依据焦点流传者的行为聚集确立流传模子,展望了单条微博的流传规模。

微博焦点流传者挖掘与流传规模展望研究插图 微博焦点流传者挖掘与流传规模展望研究插图

由中国新闻史学会盘算流传学研究委员会与微热门大数据研究院团结举行的第二届流传数据挖掘竞赛已圆满落幕,15支战队尽显风貌。以下为“焦点用户挖掘与流传规模展望”选题优秀作品《社交媒体时代焦点用户识别与流传规模展望剖析》,由来自中国传媒大学“猪头DD的BoysandGirls天天有钱”精彩出现。

一、弁言

作为一种基于用户关系信息分享、流传以及获取的社交平台,当前微博已成为中国最主要的公共空间,而微博的焦点流传者起着舆论指导甚至改变舆情生长偏向的主要作用。微博焦点流传者的挖掘对信息的流传与演化的深度剖析、舆情监控和指导都具有主要意义。另一方面,也为提供个性化服务以及差异广告的投递提供便利。若何挖掘微博焦点流传者,成为我们关注的议题。

二、问题的提出与剖析

挖掘焦点流传者是本讲述的焦点议题。在此靠山下,提出以下四个子问题:

  1. 焦点流传者若何界说,存在什么样的特征?
  2. 未知个体身份信息的情形下,基于30条热门微博的所有流传数据及介入流传的账号关系,若何对焦点流传者的要害特征举行有用量化?
  3. 若何基于量化的要害特征确立周全系统的评价系统并精准地评估各条微博中各节点的影响力差异,并识别焦点流传者?
  4. 在有限的信息中若何较准确地描绘出焦点流传者的行为画像,进而确立有用的模子展望单条微博的流传规模?

三、研究历程与方式

3.1 微博焦点流传者看法辨析

本讲述中的“微博焦点流传者挖掘”和“意见首脑挖掘”差别。在《人民的选择》中,拉扎斯菲尔德(Lazarsfeld)首次提出“意见首脑”。意见首脑作为前言信息的影响的中继和过滤环节,对大众流传效果发生主要影响,是大众流传中不能缺少的一部门。

关于微博意见首脑挖掘的研究众多,但当前大多数挖掘意见首脑是基于微博整个的流传环境而言。

本研究从给定的数据集里找“焦点流传者”,非严酷意义上的“意见首脑”,不思量用户谈论、点赞、活跃度等因素。笔者基于研究局限,将本文的微博焦点流传者界说为:在微博信息通报中,对舆论的生长能起到要害性的导向作用,具有影响他人态度和行为的能力,能加速流传速率并扩大影响的用户。

3.2 焦点流传者影响力特征

基于对用户节点的深度剖析,综合用户节点的各种属性,本研究基于30条热门微博的所有流传数据及介入流传的账号关系,选取用户的结构特征、流传特征和内容特征作为用户影响力特征,并以此确立综合评价系统:

3.2.1 结构特征

结构特征体现了用户自己因素和所在网络拓扑的结构因素,通常可以由粉丝数,关注数,中央度等属性示意。附录A图1显示了一个社交网络拓扑图。但由于数据集所限,同时为了提高准确度,本研究将用户的结构特征指标归结为以下两点:

(1)用户关注数。关注数代表用户能力局限内的信息接受度,焦点流传者的关注数应该在一个合理区间内。

(2)用户粉丝数。因粉丝数在数据集中未给出,本研究使用倒排索引法从用户关注聚集中反向找出用户粉丝聚集。附录A图2显示了该方式获得的用户粉丝数相符幂律漫衍,且获取的用户为现实介入到流传行为的“激活用户”,是粉丝中对流传孝敬最为显著的部门,故可将该效果用于构建用户结构特征指标。

3.2.2 流传特征

用户的流传特征即用户在信息流传历程中的流传行为特征,通常显示为在一段时间内公布的微博数和微博被点赞、被转发和被谈论的数目等。同样因数据集所限,只将特征牢固在转发数。同时,我们通常以为,当用户公布的微博被非粉丝转发条数越多,说明其影响力不局限于牢固受众,影响力可能越大。因此,本研究将流传特征区分为粉丝转发数和非粉丝转发数。

3.2.3 内容特征

在意见首脑挖掘问题中,用户的影响力不能简朴地从结构特征和行为特征权衡,还需要从语义内容角度去评价特定用户对于某一话题的看法[1],内容特征参考以下两点:

(1)文本相似度。微博社交网络大量的“灌水”、“刷数据”的行为使得许多转发行为在内容上与原内容无关,表达价值有限,因而引入文本相似度以权衡转发文本与原微博在内容上的相关水平,具有与原微博较高相似度的转发文本才气真正流传看法和内容,方能实现焦点流传者所应具备的“扩大影响”以及“指导舆论走向”的职能要求。

(2)内容情绪倾向。在微博社交网络中,原创微博会引发大量的转发,转发内容综合体现了众人的批驳情绪。识别信息流传历程中流传者的主流情绪态度, 有利于筛选出指导舆论生长偏向、对其他受众施加显著影响的真正焦点流传者。

3.3 焦点流传者的指标权重

以结构特征、流传特征、内容特征为剖析指标,运用模糊条理剖析法确定指标权重。模糊条理剖析法(FAHP)判断指标元素权重相较传统的条理剖析法具有盘算历程复杂度低与盘算效果分辨率高等优点,有利于提高排序与决议的科学性。

3.4 焦点流传者挖掘算法

3.4.1 评价系统各指标量化方式

结构特征和流传特征数据能够较为容易地从数据集中获得。在内容特征方面,对于情绪指数,首先需要对用户的转发文本的情绪极性举行分类。本文接纳LSTM神经网络训练了10万条带有正负情绪符号的微博转发、谈论文本数据集,经由五轮训练,准确率高达94%,损失函数则低至0.37(见附录A图3),具有较好的展望效果。

随后,由于模子的展望效果现实是文本内容为正向及负向的双向可能性,实验以情绪极性的期望形貌情绪的强烈水平。(文本情绪极性剖析流程见附录A图4)众多研究解释网络的负面情绪往往相比正向情绪具有更大的流传效果,因而获得公式:

文本相关度则行使TF-IDF算法获取。由于微博转发文本主要针对热门事宜、话题开展讨论,共输入1000余篇完成分词的新闻文本构造出词典并构建TF-IDF模子,最后以此举行原微博文本与转发文本的相似度匹配。

3.4.2 预处置问题

在内容属性挖掘历程中,本研究首先对转发文本的非汉字词组、标点、用户昵称等举行了过滤。由于每种特征数据具有差别的量纲,因此接纳min-max标准化对数据举行线性转换,将效果映射到(0,1)之间。转换函数为:

综上获得综合评价指数盘算公式:

3.4.3 改善的PageRank算法

三维度的综合评价系统可以有用评估一个节点自己的直接影响力,然而用户的影响力与流传效果除了自己的直接影响,还应包罗通报本节点看法的后续节点流传所带来的间接影响。由此,本研究实验引入网页算法PageRank 头脑:

其中,Vn,Vn-1代表一系列节点组成pagerank值向量,M为N×N概率转移矩阵。相较于传统微博影响力研究针对粉丝-关注网络举行PageRank盘算,本研究创新性地将PageRank头脑引入微博转发网络。PageRank算法的头脑与微博转发网络相吻合。因此本研究将构建由转发者指向被转发者的有向关系图。

但PageRank的坏处在于太过看重外部链接的间接价值而忽视了节点自己的直接价值,前文所述三维度指标系统正好可以较为周全评价一个节点自己的直接影响力和价值。参考陈淑娟[2]、冯勇[3]等的研究思绪,本研究将节点i的综合评价指数I作为权重参数乘至到PageRank转移概率矩阵中第i列(即为所有节点链接到节点i的概率加权),从而影响PageRank的迭代效果。

本处数学处置的意义可解释为:当一个转发用户的自身影响力与流传价值较高,任何对他举行二次转发的节点将有更大的概率将流量引向该用户。

综上,改善后的用户影响力(User Influence, UI)的矩阵表达式如下:

其中AIndex为本微博各转发节点综合评价指数所组成的N×N对角矩阵,Vn为n次迭代后获得的N个节点的UI值组成的向量。

3.5 展望单条微博流传规模

3.5.1 焦点流传者的信息流传动力学建模

信息在社交媒体中的流传模式出现出去中央化的特点,焦点流传者在信息流传历程中动员了大量的二次流传[4]。本研究对焦点流传者动员的信息流传模式举行可视化(附录A图5)发现,绝大多数的焦点流传者的转发能够迅速引起大量的二次转发,之后转发数迅速下降,进入到慢速流传状态,直至转发数极低或者为零。

由此,本研究对焦点流传者的信息流传模子借由Wang等人[5]的头脑:在信息流传初期,单元时间内焦点流传者动员的转发数为幂律衰减函数,随后焦点流传者的影响力和信息新鲜度下降,转发数又出现出指数衰减。因此将焦点流传者的信息流传历程示意如下:

其中,F0,α,τ为预估参数。F0为用户初始影响力,在本研究中,其决议因素为结构特征;α为焦点流传者的影响力衰减速率,τ为焦点流传者影响力的持续时间,二者的巨细是信息流传历程中多种因素交织的效果,在本研究中简化为由结构特征、内容特征和微博转发时间决议。3.5.2 展望单条微博流传规模

本研究将数据集中的30条热门微博分为训练集和测试集,其中训练集内微博数目为22,用来获得各个焦点流传者的参数;测试集内微博数目为8,用来展望焦点流传者的单条微博流传规模。

对训练集中的所有焦点流传者分别用公式(6)举行非线性最小二乘拟合,获得各个焦点流传者的信息流传模子参数,并行使相关系数R2举行拟合效果的评价。由于测试集中的焦点流传者不一定出现在训练集中,以是当展望一个新的焦点流传者的流传规模时,需要盘算其与已知焦点流传者的差异。

本研究选用粉丝数、关注数、情绪值、文本相关值和转发时间距原微博公布时间的时间距离五个特征来器量用户属性。对数据用式(2)举行标准化处置,获得用户之间的距离盘算公式为:

其中,x1k、x2k分别为用户1和用户2在第k维度的特征值。选取与当前焦点流传者距离最小的焦点流传者的参数作为前者的参数,从而展望当前焦点流传者单条微博的流传规模。综上,本研究的研究思绪与流程如附录A图6所示。

四、研究效果与发现

4.1 数据集

本研究使用微博提供的基于30条热门微博的所有流传数据及介入流传的账号关系,附录B表1为数据的基本提要,附录A图7为30条微博的主题分类。

4.2 综合评价系统的构建

本研究邀请了流传学和大数据偏向的专家举行对评价系统举行研判,被调查者连系舆情流传理论和自身履历对影响指标因素,举行最小、中心、最大比值的三值评分,进而通过三角模糊法举行模糊条理剖析,表1和附录A图8为获得的各指标权重。

微博焦点流传者挖掘与流传规模展望研究插图1 微博焦点流传者挖掘与流传规模展望研究插图1

4.3 焦点流传者挖掘效果

综合评价系统中,效果特征、流传特征均通过python的pandas等数据剖析库在源数据中举行定向抓取。情绪剖析接纳keras举行LSTM模子的训练并行使模子挖掘。以第26条微博“少年的你”数据效果为例,按PageRank排名取前十位焦点流传者见附录B表2。

4.4 焦点流传者挖掘效果验证与对比剖析

为验证焦点流传者挖掘算法的有用性,本研究实验通过微博文本内容手动检索现实微博及挖掘出的焦点用户的有用信息,行使检索效果以及微热门剖析效果,开展如下对比剖析。

4.4.1 焦点用户信息溯源

以第26条微博为例,本研究凭据用户的转发数据以及文本内容于微博平台举行信息溯源,并完成以下验证:

(1)要害转发者大多拥有一定规模粉丝量。最小粉丝规模2000+,最大粉丝规模45.6万+;

(2)要害转发者为该相关话题着名账号,大多拥有新浪官方认证、活跃用户、粉丝大咖等标识。例如用户@我亲爱的拥有和虚无(即附录B表3焦点转发者排名第二,用户ID为b672fadcb306797bbba44cae1ecf576 5);

(3)剖析所得账号的发博频率和转发互动率均有较好显示。例如用户@赤颊(即附录B表3焦点转发者排名第九,用户ID为4cd45eb84d5a48e142011b8 1af4f044f)。

综上,在用户粉丝规模、账号特征和属性、账号活跃度和粉丝互动率等方面举行综合评测,以为以上要害转发者相符本研究的焦点流传者意义。

4.4.2 与微热门举行对比剖析

本研究依托微博剖析工具微热门(微舆情)对原始微博举行“微博流传剖析”,效果见附录A图9,与本研究效果对比可得:前十名的焦点流传者中,前五名效果一致,六至十名用户一致但排名稍有更改,原由于研究方式与微热门统计方式存在差异。

即微热门中各引爆点的参考依据仅为二次转发数目这一指标,而本研究所使用的方式,除此之外加入对用户关注及粉丝数、是否为粉丝转发、文本相关度及内容情绪的参考,使得其更相符本研究对焦点流传者的界说。本研究作法也使得数据的参考价值局不限于单条微博,在微博的大舆论环境中,思量焦点流传者自己所具备的能量。

综上,综合判断该研究方式所得效果相符要求并具有一定通用性。

4.5 单条微博规模展望效果

在获得所有已知焦点流传者之后,便可以对训练集中的焦点流传者模子参数举行拟合并存储,然后对测试集中的焦点流传者的流传规模举行展望。

详细流程如附录A图10所示。其中,为更合理地展望实时新闻,在当前焦点流传者转发微博后,守候10分钟,获取其该微博的被转发数,用如下公式盘算其相对初始影响力:

其中F0为数据库中焦点流传者的初始影响力,N10为数据库中焦点流传者在10分钟内的被转发数。之后便可用公式(6)盘算当前焦点流传者的流传规模。附录A图11为对测试集中的一条微博的8位要害流传者举行的流传规模展望,考察可知本方式较好地展望了各个焦点流传者的流传纪律与规模,在最终流传规模的展望上,8位要害流传者现实引发了1152次转发,而凭据模子展望的最终值为1340,准确率到达83.68%。

五、研究结论和讨论

实验及剖析比对效果解释,本研究能够准确挖掘到焦点流传者,所提模子和方式,也能够较好地描绘意见首脑在新闻流传历程中所起到的作用,能够较好地对单条微博的流传趋势和规模举行展望,这对于微博中民众舆论的指导以及广告定点投放等具有主要意义。

在构建模子和挖掘焦点流传者的历程中,我们也可以发现,焦点流传者具有区别于其他通俗流传者的特征,例如:一定数目的粉丝规模和关注数,公布的博文质量更高,能够动员更大的转发量等。

由于篇幅限制,部门研究方式细节和实验效果说明难以获得充实展示。

本研究也存在不足之处:第一,模糊条理剖析法包罗专家的主观判断,无法彻底制止评价的主观性;第二,研究缺乏更周全的用户行为数据且数据量较小,以是难以更精准地挖掘出焦点流传者,流传规模展望效果有待进一步提高。这些将是本研究的未来改善偏向。

参考文献

[1]Song K,Wang D,Feng S,et al.Detecting opinion leader dynamically in Chinese news comments[A].Web-Age Information Management[M].Berlin Heidelberg: Springer,2012. 197-209[2] 陈淑娟,徐雅斌.面向主题社团的意见首脑挖掘方式[J/OL].盘算机工程与应用:1-11[2020-05-31].http: //kns.cnki.net/kcms/detail/11.2127.TP.20200109.1653.006.html.

[3]冯勇,马宇光,刘建.微博营销中融合行为剖析的主要用户发现方式[J].小型微型盘算机系统,2019,40(0 8):1646-1651.

[4] 高金华,刘悦,程学旗.去中央化的微博流传动力学建模[J].中国科学:信息科学,2018, 048(011):P.1575-1588.

[5] WANG Chenxu, GUAN Xiaohong, QIN Tao, ZHOU Yadong. Modeling on Opinion Leader’s Influence in Microblog Message Propagation and Its Application[J]. Journal of Software, 2015, 26(6): 1473-1485

附录A

微博焦点流传者挖掘与流传规模展望研究插图2 微博焦点流传者挖掘与流传规模展望研究插图2

图1 社交网络拓扑图

微博焦点流传者挖掘与流传规模展望研究插图3 微博焦点流传者挖掘与流传规模展望研究插图3 微博焦点流传者挖掘与流传规模展望研究插图4 微博焦点流传者挖掘与流传规模展望研究插图4

图2粉丝数漫衍情形

微博焦点流传者挖掘与流传规模展望研究插图5 微博焦点流传者挖掘与流传规模展望研究插图5 微博焦点流传者挖掘与流传规模展望研究插图6 微博焦点流传者挖掘与流传规模展望研究插图6

图3 LSTM神经网络举行情绪分类的准确率与损失函数

微博焦点流传者挖掘与流传规模展望研究插图7 微博焦点流传者挖掘与流传规模展望研究插图7

图4 文本情绪极性剖析流程

微博焦点流传者挖掘与流传规模展望研究插图8 微博焦点流传者挖掘与流传规模展望研究插图8

图5一条典型的焦点流传者动员的微博的流传模式

微博焦点流传者挖掘与流传规模展望研究插图9 微博焦点流传者挖掘与流传规模展望研究插图9

图6 本研究的研究思绪与流程

微博焦点流传者挖掘与流传规模展望研究插图10 微博焦点流传者挖掘与流传规模展望研究插图10

图7 30条微博主题分类

微博焦点流传者挖掘与流传规模展望研究插图11 微博焦点流传者挖掘与流传规模展望研究插图11

图8 各指标权重可视化

微博焦点流传者挖掘与流传规模展望研究插图12 微博焦点流传者挖掘与流传规模展望研究插图12

图9 微热门剖析意见首脑图

(停止截图时间2020年05月26日数据)

微博焦点流传者挖掘与流传规模展望研究插图13 微博焦点流传者挖掘与流传规模展望研究插图13

图10 流传规模展望流程

微博焦点流传者挖掘与流传规模展望研究插图14 微博焦点流传者挖掘与流传规模展望研究插图14

图11 单条微博焦点流传者流传规模展望效果

微博焦点流传者挖掘与流传规模展望研究插图15 微博焦点流传者挖掘与流传规模展望研究插图15

图12 30条微博部门焦点流传者流传规模展望效果

附录B

微博焦点流传者挖掘与流传规模展望研究插图16 微博焦点流传者挖掘与流传规模展望研究插图16 微博焦点流传者挖掘与流传规模展望研究插图17 微博焦点流传者挖掘与流传规模展望研究插图17 微博焦点流传者挖掘与流传规模展望研究插图18 微博焦点流传者挖掘与流传规模展望研究插图18

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 yaoruanwen@qq.com 举报,一经查实,本站将立刻删除。