Skip to content
字数
6579 字
阅读时间
27 分钟

引言

在社交媒体网络中,误信息的传播是一个复杂的动态过程,同时受到网络结构、用户行为和时间因素的影响。传统模型如独立级联模型(Independent Cascade Model, IC)和线性阈值模型(Linear Threshold Model, LT),在静态网络中表现出较强的预测能力,但均未能充分捕捉传播的动态演化特性及因果机制。为此,我们提出了一种动态网络因果推断模型(Dynamic Network Causal Inference Model, DNCIM),旨在通过融合时变网络结构、用户行为特征及因果推断技术,全面分析误信息传播的时间演化因果关系

符号体系

符号名称符号描述
网络结构Gτ=(V,Eτ)时间 τ 的网络结构,其中 V 为节点集(用户),Et 为边集(用户间连接)
时间变量τ时间变量,τ[0,T]T 为观察时长
节点状态Si(τ)节点 i 在时间 τ 的状态,Si(τ){未感染,感染,恢复}
传播概率Pij(τ)时间 τ 时,节点 i 向节点 j 传播误信息的概率
恢复概率Ri(τ)节点 i 在时间 τ 的恢复概率
传播延迟Di(τ)节点 i 在时间 τ 的传播延迟
传播路径集合Vp(τ)时间 τ 时,误信息的传播路径集合
传播速度Vs(τ)时间 τ 时,误信息的传播速度
行为特征向量Bi(τ)节点 i 在时间 τ 的行为特征向量(如发帖频率、响应率)
影响力指标Ii(τ)节点 i 在时间 τ 的影响力指标(如关注者数量、转发量)
因果效应Cij(τ)节点 ij 之间的因果效应,衡量 ij 传播状态的影响

模型假设

为构建动态网络因果推断模型,我们提出以下假设:

  1. 网络动态性:网络结构 Gt 随时间 τ 演化,反映用户关系的动态变化。
  2. 用户行为异质性:用户行为 Bi(τ) 和影响力 Ii(τ) 随时间变化,影响传播概率 Pij(τ)
  3. 因果依赖:误信息的传播具有因果依赖性,即某些节点的感染状态会直接或间接影响其他节点的感染状态。
  4. 传播路径可追溯:通过记录传播事件的时间戳和来源,可构建传播路径树。

建模&求解流程

数据收集

为支持动态网络因果推断模型的构建,我们收集了以下数据:

数据类型描述用途
网络结构数据用户之间的连接关系(如关注、粉丝),随时间变化用于构建动态网络结构 Gt
传播行为数据用户发布、转发、评论等行为的时间序列数据追踪传播路径 Vp(τ),计算传播速度 Vs(τ)
内容数据误信息帖子的具体内容(如文本、图像、视频)识别误信息特征,标注状态 Si(τ) 的初始条件
元数据用户属性(如 Bi(τ)Ii(τ))及帖子属性(发布时间、点赞数)分析行为特征与传播概率 Pij(τ) 的关联性,量化上下文影响
数据来源

通过社交媒体API(X API、Weibo API)以及公开数据集(SNAP)获取。

Paper Writing

我们系统地收集了以下数据以支持模型的理论框架和实证分析:

首先,我们获取了网络结构数据,包括用户间的关注和粉丝关系(随时间变化),以构建动态网络 Gt,为分析网络结构的时变特性提供基础。

其次,我们收集了传播行为数据,涵盖用户发布、转发和评论的时间序列记录,用于追踪传播路径 Vp(τ) 和计算传播速度 Vs(τ),支持动态传播过程的量化。

第三,我们提取了内容数据,包括误信息帖子的文本、图像和视频内容,以识别误信息特征并标注感染状态 Si(τ)

最后,我们收集了元数据,包括用户行为特征 Bi(τ)、影响力指标 Ii(τ) 及帖子属性(发布时间、点赞数等),以分析传播的上下文驱动因素和用户异质性影响。

其中:

  • 行为特征 Bi(τ): 我们通过聚合函数 agg() 从用户发帖数 postsi 和互动数 responsesi(即评论和转发)计算:Bi(τ)=agg(postsi(τ),responsesi(τ))
  • 影响力指标 Ii(τ): 我们使用PageRank算法计算用户 i 在时间 τ 的网络影响力:Ii(τ)=PageRank(Gτ,i)

![[用户行为-影响力关联特征与群体异质性分析 2.png]]

图a显示行为指数(Bi)与影响指数(Ii)呈弱正相关(r=0.32),Bi服从正态分布(μ=0.33,σ=0.09),Ii右偏(μ=0.19,σ=0.07),满足线性回归假设。图b揭示验证用户Ii中位数(0.332)高于非验证组,核密度曲线显示验证组分布更趋集中(KS检验D=0.12,p=0.067),暗示验证状态对影响力存在调节效应。图c呈现用户类型异质性:政府/媒体账户Bi呈尖峰厚尾分布(峰度=5.2),普通用户呈均匀分布(标准差=0.12),内容创作者存在双峰特征,数据全域无异常值(马氏距离均<3)。

数据均通过社交媒体API(X API、Weibo API)及公开数据集(SNAP)获取,确保了数据的多样性与可靠性。

数据预处理

数据清洗:去除重复、缺失或无关数据,确保数据完整性。 • 数据整合:将网络结构和行为数据构建为动态网络 Gt,生成时间快照序列。 • 特征提取:从元数据中提取 Bi(τ)(如发帖频率、响应率)和 Ii(τ)(如关注者数量、转发量)。 • 误信息标注:通过已知误信息数据集或人工标注,识别误信息内容,标记 Si(τ) 的初始状态。 • 时间序列对齐:将所有数据按时间 τ 对齐,确保动态分析的准确性。

Paper Writing

为确保模型的分析精度,我们对数据进行了以下预处理: ![[e0e5d674b014d89fbce046581a3cbb5.png]] 首先,我们进行了数据清洗,去除了数据中的重复项和缺失值 ,并剔除无关数据 DRirrelevant=,确保了数据的完整性。

D{didi=dj,ij},D{dik,di,k=NA}

其次,我们进行了数据整合,将网络结构和行为数据映射为动态网络 Gτ(V,Eτ),生成时间快照序列 $${\mathcal{G}{\tau_1}, \mathcal{G}{\tau_2}, \dots, \mathcal{G}_{\tau_n}}(\tau_i \in [0, T])$$,为时变分析提供结构基础。

第三,我们开展了特征提取,从元数据中提取行为特征Bi(τ) 和影响力指标Ii(τ) ,以量化用户异质性。

Bi(τ)agg(postsi,responsesi),Ii(τ)PageRank(Gτ,i)

第四,我们进行了误信息标注,通过已知误信息数据集与人工标注,定义了初始误信息状态 $$\mathcal{S}i(0) \gets \text{label}(c_i, \underbrace{\mathcal{M}})$$ 最后,我们通过时间戳映射 $$\text{align}(\mathcal{D}, \tau) \gets {d_i \mid t_i \mapsto \tau}$$,确保所有数据在时间轴 τ 上对齐,支持动态因果分析的准确性。

子问题建模

子问题1:时间演化(误信息如何随时间在网络中传播?传播路径和速度如何变化?)

本节聚焦于误信息的动态传播过程,旨在揭示误信息如何随时间在网络中传播,以及传播路径和速度的演化规律。我们基于SIR模型构建误信息传播的动态框架,通过量化传播概率和恢复概率,分析2025年2月16日至2月28日期间的一次误信息传播事件(图2),为后续的传播干预和模型验证提供理论基础。 ![[Pasted image 20250327210818.png]] 我们将网络结构构建为时变图 Gτ=(V,Eτ),其中邻接矩阵 A(τ)=[aij(τ)] 定义为:

aij(τ)={1,若 (i,j)Eτ,0,否则,

表示用户 i 在时间 τ 是否关注用户 j

节点 i 的状态 Si(τ) 基于SIR模型,状态转移规则为:

Si(τ+Δτ)={感染,若 Si(τ)=未感染 且 jNi(τ),Sj(τ)=感染, 以概率 P(感染Ni(τ)),恢复,若 Si(τ)=感染, 以概率 Ri(τ),Si(τ),否则,

其中 Ni(τ)={jV(i,j)Eτ 或 (j,i)Eτ}。该模型通过状态转移概率量化误信息在网络中的动态传播过程。

传播概率 Pji(τ),即用户 j 感染用户 i 的概率,定义为:

Pji(τ)=σ(β0+β1Ij(τ)+β2Ii(τ)+β3Ccontent(τ)),

其中 σ(x)=11+ex 为sigmoid函数,Ij(τ)Ii(τ) 分别表示用户 ji 的影响力,Ccontent(τ) 为内容吸引力,参数 β0,β1,β2,β3 通过历史数据拟合得到。

基于此,节点 i 在时间 τ 被感染的总体概率 P(感染Ni(τ)) 被建模为:

P(感染Ni(τ))=1jNi(τ),Sj(τ)=感染(1Pji(τ)),

该公式量化节点 i 在其感染邻居集合 Ni(τ) 作用下的感染风险,反映了误信息传播的累积效应

恢复概率 Ri(τ),即用户 i 从感染状态恢复的概率,基于用户活跃度 Ai(τ) 为:

Ri(τ)=γAi(τ),

其中 γ[0,1] 为调节参数,初始值设为0.5。活跃度 Ai(τ) 被定义为用户 i 在时间 τ 的活动次数(发帖和评论)相对于网络最大活动次数的比值:

Ai(τ)=活动次数i(τ)maxj活动次数j(τ),

其中 活动次数i(τ) 由用户 i 在时间 τ 的发帖和评论次数之和计算,反映了用户行为活跃程度对恢复概率的影响。 ![[第一问求解结果.png]]

指标名称数值计算关系
总实际传播路径29,226共同路径 + 仅实际路径
总模型预测路径32,958共同路径 + 仅模型路径
共同传播路径26,993-
仅实际传播路径2,233总实际 - 共同路径
仅模型预测路径5,965总预测 - 共同路径
预测准确率92.36%共同路径 / 总实际路径

基于图中的时序对比数据(T=13天),模型预测的感染节点数量N感染(τ)与真实值N真实(τ)的均方误差为:

MSE感染=113τ=012(N感染(τ)N真实(τ))2=184.7

误差分布呈现显著时间依赖性,其标准差σMSE=23.4,最大偏差出现在τ=9|ΔN|=28)。

我们通过Jaccard相似系数量化路径重叠度:

Jaccard平均=113τ=012|Vp(τ)V真实(τ)||Vp(τ)V真实(τ)|=0.816

该结果与图1的路径统计一致,其中:

  • 总实际传播路径:29,226
  • 模型预测路径:32,958
  • 共同路径占比:26,99329,226=92.36%
评估维度指标值置信区间(95%)统计显著性(p-value)
节点数量预测MSE=184.7[162.3, 207.1]<0.01
传播路径匹配Jaccard=0.816[0.792, 0.840]0.003
拓扑结构还原度η=0.901[0.883, 0.919]0.008

结论

  1. 模型在路径还原方面表现优异(Jaccard>0.8),但在高活跃节点密集时段(τ>8)出现系统性偏差
  2. 过预测现象显著:模型预测路径总数超出实际值12.7%32,958 vs 29,226
  3. 可靠性阈值验证:当核心节点影响力Ii>0.5时,预测准确率下降至78.3%(KS检验D=0.21,p=0.012

传播速度时间序列图: ![[传播速度时间序列图.png]]

子问题2:因果关系(哪些因素驱动误信息的传播?是否存在因果依赖?)

本节聚焦于识别和量化驱动误信息传播的因果因素,探究这些因素之间的潜在因果依赖关系。通过构建时序因果图模型,系统分析用户行为特征、影响力指标以及网络拓扑特征对误信息传播状态的因果影响。基于此,本节首先定义关键因果变量,随后通过线性结构方程模型量化因果效应,并采用路径分析和条件独立性测试进一步揭示变量间的因果依赖结构。最终,通过模型验证和结果展示,为误信息传播的因果机制提供理论支持,为后续干预策略设计奠定基础。

本节采用以下核心变量构建因果分析框架:

网络拓扑特征: • 节点度:di(τ)表示节点iτ时刻的连接数 • 聚类系数:ci(τ)表征节点i的局部网络凝聚性

行为特征: • 用户活跃度:Bi(τ)=agg(postsi(τ),responsesi(τ))

影响力指标: • 节点影响力:Ii(τ)=PageRank(Gτ,i)

传播状态: • 感染状态:Si(τ){0,1}表示节点iτ时刻是否传播误信息

我们假设误信息传播状态 Si(τ) 受到过去时间步的邻居状态、行为特征、影响力以及网络拓扑特征的共同影响。表示为:

Si(τ)=fi({Sj(τΔτ)jNi(τΔτ)iτΔτ},Bi(τΔτ),Ii(τΔτ),di(τΔτ),ci(τΔτ),ϵi(τ))

为简化分析,我们用线性模型近似因果关系:

Si(τ)=α0+α1jNi(τΔτ)Sj(τΔτ)+α2Bi(τΔτ)+α3Ii(τΔτ)+α4di(τΔτ)+α5ci(τΔτ)+ϵi(τ)

为了量化特定变量的因果效应,我们使用平均因果效应 (ACE) 定义:

ACEij(τ)=E[Sj(τ)do(Si(τΔτ)=1使iτΔτ)]E[Sj(τ)do(Si(τΔτ)=0使i)]

我们使用最大似然估计法对模型参数α0α5进行联合校准,基于观测数据优化参数空间以最小化预测误差。在此基础上,构建反事实干预框架实施蒙特卡洛模拟,生成104组传播状态样本Sj(τ),通过计算潜在结果差异量化因果效应,最终通过Bootstrap重采样(n=1000次)获得ATE的置信区间[0.172,0.215]p<0.01),证实干预效应的统计显著性。

为确保因果模型的可靠性和预测能力,我们设计了多层次的验证流程,以评估模型在捕捉误信息传播因果关系方面的表现。具体验证步骤如下:

  • 交叉验证:我们采用 (k)-折交叉验证方法((k=5)),将数据集划分为训练集和测试集,分别占80%和20%的比例。通过在训练集上拟合模型参数(如线性结构方程中的权重 (\alpha_0) 至 (\alpha_5)),并在测试集上预测节点 (i) 的传播状态 (S_i(\tau)),我们评估模型在未见数据上的泛化能力。交叉验证的结果通过平均预测误差(例如均方误差,MSE)量化,确保模型在不同数据子集上的稳定性。

  • 指标评估:为全面衡量模型性能,我们计算以下分类指标:

    • 准确率(Accuracy):衡量模型预测传播状态 (S_i(\tau)) 的总体正确率,定义为 (\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}),其中 (\text{TP})、(\text{TN})、(\text{FP})、(\text{FN}) 分别表示真阳性、真阴性、假阳性和假阴性。
    • 精确率(Precision):衡量模型在预测为传播状态时的正确率,定义为 (\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}),以评估误报率。
    • 召回率(Recall):衡量模型对实际传播状态的捕捉能力,定义为 (\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}),以评估漏报率。
      此外,我们计算 F1 分数((\text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}))作为精确率和召回率的调和平均值,以综合衡量模型的分类性能。
  • 因果一致性检验:为验证模型估计的因果效应是否符合实际情况,我们将模型输出的因果关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)) 的因果效应)与以下两方面进行对比:

    • 实际数据对比:利用2025年2月16日至2月28日期间的真实传播事件数据,检查模型预测的因果效应是否与观测到的传播模式一致。例如,若模型估计影响力 (\mathcal{I}_i(\tau)) 对传播有显著正向效应,则应在数据中观察到高影响力用户更易引发传播的证据。
    • 领域专家知识对比:参考社交网络传播领域的专家知识(如高影响力用户往往是传播关键节点的共识),验证模型结果是否与已知规律相符。若模型预测与专家知识存在偏差,则通过调整模型参数或引入额外变量(如内容特征)进一步优化模型。
      此外,我们采用置信区间分析(基于参数估计的标准误)量化因果效应的不确定性,确保估计结果的统计显著性((p < 0.05))。

可视化设计:体现因果关系建模与分析的工作

为了直观展示子问题二中因果关系建模与分析的工作成果,我们设计了以下可视化方案,旨在突出因果路径、因果效应、模型性能以及因果依赖的动态变化。这些可视化不仅能够清晰呈现模型的核心发现,还能为读者提供直观的理解和进一步分析的依据。我们基于2025年2月16日至2月28日的误信息传播数据,结合模型输出,设计以下四类可视化:


1. 因果依赖图(Causal Dependency Graph)

  • 目标:展示变量之间的因果依赖关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)))。
  • 设计
    • 图结构:使用有向图表示因果关系,节点表示变量(如 (S_i(\tau))、(\mathcal{B}_i(\tau))、(\mathcal{I}_i(\tau))、(d_i(\tau))、(c_i(\tau))),有向边表示因果方向。
    • 边权重:边的粗细或颜色深浅反映因果效应的大小(通过线性结构方程模型估计的权重 (\alpha_1, \alpha_2, \alpha_3, \alpha_4, \alpha_5))。
    • 标注:在边上标注互信息值(如 (\text{MI}(\mathcal{I}_i(\tau), S_i(\tau)))),以量化变量间的依赖强度。
  • 工具:使用 Python 的 networkx 库绘制有向图,结合 matplotlib 进行可视化。
  • 示例:若模型估计 (\mathcal{I}_i(\tau)) 对 (S_i(\tau)) 的因果效应最大,则从 (\mathcal{I}_i(\tau)) 到 (S_i(\tau)) 的边最粗,颜色最深。

2. 因果效应热力图(Causal Effect Heatmap)

  • 目标:展示不同变量对误信息传播状态 (S_i(\tau)) 的因果效应(ACE)在时间维度上的变化。
  • 设计
    • 矩阵结构:横轴为时间点(2月16日至2月28日,每天一个点),纵轴为因果变量((\mathcal{B}_i(\tau))、(\mathcal{I}_i(\tau))、(d_i(\tau))、(c_i(\tau)))。
    • 颜色编码:每个格子用颜色表示平均因果效应(ACE)的大小,颜色从浅到深(如浅蓝到深红)表示效应从低到高。
    • 标注:在关键时间点标注显著变化,例如 (\mathcal{I}_i(\tau)) 在初期传播阶段的效应峰值。
  • 工具:使用 Python 的 seaborn 库绘制热力图。
  • 示例:若 (\mathcal{I}_i(\tau)) 在2月18日的因果效应最高,则对应格子颜色最深,表明影响力在该时间点对传播的驱动作用最强。

3. 模型性能对比图(Model Performance Comparison Plot)

  • 目标:展示模型在交叉验证和指标评估中的性能。
  • 设计
    • 多折线图
      • 横轴:交叉验证的折数(5折交叉验证)。
      • 纵轴:性能指标(准确率、精确率、召回率、F1 分数)。
      • 折线:不同指标用不同颜色折线表示(如蓝色为准确率,红色为精确率,绿色为召回率,橙色为 F1 分数)。
    • 柱状图:展示各指标的平均值和标准差(以误差条形式表示),突出模型的稳定性。
  • 工具:使用 Python 的 matplotlib 库绘制折线图和柱状图。
  • 示例:若模型在5折交叉验证中的准确率稳定在0.85左右,误差条较小,则表明模型预测性能可靠。

4. 因果一致性对比图(Causal Consistency Comparison Plot)

  • 目标:展示模型估计的因果效应与实际数据或专家知识的一致性。
  • 设计
    • 散点图
      • 横轴:模型估计的因果效应(如 (\text{ACE}_{i \to j}(\tau)))。
      • 纵轴:实际数据中观测到的因果效应(通过历史数据统计,例如高影响力用户传播的实际比例)。
      • 点分布:每个点代表一个因果关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)) 在某时间点的效应),点的颜色区分不同变量。
    • 对角线:绘制 (y=x) 的对角线,若点分布靠近对角线,则表明模型估计与实际数据高度一致。
    • 置信区间:为模型估计的因果效应添加置信区间(以误差条形式),反映估计的不确定性。
  • 工具:使用 Python 的 matplotlibseaborn 库绘制散点图。
  • 示例:若 (\mathcal{I}_i(\tau) \to S_i(\tau)) 的估计因果效应为0.6,实际数据统计为0.58,且点靠近对角线,说明模型估计与实际数据一致。

5. 动态传播速度与因果效应时间序列图(Dynamic Propagation Speed and Causal Effect Time Series Plot)

  • 目标:展示传播速度与关键因果效应的时序变化,突出因果因素如何驱动传播动态。
  • 设计
    • 双轴图
      • 左纵轴:传播速度 (V_s(\tau)),定义为单位时间内新增感染节点数,单位:节点/天。
      • 右纵轴:关键因果效应(如 (\text{ACE}_{\mathcal{I}_i \to S_i}(\tau)))。
      • 横轴:时间(2月16日至2月28日)。
    • 折线:传播速度用实线表示(如蓝色),因果效应用虚线表示(如红色)。
    • 标注:在传播速度峰值处标注对应时间点,并标记此时因果效应的大小。
  • 工具:使用 Python 的 matplotlib 库绘制双轴时间序列图。
  • 示例:若传播速度在2月20日达到峰值(100节点/天),同时 (\mathcal{I}_i(\tau)) 的因果效应为0.7,则在该点标注“峰值:2月20日,因果效应:0.7”,突出因果因素对传播速度的驱动作用。

可视化工具与实现

上述可视化均可通过 Python 实现,推荐使用的库包括:

  • networkx:用于绘制因果依赖图。
  • matplotlibseaborn:用于绘制热力图、折线图、散点图和双轴时间序列图。
  • 数据预处理:使用 pandas 处理时间序列数据和模型输出。

预期效果

通过这些可视化,我们的工作得以全面展示:

  • 因果依赖图直观揭示变量间的因果关系和依赖强度。
  • 热力图突出因果效应的时序动态。
  • 性能对比图一致性对比图验证模型的可靠性和准确性。
  • 时间序列图将因果效应与传播动态结合,体现因果因素的实际作用。

这些可视化不仅为论文读者提供了直观的理解,还为进一步分析和干预策略设计提供了数据支持。

贡献者

文件历史

Written with