引言
在社交媒体网络中,误信息的传播是一个复杂的动态过程,同时受到网络结构、用户行为和时间因素的影响。传统模型如独立级联模型(Independent Cascade Model, IC)和线性阈值模型(Linear Threshold Model, LT),在静态网络中表现出较强的预测能力,但均未能充分捕捉传播的动态演化特性及因果机制。为此,我们提出了一种动态网络因果推断模型(Dynamic Network Causal Inference Model, DNCIM),旨在通过融合时变网络结构、用户行为特征及因果推断技术,全面分析误信息传播的时间演化与因果关系。
符号体系
符号名称 | 符号 | 描述 |
---|---|---|
网络结构 | 时间 | |
时间变量 | 时间变量, | |
节点状态 | 节点 | |
传播概率 | 时间 | |
恢复概率 | 节点 | |
传播延迟 | 节点 | |
传播路径集合 | 时间 | |
传播速度 | 时间 | |
行为特征向量 | 节点 | |
影响力指标 | 节点 | |
因果效应 | 节点 |
模型假设
为构建动态网络因果推断模型,我们提出以下假设:
- 网络动态性:网络结构
随时间 演化,反映用户关系的动态变化。 - 用户行为异质性:用户行为
和影响力 随时间变化,影响传播概率 。 - 因果依赖:误信息的传播具有因果依赖性,即某些节点的感染状态会直接或间接影响其他节点的感染状态。
- 传播路径可追溯:通过记录传播事件的时间戳和来源,可构建传播路径树。
建模&求解流程
数据收集
为支持动态网络因果推断模型的构建,我们收集了以下数据:
数据类型 | 描述 | 用途 |
---|---|---|
网络结构数据 | 用户之间的连接关系(如关注、粉丝),随时间变化 | 用于构建动态网络结构 |
传播行为数据 | 用户发布、转发、评论等行为的时间序列数据 | 追踪传播路径 |
内容数据 | 误信息帖子的具体内容(如文本、图像、视频) | 识别误信息特征,标注状态 |
元数据 | 用户属性(如 | 分析行为特征与传播概率 |
数据来源
通过社交媒体API(X API、Weibo API)以及公开数据集(SNAP)获取。
Paper Writing
我们系统地收集了以下数据以支持模型的理论框架和实证分析:
首先,我们获取了网络结构数据,包括用户间的关注和粉丝关系(随时间变化),以构建动态网络
其次,我们收集了传播行为数据,涵盖用户发布、转发和评论的时间序列记录,用于追踪传播路径
第三,我们提取了内容数据,包括误信息帖子的文本、图像和视频内容,以识别误信息特征并标注感染状态
最后,我们收集了元数据,包括用户行为特征
其中:
- 行为特征
: 我们通过聚合函数 从用户发帖数 和互动数 (即评论和转发)计算: - 影响力指标
: 我们使用PageRank算法计算用户 在时间 的网络影响力:
![[用户行为-影响力关联特征与群体异质性分析 2.png]]
图a显示行为指数(
数据均通过社交媒体API(X API、Weibo API)及公开数据集(SNAP)获取,确保了数据的多样性与可靠性。
数据预处理
• 数据清洗:去除重复、缺失或无关数据,确保数据完整性。 • 数据整合:将网络结构和行为数据构建为动态网络
Paper Writing
为确保模型的分析精度,我们对数据进行了以下预处理: ![[e0e5d674b014d89fbce046581a3cbb5.png]] 首先,我们进行了数据清洗,去除了数据中的重复项和缺失值 ,并剔除无关数据
其次,我们进行了数据整合,将网络结构和行为数据映射为动态网络
第三,我们开展了特征提取,从元数据中提取行为特征
第四,我们进行了误信息标注,通过已知误信息数据集与人工标注,定义了初始误信息状态 $$\mathcal{S}i(0) \gets \text{label}(c_i, \underbrace{\mathcal{M}})$$ 最后,我们通过时间戳映射 $$\text{align}(\mathcal{D}, \tau) \gets {d_i \mid t_i \mapsto \tau}$$,确保所有数据在时间轴
子问题建模
子问题1:时间演化(误信息如何随时间在网络中传播?传播路径和速度如何变化?)
本节聚焦于误信息的动态传播过程,旨在揭示误信息如何随时间在网络中传播,以及传播路径和速度的演化规律。我们基于SIR模型构建误信息传播的动态框架,通过量化传播概率和恢复概率,分析2025年2月16日至2月28日期间的一次误信息传播事件(图2),为后续的传播干预和模型验证提供理论基础。 ![[Pasted image 20250327210818.png]] 我们将网络结构构建为时变图
表示用户
节点
其中
传播概率
其中
基于此,节点
该公式量化节点
恢复概率
其中
其中
指标名称 | 数值 | 计算关系 |
---|---|---|
总实际传播路径 | 29,226 | 共同路径 + 仅实际路径 |
总模型预测路径 | 32,958 | 共同路径 + 仅模型路径 |
共同传播路径 | 26,993 | - |
仅实际传播路径 | 2,233 | 总实际 - 共同路径 |
仅模型预测路径 | 5,965 | 总预测 - 共同路径 |
预测准确率 | 92.36% | 共同路径 / 总实际路径 |
基于图中的时序对比数据(
误差分布呈现显著时间依赖性,其标准差
我们通过Jaccard相似系数量化路径重叠度:
该结果与图1的路径统计一致,其中:
- 总实际传播路径:
- 模型预测路径:
- 共同路径占比:
评估维度 | 指标值 | 置信区间(95%) | 统计显著性(p-value) |
---|---|---|---|
节点数量预测 | MSE=184.7 | [162.3, 207.1] | <0.01 |
传播路径匹配 | Jaccard=0.816 | [0.792, 0.840] | 0.003 |
拓扑结构还原度 | [0.883, 0.919] | 0.008 |
结论:
- 模型在路径还原方面表现优异(Jaccard>0.8),但在高活跃节点密集时段(
)出现系统性偏差 - 过预测现象显著:模型预测路径总数超出实际值
( vs ) - 可靠性阈值验证:当核心节点影响力
时,预测准确率下降至 (KS检验 )
传播速度时间序列图: ![[传播速度时间序列图.png]]
子问题2:因果关系(哪些因素驱动误信息的传播?是否存在因果依赖?)
本节聚焦于识别和量化驱动误信息传播的因果因素,探究这些因素之间的潜在因果依赖关系。通过构建时序因果图模型,系统分析用户行为特征、影响力指标以及网络拓扑特征对误信息传播状态的因果影响。基于此,本节首先定义关键因果变量,随后通过线性结构方程模型量化因果效应,并采用路径分析和条件独立性测试进一步揭示变量间的因果依赖结构。最终,通过模型验证和结果展示,为误信息传播的因果机制提供理论支持,为后续干预策略设计奠定基础。
本节采用以下核心变量构建因果分析框架:
网络拓扑特征: • 节点度:
行为特征: • 用户活跃度:
影响力指标: • 节点影响力:
传播状态: • 感染状态:
我们假设误信息传播状态
为简化分析,我们用线性模型近似因果关系:
为了量化特定变量的因果效应,我们使用平均因果效应 (ACE) 定义:
我们使用最大似然估计法对模型参数
为确保因果模型的可靠性和预测能力,我们设计了多层次的验证流程,以评估模型在捕捉误信息传播因果关系方面的表现。具体验证步骤如下:
交叉验证:我们采用 (k)-折交叉验证方法((k=5)),将数据集划分为训练集和测试集,分别占80%和20%的比例。通过在训练集上拟合模型参数(如线性结构方程中的权重 (\alpha_0) 至 (\alpha_5)),并在测试集上预测节点 (i) 的传播状态 (S_i(\tau)),我们评估模型在未见数据上的泛化能力。交叉验证的结果通过平均预测误差(例如均方误差,MSE)量化,确保模型在不同数据子集上的稳定性。
指标评估:为全面衡量模型性能,我们计算以下分类指标:
- 准确率(Accuracy):衡量模型预测传播状态 (S_i(\tau)) 的总体正确率,定义为 (\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}),其中 (\text{TP})、(\text{TN})、(\text{FP})、(\text{FN}) 分别表示真阳性、真阴性、假阳性和假阴性。
- 精确率(Precision):衡量模型在预测为传播状态时的正确率,定义为 (\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}),以评估误报率。
- 召回率(Recall):衡量模型对实际传播状态的捕捉能力,定义为 (\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}),以评估漏报率。
此外,我们计算 F1 分数((\text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}))作为精确率和召回率的调和平均值,以综合衡量模型的分类性能。
因果一致性检验:为验证模型估计的因果效应是否符合实际情况,我们将模型输出的因果关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)) 的因果效应)与以下两方面进行对比:
- 实际数据对比:利用2025年2月16日至2月28日期间的真实传播事件数据,检查模型预测的因果效应是否与观测到的传播模式一致。例如,若模型估计影响力 (\mathcal{I}_i(\tau)) 对传播有显著正向效应,则应在数据中观察到高影响力用户更易引发传播的证据。
- 领域专家知识对比:参考社交网络传播领域的专家知识(如高影响力用户往往是传播关键节点的共识),验证模型结果是否与已知规律相符。若模型预测与专家知识存在偏差,则通过调整模型参数或引入额外变量(如内容特征)进一步优化模型。
此外,我们采用置信区间分析(基于参数估计的标准误)量化因果效应的不确定性,确保估计结果的统计显著性((p < 0.05))。
可视化设计:体现因果关系建模与分析的工作
为了直观展示子问题二中因果关系建模与分析的工作成果,我们设计了以下可视化方案,旨在突出因果路径、因果效应、模型性能以及因果依赖的动态变化。这些可视化不仅能够清晰呈现模型的核心发现,还能为读者提供直观的理解和进一步分析的依据。我们基于2025年2月16日至2月28日的误信息传播数据,结合模型输出,设计以下四类可视化:
1. 因果依赖图(Causal Dependency Graph)
- 目标:展示变量之间的因果依赖关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)))。
- 设计:
- 图结构:使用有向图表示因果关系,节点表示变量(如 (S_i(\tau))、(\mathcal{B}_i(\tau))、(\mathcal{I}_i(\tau))、(d_i(\tau))、(c_i(\tau))),有向边表示因果方向。
- 边权重:边的粗细或颜色深浅反映因果效应的大小(通过线性结构方程模型估计的权重 (\alpha_1, \alpha_2, \alpha_3, \alpha_4, \alpha_5))。
- 标注:在边上标注互信息值(如 (\text{MI}(\mathcal{I}_i(\tau), S_i(\tau)))),以量化变量间的依赖强度。
- 工具:使用 Python 的
networkx
库绘制有向图,结合matplotlib
进行可视化。 - 示例:若模型估计 (\mathcal{I}_i(\tau)) 对 (S_i(\tau)) 的因果效应最大,则从 (\mathcal{I}_i(\tau)) 到 (S_i(\tau)) 的边最粗,颜色最深。
2. 因果效应热力图(Causal Effect Heatmap)
- 目标:展示不同变量对误信息传播状态 (S_i(\tau)) 的因果效应(ACE)在时间维度上的变化。
- 设计:
- 矩阵结构:横轴为时间点(2月16日至2月28日,每天一个点),纵轴为因果变量((\mathcal{B}_i(\tau))、(\mathcal{I}_i(\tau))、(d_i(\tau))、(c_i(\tau)))。
- 颜色编码:每个格子用颜色表示平均因果效应(ACE)的大小,颜色从浅到深(如浅蓝到深红)表示效应从低到高。
- 标注:在关键时间点标注显著变化,例如 (\mathcal{I}_i(\tau)) 在初期传播阶段的效应峰值。
- 工具:使用 Python 的
seaborn
库绘制热力图。 - 示例:若 (\mathcal{I}_i(\tau)) 在2月18日的因果效应最高,则对应格子颜色最深,表明影响力在该时间点对传播的驱动作用最强。
3. 模型性能对比图(Model Performance Comparison Plot)
- 目标:展示模型在交叉验证和指标评估中的性能。
- 设计:
- 多折线图:
- 横轴:交叉验证的折数(5折交叉验证)。
- 纵轴:性能指标(准确率、精确率、召回率、F1 分数)。
- 折线:不同指标用不同颜色折线表示(如蓝色为准确率,红色为精确率,绿色为召回率,橙色为 F1 分数)。
- 柱状图:展示各指标的平均值和标准差(以误差条形式表示),突出模型的稳定性。
- 多折线图:
- 工具:使用 Python 的
matplotlib
库绘制折线图和柱状图。 - 示例:若模型在5折交叉验证中的准确率稳定在0.85左右,误差条较小,则表明模型预测性能可靠。
4. 因果一致性对比图(Causal Consistency Comparison Plot)
- 目标:展示模型估计的因果效应与实际数据或专家知识的一致性。
- 设计:
- 散点图:
- 横轴:模型估计的因果效应(如 (\text{ACE}_{i \to j}(\tau)))。
- 纵轴:实际数据中观测到的因果效应(通过历史数据统计,例如高影响力用户传播的实际比例)。
- 点分布:每个点代表一个因果关系(如 (\mathcal{I}_i(\tau) \to S_i(\tau)) 在某时间点的效应),点的颜色区分不同变量。
- 对角线:绘制 (y=x) 的对角线,若点分布靠近对角线,则表明模型估计与实际数据高度一致。
- 置信区间:为模型估计的因果效应添加置信区间(以误差条形式),反映估计的不确定性。
- 散点图:
- 工具:使用 Python 的
matplotlib
和seaborn
库绘制散点图。 - 示例:若 (\mathcal{I}_i(\tau) \to S_i(\tau)) 的估计因果效应为0.6,实际数据统计为0.58,且点靠近对角线,说明模型估计与实际数据一致。
5. 动态传播速度与因果效应时间序列图(Dynamic Propagation Speed and Causal Effect Time Series Plot)
- 目标:展示传播速度与关键因果效应的时序变化,突出因果因素如何驱动传播动态。
- 设计:
- 双轴图:
- 左纵轴:传播速度 (V_s(\tau)),定义为单位时间内新增感染节点数,单位:节点/天。
- 右纵轴:关键因果效应(如 (\text{ACE}_{\mathcal{I}_i \to S_i}(\tau)))。
- 横轴:时间(2月16日至2月28日)。
- 折线:传播速度用实线表示(如蓝色),因果效应用虚线表示(如红色)。
- 标注:在传播速度峰值处标注对应时间点,并标记此时因果效应的大小。
- 双轴图:
- 工具:使用 Python 的
matplotlib
库绘制双轴时间序列图。 - 示例:若传播速度在2月20日达到峰值(100节点/天),同时 (\mathcal{I}_i(\tau)) 的因果效应为0.7,则在该点标注“峰值:2月20日,因果效应:0.7”,突出因果因素对传播速度的驱动作用。
可视化工具与实现
上述可视化均可通过 Python 实现,推荐使用的库包括:
networkx
:用于绘制因果依赖图。matplotlib
和seaborn
:用于绘制热力图、折线图、散点图和双轴时间序列图。- 数据预处理:使用
pandas
处理时间序列数据和模型输出。
预期效果
通过这些可视化,我们的工作得以全面展示:
- 因果依赖图直观揭示变量间的因果关系和依赖强度。
- 热力图突出因果效应的时序动态。
- 性能对比图和一致性对比图验证模型的可靠性和准确性。
- 时间序列图将因果效应与传播动态结合,体现因果因素的实际作用。
这些可视化不仅为论文读者提供了直观的理解,还为进一步分析和干预策略设计提供了数据支持。