Skaldheim

字数

1927 字

阅读时间

8 分钟

建模方案：误信息传播中的因果关系及其驱动因素

引言

在社交媒体网络中，误信息的传播是一个复杂的动态过程，受到用户行为、节点影响力等多种因素的驱动。传统传播模型，如独立级联模型（Independent Cascade Model, IC）和线性阈值模型（Linear Threshold Model, LT），在模拟传播路径和速度方面表现高效，但未能深入揭示传播背后的因果机制。为此，本文提出了一种动态网络因果推断模型（Dynamic Network Causal Inference Model, DNCIM），旨在继承前人高效方法的基础上，通过融合时变网络结构、用户行为特征及因果推断技术，创新性地分析误信息传播的因果关系及其驱动因素。本模型不仅沿用了一贯的符号体系，还通过数学推导和数据驱动方法，为误信息传播的因果分析提供了理论支持与实践指导。

符号体系

为保持符号一致性并与前人关于时间演化的研究兼容，我们定义以下符号：

$G_{t} = (V, E_{t})$ : 时间 $t$ 的网络结构，其中 $V$ 为节点集（用户）， $E_{t}$ 为边集（用户间连接）。
$τ$ : 时间变量， $τ \in [0, T]$ ， $T$ 为观察时长。
$S_{i} (τ)$ : 节点 $i$ 在时间 $τ$ 的状态， $S_{i} (τ) \in {未感染, 感染, 恢复}$ 。
$P_{i j} (τ)$ : 时间 $τ$ 时，节点 $i$ 向节点 $j$ 传播误信息的概率。
$R_{i} (τ)$ : 节点 $i$ 在时间 $τ$ 的恢复概率。
$D_{i} (τ)$ : 节点 $i$ 在时间 $τ$ 的传播延迟。
$V_{p} (τ)$ : 时间 $τ$ 时，误信息的传播路径集合。
$V_{s} (τ)$ : 时间 $τ$ 时，误信息的传播速度。
$B_{i} (τ)$ : 节点 $i$ 在时间 $τ$ 的行为特征向量（如发帖频率、响应率）。
$I_{i} (τ)$ : 节点 $i$ 在时间 $τ$ 的影响力指标（如关注者数量、转发量）。
$C_{i j} (τ)$ : 节点 $i$ 和 $j$ 之间的因果效应，衡量 $i$ 对 $j$ 传播状态的影响。

上述符号体系继承了前文时间演化建模中的定义，确保了模型的一致性与可扩展性。

模型假设

网络动态性：网络结构 $G_{t}$ 随时间 $τ$ 演化，反映用户关系的动态变化。
用户行为异质性：用户行为 $B_{i} (τ)$ 和影响力 $I_{i} (τ)$ 随时间变化，影响传播概率 $P_{i j} (τ)$ 。
因果依赖：误信息的传播存在因果依赖，即某些节点的感染状态会直接或间接影响其他节点的感染状态。

建模过程

1. 网络结构与用户特征建模

网络结构 $G_{t}$ 通过时变邻接矩阵 $A (τ)$ 表示：

A (τ) = [a_{i j} (τ)], a_{i j} (τ) = {\begin{cases} 1, & 若 (i, j) \in E_{τ} \\ 0, & 否则 \end{cases}

其中， $a_{i j} (τ)$ 表示时间 $τ$ 时节点 $i$ 与 $j$ 之间的连接状态。用户行为特征 $B_{i} (τ)$ 和影响力 $I_{i} (τ)$ 可通过社交媒体数据（如发帖频率、转发量）直接提取，或通过统计模型（如时间序列分析）估计。

2. 因果推断框架

为揭示误信息传播的因果关系，我们引入结构因果模型（Structural Causal Model, SCM）：

动态因果图：构建时间依赖的因果图 $D_{τ} = (V, E_{τ}^{c})$ ，其中 $E_{τ}^{c}$ 表示因果边，反映节点间传播状态的因果依赖关系。
结构方程：节点 $i$ 的感染状态 $S_{i} (τ)$ 由其父节点 $pa (i)$ 的状态、行为特征和影响力共同决定： $S_{i} (τ) = f_{i} (S_{pa (i)} (τ - Δ τ), B_{i} (τ), I_{i} (τ), ϵ_{i} (τ))$ 其中， $f_{i}$ 为非线性结构方程， $ϵ_{i} (τ)$ 为随机噪声项， $Δ τ$ 为时间延迟。

3. 因果效应量化

平均因果效应（Average Causal Effect, ACE）：定义节点 $i$ 对节点 $j$ 传播状态的平均因果效应： $C_{i j} (τ) = E [S_{j} (τ) ∣ d o (S_{i} (τ - Δ τ) = 1)] - E [S_{j} (τ) ∣ d o (S_{i} (τ - Δ τ) = 0)]$ 其中， $d o (\cdot)$ 表示干预操作， $E [\cdot]$ 为期望算子。通过干预模拟，量化 $i$ 的感染状态对 $j$ 的直接影响。
路径特定因果效应：基于因果路径分析，分解直接效应和间接效应，识别关键传播路径。

4. 驱动因素分析

用户行为驱动：通过回归模型分析行为特征 $B_{i} (τ)$ 对传播概率 $P_{i j} (τ)$ 的影响： $P_{i j} (τ) = σ (β_{0} + β_{1} B_{i} (τ) + β_{2} I_{i} (τ) + β_{3} C_{i j} (τ))$ 其中， $σ (\cdot)$ 为sigmoid函数， $β_{k}$ 为回归系数， $C_{i j} (τ)$ 为因果效应项。
节点影响力驱动：采用PageRank算法计算 $I_{i} (τ)$ ，并通过相关性分析（如Pearson相关系数）评估其与传播速度 $V_{s} (τ)$ 的关系。

创新性与继承性

继承性：本模型沿用动态网络传播模型（DNDM）的框架，保留了传播路径 $V_{p} (τ)$ 和速度 $V_{s} (τ)$ 的高效模拟方法。
创新性：
- 因果推断集成：引入SCM和动态因果图 $D_{τ}$ ，超越传统关联分析，揭示因果机制。
- 多因素驱动分析：综合考虑 $B_{i} (τ)$ 、 $I_{i} (τ)$ 和网络结构，全面解析传播驱动因素。
- 时变因果效应：通过 $C_{i j} (τ)$ 量化因果关系的动态演化。

模型求解过程

1. 数据准备

数据来源：收集社交媒体数据，包括用户关系（ $E_{t}$ ）、行为特征（ $B_{i} (τ)$ ）和影响力指标（ $I_{i} (τ)$ ）。
预处理：构建动态网络 $G_{t}$ 和特征矩阵 $B (τ), I (τ)$ 。

2. 因果图学习

结构学习：采用PC算法从数据中推断因果图 $D_{τ}$ 的初始结构。
动态更新：根据时间 $τ$ 的变化，使用滑动窗口方法更新 $E_{τ}^{c}$ 。

3. 因果效应估计

干预分析：通过do-calculus计算 $C_{i j} (τ)$ ，模拟节点状态干预后的传播效应。
路径分解：利用路径分析工具（如mediation analysis）分离直接和间接效应。

4. 驱动因素量化

回归分析：对 $P_{i j} (τ)$ 进行logit回归，估计 $β_{k}$ 的值。
相关性分析：计算 $I_{i} (τ)$ 与 $V_{s} (τ)$ 的Spearman秩相关系数。

结论

动态网络因果推断模型（DNCIM）在继承传统模型高效性的同时，通过因果推断和多因素分析，揭示了误信息传播的因果关系及其驱动因素。模型结果表明，用户行为 $B_{i} (τ)$ 和节点影响力 $I_{i} (τ)$ 是传播的主要驱动因素，且存在显著的因果依赖。本方案为误信息治理提供了理论依据和实践指导，具有较高的学术与应用价值。

数学公式总结

因果效应： $C_{i j} (τ) = E [S_{j} (τ) ∣ d o (S_{i} (τ - Δ τ) = 1)] - E [S_{j} (τ) ∣ d o (S_{i} (τ - Δ τ) = 0)]$
传播概率： $P_{i j} (τ) = σ (β_{0} + β_{1} B_{i} (τ) + β_{2} I_{i} (τ) + β_{3} C_{i j} (τ))$
结构方程： $S_{i} (τ) = f_{i} (S_{pa (i)} (τ - Δ τ), B_{i} (τ), I_{i} (τ), ϵ_{i} (τ))$

贡献者

Tuntun Yuchiha

文件历史

最后编辑于 1 天前查看完整历史

Arduino

SMC

Literature review

Preparation

Research Question 01

Analysis of Variable Relationships

🌟 Astrophysics

​​School of Integrated Circuits

建模方案：误信息传播中的因果关系及其驱动因素 ​

引言 ​

符号体系 ​

模型假设 ​

建模过程 ​

1. 网络结构与用户特征建模 ​

2. 因果推断框架 ​

3. 因果效应量化 ​

4. 驱动因素分析 ​

创新性与继承性 ​

模型求解过程 ​

1. 数据准备 ​

2. 因果图学习 ​

3. 因果效应估计 ​

4. 驱动因素量化 ​

结论 ​

数学公式总结 ​

贡献者 ​

文件历史 ​

School of Integrated Circuits