大数据(Big Data)是信息时代重要的资源,被称为数字经济时代的“新石油”。大数据在给各行各业带来机遇的同时,也带来很多关于计算效率、优化方法、学习算法、数据安全、隐私保护等方面的挑战。针对这些问题与挑战,我们开展了一系列相关研究。

big_data.png

Figure 1: 各种类型大数据

1. 大数据近似计算与优化

1.1. 大规模图数据采样测量方法

研究者作为第三方通常不拥有图数据,例如 Facebook 的好友网络被 Facebook 拥有,基于用户隐私和商业机密的考虑,Facebook 等数据拥有方并不愿意共享数据给第三方。在这种情况下,第三方只能利用图数据拥有者提供的 API 接口访问图数据,但是 API 往往会通过限制调用总次数或调用频率等手段使第三方无法获得完整图数据。为了分析图数据的结构特征,第三方通常只能用采样的方法采样得到一些节点和边作为样本,利用这些少量样本估计图的整体结构特征,例如通常使用的节点采样或随机游走等策略。

random_walk_sampling.png

Figure 2: 基于随机游走的大图采样方法

1.2. 大规模图数据子图模式挖掘算法

Graphlet 或 motif 指网络中由少数节点构成的且连通的子图,例如 3-节点子图、4-节点子图、5-节点子图等。这样的子图被认为是构成大规模复杂网络的最小单元,被称为图的基因。子图模式挖掘在分析复杂网络的功能方面有大量应用,例如一些生物大分子的功能由其基本子图单元决定。大规模图中由于组合爆炸会导致子图数量异常巨大,如果用穷举的方式统计,则会导致计算效率低下,因此需要探索高效的子图模式挖掘算法。

graphlets.png

Figure 3: 一种 5 节点子图数量快速估计方法

1.3. 流式数据实时处理与在线优化

网络流量等流式数据中普遍存在 Heavy Hitter、大象流、持续流等现象,与网络扫描行为、DDoS 攻击行为、APT 攻击行为等息息相关,所以实时发现高速流式数据中的 Heavy Hitter、大象流、持续流是流式数据处理中的重要研究内容。由于这些处理算法往往需要部署在交换机、路由器、IoT 设备、边缘设备等资源受限设备中,因此对算法的计算复杂度、内存占用等提出特别高的要求,需要设计了一系列轻量级、高效率的面向高速数据流的快速筛选方法。

此外,识别图中最有影响力的节点在很多实际问题中都有应用,例如在线广告投放、病毒营销等。目前的工作大都假设网络结构固定不变,但实际中网络结构可能在不断发生变化,导致昨天识别的一组最有影响力节点在今天不一定仍然有影响力。我们设计了一种动态图数据流上的最优节点识别算法,可以实时的跟踪图数据流中K个最有影响力的节点。该方法可以推广到一般数据流中的在线优化问题求解。

SSO_inf.png

Figure 4: 一种动态图流中最有影响力节点发现与跟踪方法

2. 数据挖掘与机器学习

2.1. 图数据表示学习

图表示学习通过将节点映射为向量,通过机器学习的方法解决节点标签预测、链接预测、图分类等任务。图节点的表示学习通常只利用图的结构信息,然而实际中图的节点/边往往有额外信息可以用来更好的学习节点的表示。

graph_learning.png

Figure 5: 图表示学习

2.2. 自然语言处理

开展了包括合同一致性检查、案件适用法条推荐与审判结果预测、问答系统对话策略优化、知识图谱推理、大语言模型等研究。

3. 数据安全与隐私计算

3.1. 网络监控

如何及时发现大规模网络中的攻击行为,例如通信网络中的 DDoS 攻击以及 OSN 中的 Social Bot 攻击。此外,如何选择网络中的一组最优观测节点(或者称为 Social Sensor)用来及时发现网络中的传播事件,也是网络监控需要解决的问题。

monitoring.png

Figure 6: 利用线上社交网络数据实现对线下自然社会的事件监控

3.2. 隐私计算

保障用户隐私与数据安全日益收到重视。数据拥有方的数据由于涉及机密、隐私等原因,往往不愿意公开分享与流通,例如银行账户转账数据。但是不同数据方又存在合作的意愿,例如不同银行希望合作以更好的评估个人或企业的信贷风险。如何在不泄漏数据方隐私数据的情况下实现不同数据方的合作,是隐私计算的重要研究课题。我们基于差分隐私技术和安全多方计算技术设计了一些不同数据方能够在不泄漏数据的情况下合作计算的方法。

MPC.png

Figure 7: 安全多方计算示意