Survey of wireless big data | SpringerLink
Qian, L., Zhu, J. & Zhang, S. Survey of wireless big data. J. Commun. Inf. Netw. 2, 1–18 (2017). https://doi.org/10.1007/s41650-017-0001-2
无线大数据描述了由无线设备和用户在无线网络中生成,收集和存储的大量海量数据。 尽管这些数据与传统大数据具有某些共同的属性,但它们具有自己的独特特征,并为学术研究和实际应用提供了众多优势。
本文回顾了无线大数据领域的最新进展和趋势。 由于篇幅所限,本次调查并非旨在涵盖该领域的所有方面,而是着重于数据辅助传输,数据驱动的网络优化和新颖的应用。
预期该调查将帮助读者更好地理解这一激动人心的新兴研究领域。
此外,还确定了未解决的问题和有希望的未来方向。
Introduction
无线大数据描述了具有高科技和智能价值的各种数据集,就像迄今为止其他领域的大数据所证明的那样。
例如,无线信令数据可以描述网络部署和服务质量。通话细节记录可以揭示用户之间的社交网络结构以及用户的行为。时空位置数据可以帮助潜在的商业发展。
以上示例仅代表最近促使研究界研究无线大数据的理论和方法的众多案例中的少数案例。
在过去的几年中,世界各地的研究人员发表了许多有趣的著作,包括对用于城市交通分析和规划的大数据的新颖见解,使用海量数据集的无线网络优化,无线用户行为建模等。
此外,中国国家自然科学基金委员会已经启动了三个为期五年的无线大数据研究项目,旨在对这一领域中的某些(甚至不是全部)主题进行深入了解。
在过去几年中,与此同时出现的几项并行发展刺激了朝着这个方向发展的戏剧性趋势。
首先,电信运营商中数据采集的计算机化导致了有关用户行为和网络行为的大型数据库的出现。
其次,大数据在其他领域的研究成功与日俱增,这鼓励我们研究与无线相关的大数据分析,以试图促进传输并优化网络性能。
最后,当前的5G和未来的无线通信所面临的挑战促使我们寻求创新的解决方案,例如探索计算维度或统一计算和通信。
尽管计算机科学领域的进步,尤其是数据挖掘和机器学习领域的进步,已经带来了大数据研究的许多成功案例,例如Google或iFLYTEK等公司提供的新应用程序和服务,但无线大数据研究仍然存在许多挑战。例如,无线信道的随机性和相关的调制/解调以及无线用户的行为会创建非常动态的数据集。
该领域中已经有针对特定主题的评论论文。
参考文献中的作者[1]总结了基于手机数据集的分析,包括可以用这些数据构建的社交网络,个人流动性研究,地理分区,城市规划,促进发展以及安全和隐私问题。
参考文献中的作者[2]通过详细审查方法和算法并在相同问题上比较现有结果,对GPS挖掘出的移动性模式进行了专门而全面的调查,从而为研究提供了一个总体视角。
这项调查旨在介绍和讨论无线大数据的最新进展,包括基本概念和符号,数据收集和存储,传输技术以及与网络层相关的主题和应用。但是,由于篇幅所限,本次调查并未涵盖所有重要主题,我们仍将尽最大努力为读者提供无线大数据的综合研究框架。
本次调查的内容如图1所示。
我们将内容分为四层:数据层,传输层,网络层和应用层,从下到上。
在数据层中,我们首先介绍有关无线大数据的两个现有概念,并提出面向目的的表示法。此后,我们讨论数据收集技术,数据模型和数据分析。
在传输层中,回顾了频谱大数据和使用数据分析的多用户访问方面的进展。
在网络层中,我们选择最关注的三个主题:网络体系结构设计,流量分析和网络规划。但是,我们忽略了诸如数据驱动的切换机制之类的主题。
在应用程序层中,有很多富有成果的工作,因此我们分别从物理空间域和逻辑社交域中选取了两个关键方面,即用户移动性分析和社交网络分析。此外,我们还将讨论三个潜在的应用领域:智能电网,物联网(IoT)和无人机/无人机(UAV)。
本文的其余部分安排如下。
第2节介绍了无线大数据的某些概念和类别,然后回顾了数据收集,数据模型和数据分析。
第3节介绍了两个与无线传输相关的主题。
第4节介绍了与无线网络层相关的体系结构设计,流量分析和网络优化。
第5节概述了无线大数据应用程序的五个关键方面。
第6节讨论了无线大数据的隐私和安全性。
第7节讨论了结论和未解决的问题。
Data layer related
在本节中,我们首先讨论无线大数据的概念,然后介绍数据收集,模型和分析。
Concepts and categories
具体而精确的定义始终是了解我们的世界的第一步。但是,对于无线大数据,我们尚未建立公认的概念。因此,有必要首先回顾大数据的定义。
到目前为止,我们已经熟悉了大数据的4V:容量,速度,多样性和准确性,它们从数据集的大小,数据输入和输出的速度,数据类型和源的范围以及数据的质量来评估大数据。
然而,尽管具有所有这些特征,无线大数据通常被认为是现有通信和网络系统无法在持久的时间内传输,访问,处理和提供服务的数据集。
从电信运营商的角度来看,数据主要来自以下三个方面[3]:IT系统中的数据:用户属性,业务消费信息,终端信息等。此外,这些数据是从CRM(客户关系)中收集的管理),计费系统和终端自助注册平台。可以根据这些数据描述基本的用户肖像和特征。接入网和核心网中的数据:移动信令,DPI,M2M数据等。当客户端使用语音,SMS或网络服务时,这些数据在有线/无线网络中收集。数据的基础结构很复杂,因此需要针对不同类型的数据进行有针对性的分析和处理,以实现基于场景的用户位置和偏好描述。运营商Internet应用程序中的数据:在线营业厅数据,掌上营业数据,机翼支付数据等。所有数据(包括用户访问模式,地址,时间,业务偏好,投资和消费习惯)都完全保留在后台可以轻松获得的应用程序。
张等。[4] 主要从潜在应用的角度将移动蜂窝网络中的数据分为流量记录数据,网络性能数据,移动终端数据和其他数据。
首先,蜂窝网络中的流记录数据可能是描述无线用户行为的最重要数据,包括XDR(呼叫/交易详细记录)形式的数据记录和信令记录,并包含数据期间的主要属性 连接会话。
其次,如前所述,网络性能数据旨在评估提供给无线用户的网络性能和服务质量,主要包括KPI(关键性能指标)数据和MR(测量报告);包含信息的统计数据报告。 关于频道质量)。
最后,可以通过移动应用程序收集移动终端数据,其中包含设备信息,无线参数等。
在这项调查中,从网络社会生态学的角度,我们将无线大数据进一步分为三类:原始无线大数据,派生无线大数据,开发无线大数据。
首先,原始无线大数据表示由无线/移动通信服务的大量无线用户生成的数据集,其中包括无线访问行为,无线应用需求等。
第二,导出的无线大数据表示频谱,传输,访问和开发和生产网络数据以为无线用户提供有效的通信服务。这些数据包括频谱利用率的分布,超密集部署的小区的空间统计以及传输信号的资源分配。
最后,开发无线大数据意味着在测试和评估未知频谱的性能,新颖的传输技术,创新的接入和革命性的网络结构过程中生成的数据集。
在这里,我们指出,无线大数据也可以根据其特定领域进行分类,包括蜂窝网络,Wi-Fi热点和智能手机D2D,智能电网,无线传感器网络,物联网等。
Data collection
从某种意义上讲,数据收集是一个面向工程的问题,尽管其目的不是用于无线大数据研究,但它主要涉及电信运营商。 但是,有关该主题的一些研究成果最近已经发布。
针对复杂室内工业环境中实时大数据的采集挑战[5],提出了一种基于室内WSN的RTBDG(实时大数据采集)算法,传感器节点可以对采集到的数据进行筛选。 根据环境和设备的风险分析要求,可以广泛应用于不同工业运营中的风险分析。
该主题的另一个有趣之处是基于压缩感知[6]。 作者试图解决无线传感器节点中能量不足的问题,并提出了一种基于压缩感知的收集框架,以在保持数据质量的同时最大程度地减少收集量。
Data model
应用随机矩阵理论模型来表示从多个来源收集的不同数量的数据。在参考文献中[7],研究了基于随机矩阵理论和移动蜂窝网络中机器学习的大数据分析统一数据模型。为了说明基于随机矩阵理论的大数据分析的性能,已经提出了一些数据类型的示例,例如大信号数据,大交通数据,大位置数据,大无线电波形数据和大异构数据,其中利用时空数据集的维数,解决大数据与移动蜂窝网络之间的相互关系和独特特征。此外,在参考[8],大规模随机矩阵被引入作为构建模块,以对由大规模MIMO(多输入多输出)系统收集的海量大数据进行建模,并转发给基站进行处理和存储。该模型适用于分布式频谱感知和网络监控。配备USRP(通用软件无线电外围设备)的软件定义的无线电平台,用于模拟基站中的天线并演示CPU中的数据处理。
大规模数据和异构数据可能分别是无线大数据的多样性和准确性,它们的独特特性。 基于这些特征,提出了各种数据类型,例如非结构化数据,半结构化数据和结构化数据。 参考文献中的作者 [9]介绍了一个统一的张量模型来表示从多个来源生成的数据。 基于张量扩展运算符,不同的数据类型以次张量的形式表示并处理为统一的张量。 使用上述模型,描述了一种用于降低大数据维数的增量式高阶奇异值分解方法。 此外,以智能交通为例,验证了数据表示模型和增量降维方法的性能,可以看出该模型可以作为数据表示的大数据系统模型来实现。
参考文献中的作者 [10]基于从覆盖近700万人的2G / 3G / 4G网络中收集的真实数据流量,引入了针对大移动数据的移动性分析框架。 为了构建用户的历史轨迹,作者应用了不同的规则从不同的数据源中提取用户位置,并减少了蜂窝塔之间的振荡。
参考资料中提供了各种格式的非结构化数据。 [11],它们被描述为一种大数据表示形式,例如文档,多媒体,电子邮件,博客,网站,文本内容等。提出了一种具有NOSQ模式的“分析即服务”工具,用于数据挖掘和 提取存储在数据中的信息。 这些工具还可以用于文本内容,例如基于标签的文件(例如HTML,XML等)和基于非标签的文档(例如PDF)。 然后执行一系列的先导测试以验证所提出的工具。
Data analytics
面对时空维度上的海量数据集,需要更强大的分析理论和方法才能获得新颖的见解。 在本节中,我们将讨论几种常用的技术,包括时间序列分析,机器学习和博弈论框架。
无线大数据具有时空维度,但时态分析也可以在交通模式识别或交通建模中获得重要发现。 参考文献中的作者 [12]使用时间序列分析来分解规则和随机成分,然后使用时间序列预测来预测基于规则性成分的交通模式,这显示出很高的可预测性。 这项工作为使用时序分析简化无线网络中的时序数据提供了一种新颖的方法。
近几十年来,机器学习的发展[13],尤其是深度学习[14],已大大改善了许多领域的建模和预测性能。 它是基于人工神经网络开发的,主要基于人脑,统计学和应用数学的知识。 深度学习[15]作为机器学习算法的一个分支,尝试通过使用多层神经元和多个非线性变换[16]来对高级数据表示进行建模,以进行大数据分析。 它允许计算机通过构建更深的神经网络,从更简单的概念中构建复杂的概念。
最近,随着深度学习模型中层数的增加,当它基于大数据构建时,它已成为最受欢迎和功能最强大的工具。 此外,由于功能更强大的计算机和更大的数据集,对更深层次的网络的训练变得更快,更容易。 模型的网络层越深,模型表示原始数据的能力就越大。 这将导致更好的模型性能。 尽管近年来已经取得了很多成功,特别是在使用深度学习的计算机视觉和自动语音识别方面,但是如何设计用于分析无线大数据的深度学习模型仍有待深入研究。
机器学习和深度学习已经在许多其他领域证明了它的力量,参考文献的作者。 [17]将深度学习和Apache Spark纳入了无线通信领域。 他们提出了基于Apache Spark的可扩展学习框架,该框架可以支持分布式深度学习。 通过使用包含数百万条记录的现实世界数据集,此框架展示了其加速效果。 在参考文献中 [18],作者专注于电信运营商深切关注的电话变化预测问题,并验证了四种预测模型的性能:逻辑回归,随机森林,SVM(支持向量机)和E-BP(增强后退) 传播)神经网络,在三种情况下。
考虑无线大数据的网络管理和控制问题时,博弈论分析可能是分析多个对象(无论是网络节点还是终端节点)之间交互的强大工具。 参考文献中的作者 [19]提出了一种基于多重认知主体的分治网络管理和控制架构,并提出了马尔可夫博弈论建模框架。 此外,他们专注于状态空间的构造,状态转换计算以及并行Q学习技术的融合,这为无线大数据网络提供了一种合适且有效的建模工具,以及各种学习技术。
Conclusion and open problems
无线通信系统(例如5G)的发展开创了无线大数据的新时代。可靠且低成本的传感器的普及,社交网络的发展以及诸如无人机和智能交通系统之类的自主系统的发展,进一步放大了这一趋势。
为了完全理解新兴的无线大数据,这里针对不同通信层的变化以及对各种重要应用的影响进行了调查。确定了挑战和机遇,这项调查可以作为无线大数据令人兴奋的新研究方向的起点。
无线大数据研究存在许多开放性问题。
首先,从电气工程的角度来看,如何整合无线大数据的内在本质,以及从计算机科学的角度来看,如何融合机器学习和数据挖掘的力量是未来的挑战。我们可能依靠信息论,随机矩阵论或其他理论工具来描述和建模无线信道的随机和非平稳性质所带来的相应性质。
其次,下一代通信系统可以为聚集的大量用户提供服务,并且它们之间的传输内容可能无法建模为独立的。此后,如何对这种依赖性进行建模并使用这种依赖性来提高传输效率可能是一个非常有趣的话题。在这里,大数据辅助计算和预测技术将在协助通信研究中发挥重要作用。