Big Data Analytics for Large-scale Wireless Networks: Challenges and Opportunities: ACM Computing Surveys: Vol 52, No 5
Hong-Ning Dai, Raymond Chi-Wing Wong, Hao Wang, Zibin Zheng, and Athanasios V. Vasilakos. 2019. Big Data Analytics for Large-scale Wireless Networks: Challenges and Opportunities. ACM Comput. Surv. 52, 5, Article 99 (September 2019), 36 pages. DOI:https://doi.org/10.1145/3337065
Abstract
各种无线通信系统和无线设备的广泛普及已导致大数据时代进入大规模无线网络。 大规模无线网络的大数据具有多样性,高容量,实时速度和巨大价值的关键特征,从而导致与现有计算系统不同的独特研究挑战。
在本文中,我们对大型无线网络的最新大数据分析方法进行了概述。
特别是,我们将大数据分析的生命周期分为四个连续的阶段:数据采集,数据预处理,数据存储和数据分析。
然后,我们根据大数据分析生命周期的每个阶段,针对大规模无线网络的大数据分析挑战提出了技术解决方案的详细调查。
此外,我们讨论了开放的研究问题,并概述了这一有前途的领域的未来方向。
INTRODUCTION
近年来,我们已经看到了无线通信技术的激增,今天,这种无线通信技术已在全球范围内广泛使用,需要来自极端大量终端用户的填充通信。各种无线通信系统的互连在一起构成了一个大型无线网络,其中“大规模”表示网络站(或节点)的高密度和大覆盖区域。
同时,由无线网络产生的大量移动数据流量激增,无线网络由各种各样的无线设备组成,例如智能手机,移动平板电脑,笔记本电脑,RFID标签,传感器,智能仪表和智能设备。
思科预测(cis 2017)的移动数据流量将从2017年的10 EB /月(1EB = 1×1018字节)增长到2021年的49 EB /月,这表明我们正在进入一个“大数据时代”(Cui等,2016)。
本质上,大数据具有以下显着特征,称为“ 4V”,使其与其他概念区分开来,例如“超大数据”,“大数据”和“海量数据”(Zikopoulos和Eaton 2011):
(1)规模。 生成和存储的数据量(通常是指从TB到PB的数据量);
(2)品种。 数据的类型和性质(结构化,半结构化,非结构化,文本和多媒体);
(3)速度。 生成和处理数据以满足需求(例如实时)的速度。
(4)价值。 基于大数据的分析结果可以带来巨大的商业价值和社会价值。
尽管还有另外两个“ V”,即“可变性”和“准确性”(Hilbert,2016年),但我们主要使用上述四个“ V”来描述从无线网络生成的大数据。
由于存在各种类型的大规模无线网络,因此我们仅列举几个示例性网络,包括移动通信网络,车载网络,移动社交网络和物联网(IoT)。
无线设备不仅包括各种有线接口和无线接口,还包括由温度传感器,光传感器,声传感器,振动传感器,化学传感器,加速器和RFID标签组成的传感器(Wang和Liu,2011年),可在实时时尚中生成大量数据。
综上所述,从大规模无线网络生成的大数据通常具有多样性,高容量,实时速度和巨大价值的特点。
大规模无线网络中大数据的增长不仅带来了设计可扩展无线网络的挑战,而且带来了价值,这对许多领域都是有益的,例如网络运营,网络管理,网络安全,网络优化,智能交通系统,物流管理和社会行为研究。
它需要专用于大规模无线网络的大数据分析来利用这些好处。 应当收集,过滤,存储和分析从大型无线网络生成的数据,直到提取“值”为止。
Contributions
我们首先考虑及时性,相关性和质量进行全面的文献收集和分析。
第2节介绍了该研究方法。
在第3节中,我们介绍了大型无线网络的典型数据源,并讨论了大型无线网络的大数据分析必要性。
本文的核心贡献是提出了以下方面的现状:大规模无线网络中大数据分析的最新技术具有两个方面:(1)大数据分析的生命周期和(2)不同类型的无线网络。
为了给读者提供有关大数据分析程序的清晰路线图,我们介绍了大数据分析的生命周期。如图1所示,我们将大数据分析的生命周期分为四个连续的阶段:数据采集,数据预处理,数据存储和数据分析。
请注意,以上四个阶段的数据流可能不会严格进行。换句话说,从一个阶段到上一个阶段可能存在一些反向链接。例如,由于某些统计建模算法需要将当前数据与历史数据进行比较,因此数据分析阶段中的数据流可能会回到数据存储阶段。
还值得一提的是,在此阶段还有其他分类法大数据分析提出了用于其他计算系统的建议(Casado and Younas 2015; Hu et al.2014)。
在本文中,我们将大数据分析的生命周期分为上述四个阶段,因为这种分类可以准确地捕获大数据分析在大规模无线网络中的关键特征,而这些特征与其他计算系统明显不同。
接下来,我们简要描述它们如下。
- 数据采集。数据采集包括数据收集和数据传输。
特别地,数据收集涉及使用专用数据收集技术从各种数据源获取原始数据,例如,通过IoT中的RFID阅读器读取RFID标签。
然后,数据通过有线或无线网络传输到数据存储系统。
第4节 - 数据预处理。收集原始数据后,由于原始数据的大容量,重复性和不确定性特征,需要对原始数据进行预处理,然后再将其保留在数据存储系统中(Wang等人,2012)。
典型的数据预处理技术包括数据清理,数据集成和数据压缩。
第5节 - 数据存储。数据存储是指存储和管理海量数据集的过程。
我们将数据存储系统分为两层:存储基础设施和数据管理软件。
基础设施不仅包括存储设备,还包括将存储设备连接在一起的网络设备。
除了网络连接了的存储设备外,数据存储系统还需要数据管理软件。
第6节 - 数据分析。在此阶段,各种数据分析方案用于从海量数据集中提取有价值的信息。
我们将数据分析方案粗略地分为三种类型:
(i)描述性分析
(ii)预测性分析
(iii)规定性分析
第7节
值得一提的是,在上述每个阶段中,我们还考虑了不同类型的无线网络。
在第8节中,我们提出了一些开放的研究问题,并讨论了这个有前途的领域中的未来方向。
在第9节中,总结了本文。
CONCLUSION
在本文中,我们将针对大规模无线网络的大数据分析进行详细的调查。
我们首先介绍本文使用的研究方法。
然后,我们介绍几个示例性无线网络的数据源,包括移动通信网络,车载网络,移动社交网络,物联网。
接下来,我们将讨论大型无线网络在大数据分析中的必要性和挑战。 基于我们针对大型无线网络提出的大数据分析的四个阶段生命周期,我们对大数据分析挑战的现有解决方案进行了详细调查。
但是,该领域中的许多研究问题仍然悬而未决,需要进一步的努力,例如改善分布式处理模型,考虑大数据分析设计无线网络以及平衡大数据分析的性能和隐私权衡。