[1802.01415] Big Data Analytics for Wireless and Wired Network Design: A Survey
Hadi, Mohammed S. et al. “Big Data Analytics for Wireless and Wired Network Design: A Survey.” Computer Networks 132 (2018): 180–199. Crossref. Web.
Abstract
当前,由于移动网络订户,互联网网站和在线服务的数量不断增加,世界上出现了越来越多的数据。这种趋势正在以大数据的形式迅速而多样化地发展。大数据分析可以处理大量原始数据,并提取有用的,较小尺寸的信息,供各方使用,以做出可靠的决策。
在本文中,我们对大数据分析在数据通信网络设计中可以发挥的作用进行了调查。将采用大数据分析的最新进展与网络的控制/流量层相集成,可能是构建具有完善性能和智能功能的强大数据通信网络的最佳方法。
首先,调查从介绍大数据的基本概念,框架和特征开始。
其次,我们说明采用大数据分析的主要网络设计周期。这个周期代表了统一了被调查主题的总体概念。
第三,详细回顾了当前使用大数据分析进行网络设计的学术和工业领域。
第四,我们确定了在网络设计中利用大数据分析所面临的挑战。
最后,我们重点介绍了几个未来的研究方向。
据我们所知,这是第一项针对大数据分析技术在广泛网络设计中的应用的调查。
Introduction
网络以快速,大型和多样化的方式生成流量,导致每天估计产生2.5 EB的流量[1]。 造成数据量增加的原因很多。 例如,科学实验可以生成大量数据,例如CERN的大型强子对撞机(LHC)每年可生成40 PB以上的数据[2]。 社交媒体也有其份额,用户超过10亿,平均每天花费2.5个小时,在Facebook和Twitter上喜欢,发推文,发布和分享他们的兴趣[3]。 毫无疑问,使用这种活动生成的数据会影响很多方面,例如情报,电子商务,生物医学和数据通信网络设计。 但是,利用此数据的功能并非易事。 为了适应数据爆炸,正在构建具有大量存储和处理功能的数据中心,例如:美国国家安全局(NSA)犹他州的数据中心,可以存储多达1千字节的数据[4],处理能力超过100 petaflops [5]。 由于将数据库扩展到超出处理和/或存储功能的数据量的需求不断增加,因此在计算机群集上运行的系统开始出现。 也许第一个里程碑发生在1986年6月,当时Teradata [6]在Kmart数据仓库中使用了第一个并行数据库系统(硬件和软件),其存储容量为1 TB,以保存所有业务数据并可用于关系查询和业务。 分析[7,8]。 其他示例包括威斯康星大学的Gamma系统[9]和东京大学的GRACE系统[10]。
鉴于上述情况,术语“大数据”应运而生,可以定义为高容量,高速度和高多样性数据,这些数据为进行具有成本效益的决策和通过高级处理提供增强的洞察力提供了大量机会 从数据中提取信息和知识[11]。 定义大数据的另一种方法是说,以有效,简便的方式存储,管理和处理的数据量超出了传统技术的能力[12]。 大数据已经被像Google和Amazon这样的数字化公司雇用,以帮助这些公司进行数据驱动的决策[13]。 它还有助于智慧城市和校园的发展[14],以及农业,医疗保健,金融[15]和交通运输[16]等其他领域的发展。 大数据具有以下特点:
- 1-Volume:这是数据大小的表示[17]。
- 2-多样性:从各种来源生成数据会导致多种数据类型。 这些数据类型可以是结构化的(例如电子邮件),半结构化的(例如来自网页的日志文件数据); 非结构化(例如客户反馈)以及混合数据[18]。
- 3-Velocity:表示数据在生成,流式传输和聚合时的速度[19]。 它也可以指为了保持相关性而必须分析数据的速度[17]。
根据研究领域和问题空间,可以添加其他术语或Vs。
例如,此数据是否有价值? 我们可以认为这是准确有效的数据多长时间?
由于我们正在进行一项调查,因此我们迫切需要简要介绍其他V。
通常,一张论文中分析的Vs的数量是3到7(例如6V + C [20]),其中C表示复杂度,但是,不同的论文分析了不同的Vs集以及所有分析的Vs的并集(和) 如表1所示,在所有被调查的论文中,8V和C是8V。
- 4-价值:是决策制定时数据有用性的一种度量,或者是所收集的数据为预期的过程,活动或预测性分析/假设带来的附加值[21]。
- 5-准确性:是指所收集数据的真实性和可信赖性,以防止未经授权的访问和操纵[21,22]。
- 6-波动性:表明仍然可以认为数据有效的期限以及应将数据保存和存储多长时间[23]。
- 7-有效性:这可能与真实性相似;但是,不同之处在于有效性涉及预期用途的数据准确性和正确性。因此,某些数据可能对某个应用程序有效,但对另一应用程序无效。
- 8-可变性:这是指数据不一致。这是由于大量的分布式自治数据源[24]。其他研究人员将可变性称为随时间变化的数据一致性[22]。
- 9-复杂度:衡量大数据中相互依存和相互联系的程度[20]。这样,由于很小的变化会在整个系统中引起波动,因此系统可能会产生(实质性,低或无)影响[19]。
同样,可以根据数据的关系,相关性和连通性来考虑复杂性。它可以在多个数据链接和层次结构方面进一步体现。
但是,复杂性及其提到的属性可以帮助更好地组织大数据。应当指出,复杂性包括在[20]中的大数据属性(Vs)中,其中大数据的特征是具有6V +复杂性。这就是我们将其安排在表1中的方式。
从大数据中提取隐藏的,有价值的模式和有用信息的过程称为大数据分析[44]。 这是通过对大型数据集应用高级分析技术来完成的[28]。 在开始分析过程之前,数据集可能包含某些影响其质量的一致性和冗余性问题。 这些问题是由于数据来源多种多样而引起的。 数据预处理技术用于解决这些问题。 这些技术包括集成,清理(或清理)和冗余消除,作者在[39]中对其进行了讨论。
可以使用许多框架(如下所示)执行大数据分析,这些框架通常需要专门用于此目的的可升级集群[17]。但是,即使可以使用许多商用服务器来组成集群[45],对于希望分析其数据的预算有限的用户来说,这仍然是一个障碍。解决方案通过计算的民主化提出。这使任何规模的公司和企业所有者都可以使用云计算平台进行大数据分析,以分析其数据。因此,大数据分析的使用不仅限于企业级公司。此外,企业所有者不必在昂贵的专用于分析其数据的硬件上进行大量投资[1]。亚马逊是为其客户提供“云计算”大数据分析的公司之一。该服务称为Amazon EMR(Elastic MapReduce),它使用户能够以按需付费的方式以相当低的成本在云中处理其数据。用户能够缩小或扩展计算集群的大小,以控制处理的数据量和响应时间[1,46]
与之相比,可以从网络中收集到的大量数据以及分布式现代高性能计算平台可以带来新的具有成本效益的设计空间(例如,通过采用动态虚拟网络拓扑适应来降低总体拥有成本) 到经典方法(即静态虚拟网络拓扑)[59]。 这种新的模式有望将网络从无形的数据管转变为具有洞察力的上下文感知网络。
我们在本文中的贡献如下:
- 1-我们在本文中展示了大数据分析在无线和有线网络设计中可以发挥的作用。
- 2-通过第2节中的案例研究证实了上述作用。
- 3-本文的意义在于通过了解最新技术并确定机遇,以及在网络设计中使用大数据分析所面临的挑战,帮助学术研究人员节省大量精力。
- 4-除了学术方法外,我们还对网络设备制造公司进行了调查,重点介绍了基于大数据分析的网络解决方案。 我们还确定了这些解决方案中共同感兴趣的领域,因此,本次调查可以使学术和工业领域的读者受益。
- 5-如第8节所示,本文提供了对潜在研究方向的见解。
本文的组织如下:
第2节
介绍了一些案例研究,这些案例研究在无线和有线网络中使用大数据分析。
第3-6节
说明了分别在蜂窝,SDN和内部数据中心,光网络和网络安全领域中采用大数据分析的方向进行的研究。
第7节
总结了行业提供的一些主要的基于大数据的网络解决方案。
第8节
讨论了基于大数据分析的网络设计周期,并重点介绍了在大数据驱动的网络设计中遇到的挑战。
第9节
提出了未来研究的开放方向。
第10节
得出结论。