[1808.00803] Mobile big data analysis with machine learning

[1808.00803] Mobile big data analysis with machine learning

ABSTRACT

本文通过讨论移动大数据挑战的见解,进行调查以识别基于机器学习的移动大数据分析的需求和发展。 此外,它回顾了移动大数据领域中数据分析的最新应用。
首先,我们介绍移动大数据发展
其次,回顾了常用的数据分析方法。 分别介绍了移动大数据分析的三个典型应用,即无线通道建模,人的在线和离线行为分析以及车辆互联网中的语音识别。
最后,我们总结了移动大数据分析的主要挑战和未来的发展方向

INTRODUCTION

随着无线局域网(WLAN)技术(aka Wi-Fi)和第二/第三/第四代(2/3 / 4G)移动网络的成功使用,移动电话数量为77.4亿,每100部中有103.5部2017年,全世界的居民数量急剧上升[1]。如今,移动电话不仅可以发送语音和文本消息,而且可以轻松便捷地访问Internet,这被认为是移动Internet(M-Internet)最具革命性的发展。同时,2017年全球活跃的移动宽带订户已增至42.2亿,比2016年增长9.21%[1]。图1显示了2010年至2017年世界及主要地区的移动蜂窝电话和活跃移动宽带订户数量。最高的数字是移动蜂窝电话或活跃移动宽带订户(百万)在每年增加的世界中。在M-Internet下,可以随处发送和接收各种内容(图像,语音,视频等),并且出现了满足人们需求的相关应用程序,包括工作,学习,日常生活,娱乐,教育,医疗保健,在中国,百度,阿里巴巴和腾讯等移动应用程序巨头每天在App中拥有M-Internet在线时间的78%,2017年约为2412分钟[2]。该数字表明M-Internet已进入快速增长阶段。

本文旨在通过讨论移动大数据挑战的见解并回顾移动大数据领域中数据分析的最新应用,来研究确定基于机器学习的移动大数据分析的需求和发展。
本文的其余部分安排如下:
第2节介绍了移动大数据的数据收集和属性的开发。
第3节回顾了数据分析的常用方法和典型应用。
第4节概述了移动大数据分析的未来挑战,并提出了建议。

移动大数据的发展和收集

数据采集

数据收集是数据处理和分析系统的基础。 数据是从移动智能终端和Internet服务(通常称为移动Internet设备(MID))收集的,这些设备是支持无线Internet访问的具有多媒体功能的移动设备,其中包含智能手机,可穿戴计算机,便携式计算机,无线传感器等。[54] 。 移动大数据应以不打扰的方式快速,准确地收集[8]。
MBD可以从底部到顶部分为两种分层数据形式:传输和应用程序数据。
传输数据集中在解决信道建模[55],[56]和与M-Internet物理传输系统相对应的用户访问问题上。
在此基础上,应用程序数据集中在基于MBD的应用程序上,包括社交网络分析[57],[58],[59],用户行为分析[48],[50],[60],语音分析和决策。 物联网[61],[62],[63],[64],[65],[66],智能电网[67],网络医疗[53],[68],[69],金融服务[46] ,[70]等。
由于M-Internet的异构性和访问设备的多样性,收集到的数据是非结构化的,并且通常具有各种类别和格式,这使得数据预处理成为数据处理和分析系统的基本组成部分,以便 确保输入数据完整可靠[71]。 预处理通常可以分为三个步骤,即数据清理,隐式评级的生成和数据集成[46]。

1) Data cleaning

由于可能的设备故障,传输错误或人为因素,原始数据通常是无法直接使用的“脏数据” [46]。 因此,在数据预处理中应用包括离群值检测和去噪的数据清理方法以获得符合要求的质量的数据。 由于庞大的数据量,在MBD中手动删除错误数据既困难又不可能。
常见的数据清理方法可以通过训练支持向量回归(SVR)分类器[72],多个线性回归模型[73],自动编码器[74],贝叶斯方法[75],[76],聚类在某种程度上减轻脏数据问题 模型,基于距离的模型,基于密度的模型,概率模型或信息理论模型[77]。

2) Generation of implicit ratings

隐式评级的生成主要应用于推荐系统。 通过分析特定的用户行为以使用机器学习算法(例如,神经网络和决策树)解决数据稀疏性问题,可以大大提高评分数据的数量[46]。

3) Data integration

数据集成是集成来自不同资源,具有不同格式和类别的数据并处理丢失的数据字段的步骤[8]。
图2表示数据收集和预处理的过程。

数据收集和预处理的过程

Properties of mobile big data

MBD的高维性,异构性和应用程序的其他复杂功能(例如计划,运营和维护,优化和营销)为传统数据分析带来了许多新挑战[57]。 本节讨论从大数据到MBD的五个Vs(体积,速度,品种,价值和准确性的缩写)[78]。 M-Internet增强了五个Vs功能,使用户可以随时随地访问Internet [79]。

1) Volume

大量的MID,Exabyte级数据和高维数据空间

2) Velocity

实时数据流和效率要求

3) Variety

移动多媒体内容的 heterogeneity and non-structured

4) Value

从低密度价值数据中挖掘隐藏的知识和模式

5) Veracity

MBD的一致性,可信赖性和安全性

机器学习方法在移动大数据分析中的应用

数据分析方法的发展

分而治之策略与大数据采样

大数据的特征选择

大数据分类

SVM分类

决策树分类

神经网络和极限学习机

大数据深度学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容