【Scala-ML】如何利用Scala构建并行机器学习系统

引言

在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质。其丰富的类型系统可以帮助编程设计提供很好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线,其Actor系统帮助编写可伸缩性的应用程序,其实现特定领域语言的优势帮助开发用户很好克服不同语言的障碍。
虽然以上Scala优点说起来不会感同身受,但这可以作为我学习的一大动力,让我开始尝试编写并行机器学习系统。
在学习过程中,我主要参考《Scala for Machine Learning》一书和相关网上的资料。希望这些分享能帮助自己学习,也更好的服务有兴趣的读者。

为何使用Scala构建机器学习系统

抽象

Monoids和Monads是函数式编程的重要概念。
Monoids定义了在具有闭包性质(property of closure)的数据集上的二元操作op,恒等操作(identity operation)和结合性(associativity)。
下面是代码描述:

trait Monoid[T] {
  def zero: T
  def op(a: T, b: T): T
}

Monoids具有结合性的操作。假设ts1、ts2、ts3是三个时间序列,该性质保证ts1+(ts2+ts3) = (ts1+ts2)+ts3。Monoid的结合性对于计算流的并行化是很关键的。

Monads可以被认为是容器的结构,它是Monoids的推广。像是Scala标准库中的List,Map等集合被设计成monads的结构。
Monads提供了以下的功能:1. 创建集合; 2. 对集合的元素进行转换; 3. 压平嵌套的集合。
下面是Scala代码描述:

trait Monad[M[_]] {
  def apply[T](a: T): M[T]
  def flatMap[T, U](m: M[T])(f: T=>M[U]): M[U]
}

Monads允许集合或者容器连接起来产生一个工作流,该性质可以应用在任何科学计算中。

可扩展性

Actors系统使得Scala编程变得可伸缩、可扩展。Actors作为协程(coroutines),通过异步消息进行通信,管理底层的线程池。
机器学习的工作流被实现成一系列的计算任务,这些任务包含了Scala的高阶方法(如flatMap,map,fold,reduce,collect,join,filter)对数据集合的操作,Scala允许actors集群对这些数据进行分割来完成计算任务。Scala还支持本地或远程的actor之间进行消息分发和消息路由。



上图中,主节点作为控制器,管理和调度四步任务。这些具体的任务通过Scala的actors实现的多个工作节点执行。主节点通过和工作节点交换消息来管理工作流的执行状态,负责可靠性。通过监督actors的层次结构来实现计算任务的高可用性。

可配置性

Scala支持依赖注入(dependency injection),通过抽象变量(abstract variables)、自引用成分(self-referenced composition)和可堆叠的特质(stackable traits)的组合来实现。最常用的依赖注入的模式成为cake pattern,该模式在构建动态计算工作流中经常用到。

可维护性

Scala内嵌了领域专用语言(Domain Specific Languages,DSL)。DSLs是在Scala原生库上建立的语法层,DSLs允许软件开发者抽象计算细节,更好让使用者理解。DSLs最有名的应用案例就是在Matlab中的语法形式。

计算工作流


一个计算工作流(computational workflow)可以分为以下几个步骤:

  1. 从文件或数据库中载入数据集
  2. 将数据集进行分割,用于并行的数据处理
  3. 运用过滤技术、方差分析等进行数据预处理
  4. 应用机器学习模型

在使用训练数据进行分析的过程还需要一些具体的处理:

  • 从清洗的输入数据中选择训练集、测试集、验证集
  • 抽取关键特征、利用聚类技术从一组相似观测中简历亲近关系
  • 减少特征数量,避免训练数据过拟合
  • 重复进行多次上述步骤来验证模型和调整模型
  • 将模型进行持久化,用于新观测数据的预测和处理
  1. 评估模型表现

转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
GitCafe博客主页(http://jasonding1354.gitcafe.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(//www.greatytc.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容