接着上次的数据流水线,从数据收集到处理,属于传统大数据基础架构的范畴;从特征处理到算法训练,再到算法打分,就是AI系统的特有部分了,这一段的流水线要想高效运转,需要解决算法和工程人员的技能偏差问题。
这个过程会涉及到目标定义、算法训练、调优和评估这样对算法和数学要求较高的部分;又会涉及到大数据量、大计算量的数据问题,以及高并发、低延迟的在线服务问题,需要很好的协作。
参考康威定律,协作的高需求,就会产生对系统支撑的高需求,工程人员通过系统功能的开发,给算法人员提供相关技术的支持,这就催生了算法平台。
先说产品形态
算法平台面临的需求包括几类不同的用户:
(A)资深算法工程师
这些算法专家,对算法非常熟悉,工作重点在于理解业务和优化迭代,对算法平台的需求重点在于上述数据量、计算量和服务能力。
平台的挑战,在于将这些用户从单机的开发环境,例如python、sas、R,转化为对平台的使用。设计的关注点应该在迁移成本,通过元语、操作的设计,让系统行为与单机在逻辑上相通,便于理解。
典型的产品形态是jupyter notebook ➕ pyspark,与单机的python非常相似。
(B)初级算法学习者
算法学习者,需要发现和探索算法的表现,以及实验算法在业务问题上的适用性。算法平台需要支持常见的学习路径,对相关组件进行封装,避免增加学习负担。
典型的产品形态是拖拽式的算法pipeline设计页面,将数据处理、特征变换、算法训练和评估都封装成组件,提供默认参数并且可以调整,适合初级和中级的算法工程师。
(C)业务、分析人员和业务系统工程师
这些用户对数据有基本的认知,对业务非常熟悉,了解业务目标、业务手段和评估方法(包括ABTest)。
对于他们,算法平台的目标应该是支持端到端的优化,从业务目标到业务结果。
典型的产品形态是AutoML,给定数据和目标自动训练、调优和评估,并且支持ABtest方式上线。
有了对产品形态的认知,系统设计就有了目标,下次继续讨论。