01 Google 云计算
- GFS:Google File System,Google 文件系统
- MapReduce:分布式计算编程模型
- Chubby:分布式锁服务
- Bigtable:分布式结构化数据表
- Megastore:分布式存储系统
- Dapper:分布式监控系统
- Dremel:海量数据的交互式分析工具
- PowerDrill:内容大数据分析系统
02 Page Rank & Map Reduce
Page Rank
- 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高
- 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高
- 参考 PageRank算法--从原理到实现
Map Reduce
- 一个软件架构,是一种处理海量数据的并行编程模式
- 用于大规模数据集(通常大于1TB)的并行运算
- MapReduce实现了Map和Reduce两个功能
-- Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集
-- Reduce对结果集进行分类和归纳
-- Map()和 Reduce() 两个函数可能会并行运行,即使不是在同一的系统的同一时刻
03 SEO (Search Engine Optimization)
网站架构
-- 结构清晰
-- Sitemap
-- 死链接
-- 动态链接静态化
-- 使用文本代替 flash关键字分析
-- 行业
-- 竞品
-- 目标关键字关键字位置
-- URL、标题
-- 标签:meta、description、ALT、H1、H2
-- 内容、图片文件名、加粗、斜体
-- 关键字密度:6%~8%内容
-- 定期更新、内容独立性
-- 1k ~ 2k 字数,分段合理
-- 和网站主题相关
-- 评论功能,出现关键字导入链接和锚文本
-- 高 PR 值站点导入
-- 导入链接:> 3个月,不同IP
-- 锚文本多样化
-- 交叉链接
04 REST API
REST = REpresentational State Transfer, 表述性状态转移
- 通过使用 http 协议和 URL
- 利用 client/server
- 对资源进行 CRUD (Create Retrieve Update Delete)
REST API 优点
- Client-server,客户服务状态分离
- Stateless,无状态
- Cacheable,缓存
- Layered system,分层系统
- Uniform interface,统一接口
- Code on demand,按需代码
- 高性能、低成本、可靠性、扩展性、简化系统、组件可分离、操作简单
05 AWS 产品
AWS: Amazon Web Services
EC2: Elastic Compute Cloud
S3: Simple Storage Service
AMI: Amazon Machine Images
CLI: Command Line Interface
EBS: Elastic Block Store,弹性块存储
ELB: Elastic Load Balancing
EMR: Elastic Map Reduce
IAM: Identity and Access Management
ISMA: Information Security Management System
RDS: Relational Database Services,关系型数据库
SES: Simple Email Service
SQS: Simple Queuing Service
VPC: Virtual Private Cloud,虚拟专有云
06 AWS 高并发处理
07 数据中心架构
08 人工智能
应用层
解决方案层
-- 智能客服、智能助理、无人车、机器人、自动协作……应用平台层
-- 应用发布运营平台、机器人运营平台
技术层
通用技术层
-- 语音识别 (ASR)、TTS、CV、NLP、SLAM算法层
-- 机器学习、深度学习、增强学习框架层
-- Tensor flow、Caffe、Torch、DMTK……
基础层
数据层
-- 各行业、场景的一手数据计算能力层
-- 云计算、GPU/FPGA硬件加速、神经网络芯片
人工智能 (Artificial Intelligence)
机器学习 (Machine Learning)
-- 学习方法:全监督(回归算法、朴素贝叶斯、SVM支持向量机)、无监督(聚类、降维)、其他(半监督、强化、迁移)
-- 神经网络:Neural Network,Deep Learning数据挖掘 (Data Mining)
模式识别 (Pattern Reorganization)
机器学习的本质
- 通过经验自动改进计算机算法
- 本质:空间搜索、函数泛化
- 通俗说法:计算的反问题
- 计算:input + 算法/程序 --> output
- 机器学习:input + output --> 模型
09 广告系统
Ad Exchange: RTB (Real Time Bidding)
Internet Advertising Bidding
GFP (Generalized First Price)
-- 价高者得
-- 缺点:平台方收益不稳定,竞价平台效率不高GSP (Generalized Second Price)
-- 价高者得,价格为第二高+delta
-- 优点:稳定、可操作性强
-- 缺点:结果不是全局最优化VCG (Vickey-Clarke-Groves)
-- 广告主为网民一次点击对其他广告主造成的效用损失
-- 难以计算、几乎不用
10 面向对象设计OOD (Object Oriented Design)
- 以对象 (Object) 为中心
- 以类 (Class) 和继承 (Inheritance) 为构造机制
- 充分利用 Interface 和多态 (Polymorphism)
- 来提供灵活性
- 认识、理解客观世界,设计构建软件
OOD 特点
- Abstraction,抽象:先不考虑细节
- Encapsulation,封装:隐藏内部实现
- Inheritance,继承:复用现有代码
- Polymorphism,多态:改写对象行为
- High cohesion & low coupling,高内聚低耦合
11 参考资料
[1] 云计算(第三版)
[2] 互联网创业核心技术:构建可伸缩的Web应用