<AI for everyone>视频学习笔记
1-2简介&机器学习
1. AI 的分类
1.AI 主要分为 3 类:
ANI(狭义人工智能,Artificial Narrow Intelligence):专注于单一任务(如人脸识别、垃圾邮件过滤)。
GAI(生成式人工智能,Generative AI):能够生成新内容(如文本、图像、代码),典型代表是LLM(大语言模型)。
AGI(通用人工智能,Artificial General Intelligence):具备类似人类的广泛认知能力(尚未实现)。
2.LLM(大语言模型)是 GAI 的核心,通过自监督学习/Supervised Learning(预测下一个词)训练。
LLM(Large Language Model)是生成式 AI(如 ChatGPT)的核心技术,它通过学习海量数据来预测和生成文本、图片、内容。
3. 监督学习(Supervised Learning)的核心作用
定义:监督学习通过输入(A)-输出(B)的映射训练模型(如图像分类、垃圾邮件检测)。
关键优势:
在数据充足时,能高效解决明确的任务(如预测房价、识别手写数字)。
机器学习(Machine Learning),尤其是监督学习(Supervised Learning),是 AI 发展的核心驱动力。
近年监督学习爆发的原因
数据量增长:互联网和数字化使数据量指数级增加(如语音识别所需的音频转录数据)。
神经网络与深度学习:
传统AI模型:数据量增加后性能很快饱和。
神经网络(尤其是大型模型):数据越多,性能持续提升(如更精准的语音识别、广告推荐)。
算力支持:GPU等专用处理器使训练大规模神经网络成为可能。
4.数据是 AI 成功的核心,而 LLM 的崛起依赖于大规模预训练 + 微调。
3数据
人工智能数据基础与最佳实践总结
1. 数据的本质与类型
结构化数据:表格形式(如Excel),包含明确的行列关系(如房价数据:面积、卧室数→价格)。
非结构化数据:人类易理解的格式(如图像、音频、文本),需特殊AI技术处理(如猫图片识别、垃圾邮件过滤)。
数据映射(A→B):
业务决定输入(A)与输出(B)的定义(如房价预测:A=面积+卧室数,B=价格)。
2. 数据获取方式
人工标注:手动标记数据(如分类猫图片)。
用户行为观察:通过交互记录(如电商网站记录用户购买行为)。
公开数据集下载:利用开源数据(如医学影像、自动驾驶数据集)。
合作伙伴提供:从合作方获取现有数据(如工厂设备运行记录)。
3. 数据使用误区
过度延迟AI开发:
错误做法:等待多年积累“完美数据”后再启动AI项目。
正确做法:边收集边迭代,AI团队早期介入以优化数据收集策略(如提高工厂传感器频率)。
盲目数据崇拜:
数据量≠价值,需AI团队验证数据可用性(案例:某公司并购医疗企业后数据无法利用)。
4. 数据质量问题
错误标签:如房价误标为$0.001。
缺失值:如表格中“未知”字段。
解决方案:数据清洗(去噪、补全)是AI团队核心工作之一。
5. 技术对比
生成式AI(GenAI):擅长生成非结构化数据(文本、图像)。
监督学习:适用于结构化和非结构化数据(如分类图片或预测表格数据)。
关键建议
早期协作:AI与IT团队同步推进,避免数据冗余或低效收集。
价值导向:根据实际业务需求定义数据目标(A→B),而非盲目积累数据。
接受不完美:数据天生杂乱,需通过技术和管理流程优化。
4人工智能术语
1.机器学习和数据科学(不一样)
机器学习(Machine Learning)
核心:通过算法让计算机从数据中学习输入(A)到输出(B)的映射关系,生成可运行的AI系统。
示例:
房价预测APP:输入=房屋面积/卧室数,输出=价格(持续服务的软件)。
在线广告点击预测:输入=用户+广告信息,输出=点击概率(高利润应用)。
数据科学(Data Science)
核心:从数据中提取洞察,辅助商业决策,输出多为分析报告或策略建议。
示例:
发现"三卧室房屋比同面积两卧室溢价高",指导开发商优化户型设计。
分析广告数据后建议"向旅游行业增派销售团队"。
关系:两者边界模糊,但机器学习侧重自动化预测,数据科学侧重人工分析决策。
2. 深度学习与神经网络(可等同)
神经网络(Neural Network)
本质:一种强大的机器学习技术,通过多层"人工神经元"数学计算实现A→B映射(如房价预测)。
与大脑的关联:仅受生物神经元松散启发,实际工作原理与人类大脑无关。
深度学习(Deep Learning)
术语演变:本质即神经网络,因品牌效应改称"深度学习"。
优势:处理复杂任务(如图像识别、自然语言处理)时性能显著优于传统方法。
3.关系图
机器学习(A→B映射)、数据科学(商业洞察)、深度学习(高性能模型)
商业应用建议
机器学习优先场景:需实时自动化决策(如垃圾邮件过滤、广告推荐)。
数据科学优先场景:需探索性分析(如市场趋势洞察、成本效益评估)。
深度学习适用场景:数据量大且任务复杂(如视觉质检、语音助手)。