<AI for everyone>视频学习笔记

1-2简介&机器学习

1. AI 的分类

1.AI 主要分为 3 类：

ANI（狭义人工智能，Artificial Narrow Intelligence）：专注于单一任务（如人脸识别、垃圾邮件过滤）。

GAI（生成式人工智能，Generative AI）：能够生成新内容（如文本、图像、代码），典型代表是LLM（大语言模型）。

AGI（通用人工智能，Artificial General Intelligence）：具备类似人类的广泛认知能力（尚未实现）。

2.LLM（大语言模型）是 GAI 的核心，通过自监督学习/Supervised Learning（预测下一个词）训练。

LLM（Large Language Model）是生成式 AI（如 ChatGPT）的核心技术，它通过学习海量数据来预测和生成文本、图片、内容。

3. 监督学习（Supervised Learning）的核心作用

定义：监督学习通过输入（A）-输出（B）的映射训练模型（如图像分类、垃圾邮件检测）。

关键优势：

在数据充足时，能高效解决明确的任务（如预测房价、识别手写数字）。

机器学习（Machine Learning），尤其是监督学习（Supervised Learning），是 AI 发展的核心驱动力。

近年监督学习爆发的原因

数据量增长：互联网和数字化使数据量指数级增加（如语音识别所需的音频转录数据）。

神经网络与深度学习：

传统AI模型：数据量增加后性能很快饱和。

神经网络（尤其是大型模型）：数据越多，性能持续提升（如更精准的语音识别、广告推荐）。

算力支持：GPU等专用处理器使训练大规模神经网络成为可能。

4.数据是 AI 成功的核心，而 LLM 的崛起依赖于大规模预训练 + 微调。

3数据

人工智能数据基础与最佳实践总结

1. 数据的本质与类型

结构化数据：表格形式（如Excel），包含明确的行列关系（如房价数据：面积、卧室数→价格）。

非结构化数据：人类易理解的格式（如图像、音频、文本），需特殊AI技术处理（如猫图片识别、垃圾邮件过滤）。

数据映射（A→B）：

业务决定输入（A）与输出（B）的定义（如房价预测：A=面积+卧室数，B=价格）。

2. 数据获取方式

人工标注：手动标记数据（如分类猫图片）。

用户行为观察：通过交互记录（如电商网站记录用户购买行为）。

公开数据集下载：利用开源数据（如医学影像、自动驾驶数据集）。

合作伙伴提供：从合作方获取现有数据（如工厂设备运行记录）。

3. 数据使用误区

过度延迟AI开发：

错误做法：等待多年积累“完美数据”后再启动AI项目。

正确做法：边收集边迭代，AI团队早期介入以优化数据收集策略（如提高工厂传感器频率）。

盲目数据崇拜：

数据量≠价值，需AI团队验证数据可用性（案例：某公司并购医疗企业后数据无法利用）。

4. 数据质量问题

错误标签：如房价误标为$0.001。

缺失值：如表格中“未知”字段。

解决方案：数据清洗（去噪、补全）是AI团队核心工作之一。

5. 技术对比

生成式AI（GenAI）：擅长生成非结构化数据（文本、图像）。

监督学习：适用于结构化和非结构化数据（如分类图片或预测表格数据）。

关键建议

早期协作：AI与IT团队同步推进，避免数据冗余或低效收集。

价值导向：根据实际业务需求定义数据目标（A→B），而非盲目积累数据。

接受不完美：数据天生杂乱，需通过技术和管理流程优化。

4人工智能术语

1.机器学习和数据科学（不一样）

机器学习（Machine Learning）

核心：通过算法让计算机从数据中学习输入（A）到输出（B）的映射关系，生成可运行的AI系统。

示例：

房价预测APP：输入=房屋面积/卧室数，输出=价格（持续服务的软件）。

在线广告点击预测：输入=用户+广告信息，输出=点击概率（高利润应用）。

数据科学（Data Science）

核心：从数据中提取洞察，辅助商业决策，输出多为分析报告或策略建议。

示例：

发现"三卧室房屋比同面积两卧室溢价高"，指导开发商优化户型设计。

分析广告数据后建议"向旅游行业增派销售团队"。

关系：两者边界模糊，但机器学习侧重自动化预测，数据科学侧重人工分析决策。

2. 深度学习与神经网络（可等同）

神经网络（Neural Network）

本质：一种强大的机器学习技术，通过多层"人工神经元"数学计算实现A→B映射（如房价预测）。

与大脑的关联：仅受生物神经元松散启发，实际工作原理与人类大脑无关。

深度学习（Deep Learning）

术语演变：本质即神经网络，因品牌效应改称"深度学习"。

优势：处理复杂任务（如图像识别、自然语言处理）时性能显著优于传统方法。

3.关系图

机器学习（A→B映射）、数据科学（商业洞察）、深度学习（高性能模型）

商业应用建议

机器学习优先场景：需实时自动化决策（如垃圾邮件过滤、广告推荐）。

数据科学优先场景：需探索性分析（如市场趋势洞察、成本效益评估）。

深度学习适用场景：数据量大且任务复杂（如视觉质检、语音助手）。

人工智能简介