人工智能简介

<AI for everyone>视频学习笔记

1-2简介&机器学习

1. AI 的分类

1.AI 主要分为 3 类:

ANI(狭义人工智能,Artificial Narrow Intelligence):专注于单一任务(如人脸识别、垃圾邮件过滤)。

GAI(生成式人工智能,Generative AI):能够生成新内容(如文本、图像、代码),典型代表是LLM(大语言模型)

AGI(通用人工智能,Artificial General Intelligence):具备类似人类的广泛认知能力(尚未实现)。

2.LLM(大语言模型)是 GAI 的核心,通过自监督学习/Supervised Learning(预测下一个词)训练。

LLM(Large Language Model)是生成式 AI(如 ChatGPT)的核心技术,它通过学习海量数据来预测和生成文本、图片、内容。

3. 监督学习(Supervised Learning)的核心作用

定义:监督学习通过输入(A)-输出(B)的映射训练模型(如图像分类、垃圾邮件检测)。

关键优势

在数据充足时,能高效解决明确的任务(如预测房价、识别手写数字)。

机器学习(Machine Learning),尤其是监督学习(Supervised Learning),是 AI 发展的核心驱动力。

近年监督学习爆发的原因

数据量增长:互联网和数字化使数据量指数级增加(如语音识别所需的音频转录数据)。

神经网络与深度学习

传统AI模型:数据量增加后性能很快饱和。

神经网络(尤其是大型模型):数据越多,性能持续提升(如更精准的语音识别、广告推荐)。

算力支持:GPU等专用处理器使训练大规模神经网络成为可能。

4.数据是 AI 成功的核心,而 LLM 的崛起依赖于大规模预训练 + 微调

3数据

人工智能数据基础与最佳实践总结

1. 数据的本质与类型

结构化数据:表格形式(如Excel),包含明确的行列关系(如房价数据:面积、卧室数→价格)。

非结构化数据:人类易理解的格式(如图像、音频、文本),需特殊AI技术处理(如猫图片识别、垃圾邮件过滤)。

数据映射(A→B)

业务决定输入(A)与输出(B)的定义(如房价预测:A=面积+卧室数,B=价格)。

2. 数据获取方式

人工标注:手动标记数据(如分类猫图片)。

用户行为观察:通过交互记录(如电商网站记录用户购买行为)。

公开数据集下载:利用开源数据(如医学影像、自动驾驶数据集)。

合作伙伴提供:从合作方获取现有数据(如工厂设备运行记录)。

3. 数据使用误区

过度延迟AI开发

错误做法:等待多年积累“完美数据”后再启动AI项目。

正确做法:边收集边迭代,AI团队早期介入以优化数据收集策略(如提高工厂传感器频率)。

盲目数据崇拜

数据量≠价值,需AI团队验证数据可用性(案例:某公司并购医疗企业后数据无法利用)。

4. 数据质量问题

错误标签:如房价误标为$0.001。

缺失值:如表格中“未知”字段。

解决方案:数据清洗(去噪、补全)是AI团队核心工作之一。

5. 技术对比

生成式AI(GenAI):擅长生成非结构化数据(文本、图像)。

监督学习:适用于结构化和非结构化数据(如分类图片或预测表格数据)。

关键建议

早期协作:AI与IT团队同步推进,避免数据冗余或低效收集。

价值导向:根据实际业务需求定义数据目标(A→B),而非盲目积累数据。

接受不完美:数据天生杂乱,需通过技术和管理流程优化。

4人工智能术语

1.机器学习和数据科学(不一样)

机器学习(Machine Learning)

核心:通过算法让计算机从数据中学习输入(A)到输出(B)的映射关系,生成可运行的AI系统

示例

房价预测APP:输入=房屋面积/卧室数,输出=价格(持续服务的软件)。

在线广告点击预测:输入=用户+广告信息,输出=点击概率(高利润应用)。

数据科学(Data Science)

核心:从数据中提取洞察,辅助商业决策,输出多为分析报告或策略建议。

示例

发现"三卧室房屋比同面积两卧室溢价高",指导开发商优化户型设计。

分析广告数据后建议"向旅游行业增派销售团队"。

关系:两者边界模糊,但机器学习侧重自动化预测,数据科学侧重人工分析决策

2. 深度学习与神经网络(可等同)

神经网络(Neural Network)

本质:一种强大的机器学习技术,通过多层"人工神经元"数学计算实现A→B映射(如房价预测)。

与大脑的关联:仅受生物神经元松散启发,实际工作原理与人类大脑无关。

深度学习(Deep Learning)

术语演变:本质即神经网络,因品牌效应改称"深度学习"。

优势:处理复杂任务(如图像识别、自然语言处理)时性能显著优于传统方法。

3.关系图

机器学习(A→B映射)、数据科学(商业洞察)、深度学习(高性能模型)

商业应用建议

机器学习优先场景:需实时自动化决策(如垃圾邮件过滤、广告推荐)。

数据科学优先场景:需探索性分析(如市场趋势洞察、成本效益评估)。

深度学习适用场景:数据量大且任务复杂(如视觉质检、语音助手)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容