一、Deepseek与梁文锋:
1)梁文锋的背景
梁文锋是一位80后学霸,17岁考入浙江大学信息与电子工程学专业,本硕均就读于该专业。2008年毕业后,他开始带领团队探索全自动量化交易。2010年,随着沪深300股指期货的推出,量化投资迎来发展机遇,梁文锋团队乘势而上,自营资金迅速增长。
2)DeepSeek的诞生与发展
2023年,幻方量化成立子公司“深度求索”(DeepSeek),进军通用人工智能领域。DeepSeek继承了幻方量化在技术、人才和资源方面的积累,迅速在AI领域崭露头角。2024年5月发布的DeepSeekV2,凭借创新的MLA(多头潜在注意力机制)和DeepSeekMoE(混合专家模型)架构,实现了高性价比的训练和推理。2024年12月推出的DeepSeek-V3在多个基准测试中性能超越顶级开源模型,与GPT-4o等顶级闭源模型不相上下,而研发成本不到后者的二十分之一。
3)DeepSeek的技术创新:R1模型
DeepSeek的R1模型在2025年1月20日发布,性能比肩OpenAI o1正式版。R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。
二、特朗普“星际之门”计划与马斯克、奥特曼的争议
2025年1月21日,美国总统特朗普宣布了一项名为“星际之门”(Stargate)的人工智能基础设施投资计划,由OpenAI、软银和甲骨文联合出资,计划在未来4年内投资5000亿美元,用于在美国建设AI基础设施。这一计划旨在推动美国在全球科技竞争中的领先地位,预计创造10万个就业岗位。
然而,这一计划立即引发了特斯拉创始人埃隆·马斯克的质疑。马斯克在社交媒体平台X上表示,参与方实际上没有足够的资金来实现这一宏伟蓝图,并指出软银的可用资金远低于100亿美元的承诺。马斯克的这一表态让人们对项目本身的融资方式和可持续性产生了深刻的担忧。
OpenAI首席执行官山姆·奥特曼迅速作出了回应,坚决否定马斯克的言论,并晒出了星际之门首期工厂的建设进展,显得信心满满。奥特曼还强调,这个项目对整个国家有利,即便不一定对特斯拉的利益相符。他甚至邀请马斯克参观正在建设中的项目现场。
三、OpenAI 发布 Operator 操作者智能体
从认知到执行:Operator 实现了从理解用户指令到实际操作执行的完整闭环,突破了传统 AI 仅限于信息处理和问答的局限。
1)工作原理
基于 Computer-Using Agent (CUA) 模型:Operator 使用 CUA 模型,结合 GPT-4o 的视觉能力和强化学习,能够通过屏幕截图“看到”并“交互”浏览器界面。
模拟人类操作:它通过模拟鼠标点击、键盘输入等操作,与网页进行交互。
2)目前的Operator实际上更像是一个能够完成你给外包出去业务的乙方,而不是一个足够聪明的个人研究助理。(来源 :新智元)
3)保存和共享功能
保存工作流程:Operator 可以将任务流程保存下来,便于用户重复执行。例如,用户可以保存一个自动更新报表的工作流程,系统会自动用最新数据完成更新。
共享与协作:Operator 支持将任务执行过程录制成视频,用户可以观看并分享给他人,方便团队协作和经验分享。
四、DeepSeek发布R1开源模型,对标OpenAI的o1模型,让国外陷入疯狂
1)DeepSeek发布R1开源模型,对标OpenAI的o1模型
2025年1月20日,DeepSeek正式发布了其最新研发的高性能AI推理模型——DeepSeek-R1。该模型在数学、代码和自然语言推理等任务上表现出色,性能直接对标OpenAI的o1正式版。DeepSeek-R1的发布,不仅在技术上取得了重大突破,还在开源和成本控制方面展现了显著优势。
发布日期:DeepSeek于2025年1月20日晚正式发布推理模型DeepSeek-R1。
开源模型权重:DeepSeek-R1模型权重同步开源,遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。
蒸馏技术:DeepSeek-R1支持用户利用模型输出,通过模型蒸馏等方式训练其他模型。此外,DeepSeek还开源了通过R1蒸馏出的6个小模型。
2)技术创新与社区贡献
DeepSeek-R1在后训练阶段大规模使用了强化学习技术,即使在标注数据稀缺的情况下,也能显著提升模型的推理能力。此外,DeepSeek还开源了DeepSeek-R1-Zero,这是一个仅在预训练基础上加入了强化学习而没有经过监督微调的模型,为相关后续研究提供了重要基础。
五、Kimi发布k1.5多模态思考模型
2025年1月20日,月之暗面科技有限公司正式发布了Kimi k1.5多模态思考模型。
1)多模态推理能力:k1.5能够同时处理文本、图像等多种模态的信息,具备强大的联合推理能力。这种多模态设计使其在视觉问答、数学推理等任务中表现出色。
2)短链和长链思维模式:k1.5在短链思维(Short-CoT)模式下,数学、代码、视觉多模态和通用能力大幅超越了全球领先的模型,领先幅度高达550%。在长链思维(Long-CoT)模式下,其性能达到了OpenAI o1正式版的水平。
3)“Long2Short”训练方案:通过将长链思维模型的知识迁移到短链思维模型中,k1.5显著提升了短推理路径模型的性能。这种方法有效兼顾了推理的准确性和效率。
4)长上下文扩展:k1.5将上下文窗口扩展到128k,通过部分轨迹回放等技术提高了训练效率。这使得模型在处理复杂推理任务时能够更好地利用长上下文信息。
5)透明的技术报告:月之暗面公开了k1.5的详细技术报告《Kimi k1.5: Scaling Reinforcement Learning with LLMs》,包括系统设计、训练细节等,这种开放性为行业提供了宝贵的参考。
六、百川智能发布国内首个全场景深度思考模型 Baichuan-M1-preview
1)Baichuan-M1-preview 核心特点
多领域推理能力:Baichuan-M1-preview是国内首个同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等权威评测中,其表现超越了o1-preview等模型。
医疗循证模式:该模型解锁了“医疗循证模式”,通过自建的亿级条目循证医学知识库,能够快速、精准地回答医疗临床和科研问题。
深度思考模式:在深度思考模式下,Baichuan-M1-preview能够准确解答数学、代码、逻辑推理等问题,并像资深医疗专家一样构建严谨的医学推理过程。
2)Baichuan-M1-14B 核心特点
开源与灵活性:Baichuan-M1-14B是Baichuan-M1-preview的小尺寸版本,开源且灵活易用。
强大的医疗能力:在多个权威医学知识和临床能力评测中,Baichuan-M1-14B的表现超越了更大参数量的Qwen2.5-72B模型,与o1-mini不相上下。
七、阶跃星辰 旗下跃问App推出了全新功能「跃问AI创意板」,在手机端实现代码在线生成,无需代码基础即可开发应用。
跃问APP更新后增加了创意板功能,用户无需编写代码,通过简单的对话即可生成互动小程序、小游戏等。这一功能由国内首个多模态大模型阶跃星辰提供技术支持,实现了零门槛、高阶的AI创作体验。用户只需将跃问APP升级到最新版本,点击左下角的「创意板」,并通过简单的文字描述(Prompt)表达自己的应用构想,即可让AI根据想法生成一款专属应用。这一过程仅需三步,无需任何代码编写能力。
不论是海报图片、趣味游戏、互动网页、可视化图表,还是任何实用工具,能提的要求都能做,自己想玩啥玩啥,想怎么玩怎么玩。
八、字节跳动于2025年1月19日推出了一款针对中文开发者的AI集成开发环境(IDE)——Trae。
Trae旨在与国际知名工具Cursor和Windsurf竞争,特别优化了中文开发者的使用体验。目前Trae仅支持MacOS平台,Windows版即将上线。
1)Trae的主要功能与亮点
智能代码生成与优化:Trae能够通过自然语言生成代码片段,支持代码补全、优化和重构。它内置了Claude 3.5和GPT-4o等主流AI模型,可自动生成高质量代码。
AI驱动的交互模式:Trae提供两种模式——Chat模式和Builder模式。Chat模式支持代码问题解答和代码更新建议,而Builder模式能够根据用户需求直接生成完整的代码项目。
原生中文支持:Trae从底层设计上支持中文,界面语言全面中文化,适合中文开发者使用。
便捷的项目预览与调试:Trae提供Webview功能,支持在IDE内直接预览Web页面,方便前端开发。
灵活的上下文引用:在AI对话中支持引用代码块、文件、文件夹或整个项目,便于精准交互。
2)与Cursor和Windsurf的对比
多语言支持:Trae支持简体中文和英文,Cursor主要支持英文,Windsurf支持多种语言但中文注释功能突出。
插件与扩展:Trae提供丰富的插件和扩展功能。
九、百度iRAG技术的进一步精进:
1)AI拜年活动
百度推出了“AI拜年”活动,只需一张照片和一句prompt,人人都可免费定制拜年贺卡。例如,可以让“硅谷钢铁侠”马斯克给特斯拉贴福字,或者让“皮衣刀客”黄仁勋身穿喜庆的衣服点鞭炮,再配上一句祝福语,一张年味十足的春节贺卡就完成了。
2)百度iRAG技术的进一步精进
百度的iRAG技术在2024年基础上得到了进一步精进,不仅基础大模型更强了,而且开拓了更多应用场景。通过百度搜索APP,百度降低了使用AI的门槛,让任何人都能使用前沿的AI文生图一展自己的想象力,做出奇妙、好玩又有用的视觉内容。
3)iRAG技术的应用场景
iRAG技术不仅可以生成新年贺卡或名人乱入图,还能作为制作产品宣传图的生产力工具。例如,以前为了拍摄产品宣传图,可能需要聘请专业的拍摄团队和产品模特,成本较高。现在有了iRAG,只需将自己的产品图提供给大模型作为检索数据源,然后用文本描述想要的场景,iRAG加持的AI就能直接生成心仪的产品宣传图。
4)iRAG技术的特点
iRAG基于百度搜索的亿级图片资源和强大的基础模型能力,解决了文生图系统的两大核心难点:真实感不足和幻觉。通过检索百度搜索的大规模图像数据库,iRAG可以通过参考和引用真实的图像元素为文生图的真实感和事实性保驾护航。百度还成功压低了iRAG的计算成本,能以非常快的速度、近乎零成本地为用户提供服务,总结为“无幻觉、超真实、没成本、立等可取”。
《唐探1900》利用百度智能云千帆大模型平台的图生视频组件制作了首款AI动态海报