头条
苹果的机器人技术旨在解决用户的第一世界问题
https://appleinsider.com/articles/24/08/25/first-world-problems-drives-apples-robotics-development
苹果可能正在向机器人领域扩张,可能会推出可移动的设备,例如安装在机械臂上的 iPad。在技术副总裁 Kevin Lynch 的领导下,苹果的机器人技术工作在以色列理工学院等公司专家的帮助下取得了进展,并提议在 Siri 之外加入 AI 界面。虽然仍处于概念阶段,但苹果正在考虑在 2026 年或 2027 年发布这些新的机器人产品。
Cohere Command R 更新
https://cohere.com/blog/command-series-0824
Command R 和 Command R+ 在所有任务上都得到了升级。它们现在在回忆、速度、数学和推理方面都表现得更好。
Google DeepMind 员工敦促公司放弃军事合同
https://time.com/7013685/google-ai-deepmind-military-contracts-israel/
近 200 名 Google DeepMind 员工签署了一封信,敦促 Google 终止军事合同,声称这违反了该公司自己的 AI 道德原则。DeepMind 技术已被捆绑到 Google Cloud 中并出售给军方,引发了与重视道德标准的 AI 员工的内部冲突。Google 的回应表明了对 AI 原则的遵守,但员工仍然不满意,寻求加强对其 AI 的军事用途的治理。
研究
MoE 的无辅助损失负载平衡
https://arxiv.org/abs/2408.15664
将Token路由到 MoE 中的专家有助于稀疏计算。但是,学习路由可能具有挑战性。通常存在复杂的损失结构。本文展示了一种克服此问题并显着提高专家平衡和训练稳定性的新方法。
提高低光视频质量
https://arxiv.org/abs/2408.14916v1
这个端到端框架同时解决了使用事件摄像机的视频中的低光增强和运动去模糊问题。
声源定位
https://arxiv.org/abs/2408.16448v1
研究人员提出了一种新的视听学习框架来增强声源定位,解决了传统方法中的假阴性问题。该框架包括两种方案:自监督预测学习 (SSPL) 和语义感知对比学习 (SACL)。SSPL 通过专注于正向学习来消除假阴性,而 SACL 则改进对比学习过程以改善音频和视觉特征之间的一致性。
工程
TRL 发布
https://github.com/huggingface/trl/releases/tag/v0.10.1
这可能是 Transformer 强化学习库的重大改进之一。它包括 onlineDPO、Liger Kernels、WinRate Callbacks 等。
CPU 上 Schnell 的快速 SD 支持
流行的推理库现在支持在 CPU 上运行的 Flux Schnell。
用于图像生成的脉冲扩散模型
https://github.com/andycao1125/sdm
脉冲扩散模型 (SDM) 是专为图像生成而设计的脉冲神经网络 (SNN) 的新系列,可显著节省能源并具有很高的生物合理性。
杂七杂八
Laion 5B 安全发布
https://laion.ai/blog/relaion-5b/
Laion 5B 是互联网上最大的开放图像数据集。由于担心图像不当和有害,它被关闭。该组织已做出重大努力来缓解这些问题,现在正在重新发布数据集。
下一代皮克斯:人工智能将如何融合电影和游戏
https://a16z.com/the-next-generation-pixar/
生成式人工智能有望彻底改变讲故事的方式,将叙事深度与视频游戏的动态互动性融合在一起。OpenAI 的 Sora 和 Luma AI 的 Dream Machine 等生成模型的最新进展正在加速这一转变,实现实时交互式视频创作。这一演变有可能在交互式媒体中产生下一个“皮克斯”,将电影、游戏和人工智能融合在一起。
中国机器人制造商追赶特斯拉,提供人形机器人工人
在北京举行的世界机器人大会上,超过 25 家中国公司展示了旨在实现工厂自动化的人形机器人,这些机器人得到了政府的大量投资支持,并利用了中国深厚的供应链。预计到 2035 年,全球人形机器人市场将达到 380 亿美元。中国希望在 2025 年前大规模生产这些机器人,从而加剧与特斯拉即将推出的 Optimus 机器人的竞争。特斯拉预计明年将在其工厂部署 1,000 台 Optimus 机器人,而中国公司预计其模型的成本将大幅降低。
Vybe 筹集 475 万美元,为 AI 照片带来乐趣,并提供与朋友联系的新方式
Vybe AI 相机应用程序使用尖端 AI 将您的自拍照转换为生动、美丽的照片。
苹果和 Nvidia 可能会投资 OpenAI
https://www.theverge.com/2024/8/29/24231626/apple-nvidia-openai-invest-microsoft
据报道,OpenAI 正在准备进行一轮重大融资,该公司的估值可能超过 1000 亿美元,可能涉及苹果、Nvidia 和微软的投资。
波士顿动力公司的新型电动 Atlas 可以做俯卧撑
https://techcrunch.com/2024/08/22/boston-dynamics-new-electric-atlas-can-do-push-ups/
波士顿动力公司在一段新视频中展示了其电动双足机器人 Atlas 做俯卧撑的动作,该视频强调了其在工厂车间应用的早期商业化阶段中强大的执行器。