头条
奥数大模型发布
https://huggingface.co/AI-MO/NuminaMath-7B-TIR
Hugging Face 团队发布了一款极其强大且强大的数学模型。
Claude 增加了一个 Prompt Playground,可快速改进 AI 应用
Anthropic 在 Claude 中的新功能允许开发人员自动化提示工程,通过生成、测试和优化带有快速反馈的提示来改进 AI 应用开发。
微软、苹果放弃在 OpenAI 董事会的观察员席位
由于监管审查,微软和苹果选择不加入 OpenAI 董事会,微软辞去了观察员角色,而苹果则放弃了成为观察员的计划。
研究
将图像生成功能重新添加到 Chameleon
https://arxiv.org/abs/2407.06135
Anole 是一个基于 Meta 的 Chameleon 模型构建的开放式自回归多模态模型。这项工作通过有针对性的微调将图像生成功能重新添加到模型中。
个性化文本到图像模型
https://arxiv.org/abs/2407.06642v1
研究人员引入了一种新的强化学习框架来改进个性化文本到图像的生成。
自动驾驶的 3D 数据生成
https://arxiv.org/abs/2407.06109v1
PerlDiff 是一种通过集成 3D 几何信息来提高街景图像生成精度的方法。
工程
Paints UNDO 生成模型
https://github.com/lllyasviel/Paints-UNDO
Paints UNDO 是由 ControlNet、IC-Light 和许多其他图像生成系统的创建者开发的系统,该系统中的模型可以创建用于重新创建图像的笔触。有趣的是,与以前的笔触系统不同,该模型可以撤消笔触,并且经常在过程中完全重新考虑其方法 - 与人类艺术家非常相似。
minRF
https://github.com/cloneofsimo/minRF
可扩展整流流变换器部分用于 Stable Diffusion 3。此存储库是此存储库的最小实现,其中还包括 muP 超参数扫描。
RouteLLM
https://github.com/lm-sys/RouteLLM
用于服务和评估 LLM 路由器的框架。
杂七杂八
推进自动驾驶中的 3D 感知
https://arxiv.org/abs/2407.06190v1
SuperFlow 是一种新框架,它通过使用连续的 LiDAR-camera 对进行时空预训练来增强自动驾驶中的 3D 感知。
深入研究 AI 推理初创公司
https://eastwind.substack.com/p/a-deep-dive-on-ai-inference-startups
风险投资的一个热门领域是为 AI 打造“镐和铲子”(例如模型微调、可观察性和推理)。风险投资家认为,在将 AI 添加到产品中时,公司不会愿意在内部构建东西。AI 推理的 TAM 相当有限。风险投资家需要相信大规模的 TAM 扩展才能让他们的投资获得回报。虽然 AI 推理平台在短期内对初创公司有利,但从长远来看,它们对初创公司不利。
骑行者无法决定是害怕还是喜欢自动驾驶汽车
https://www.yahoo.com/news/cyclists-t-decide-whether-fear-220824589.html
旧金山的骑行者报告了与 Waymo 和 Cruise 自动驾驶汽车的近距离接触和安全问题。加州机动车管理局收到了近 200 起投诉,强调这些自动驾驶汽车的驾驶不稳定和险些相撞。虽然这些公司声称他们的车辆具有增强的安全功能,但这些事件引发了人们对它们是否准备好在监管审查日益严格的情况下进行更广泛部署的质疑。
OpenAI 和洛斯阿拉莫斯宣布建立生物科学研究合作伙伴关系
https://openai.com/index/openai-and-los-alamos-national-laboratory-work-together/
OpenAI 和洛斯阿拉莫斯国家实验室 (LANL) 正在合作探索 AI 在生物科学研究中的安全应用,重点是使用 GPT-4o 等模型通过视觉和语音等多模态功能协助实验室任务。
HF Transformers 的模型初始化速度提高 30 倍
https://github.com/huggingface/transformers/pull/31771
通过在第一次传递时将一些延迟加载移至模型,可以显着加快模型初始化速度,而不会造成每秒Token的太多损失。