头条
OpenAI 非营利结构将于明年改变
https://fortune.com/2024/09/13/sam-altman-openai-non-profit-structure-change-next-year/
OpenAI 声称其目前的结构已经不适用,并正在努力改变现状,使其更简单,对投资者更有吸引力。
使用 Gemma 2 进行接地检索
https://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons/
谷歌已经通过 Gemma 2 推动了检索增强和检索交错生成。它通过访问许多外部数据源对它们进行了改进。这是一份关于微调的指南。
OpenAI o1 回顾以及我们如何评估编码代理
https://www.cognition.ai/blog/evaluating-coding-agents
AI 编码代理 Devin 已使用 OpenAI 的新 o1 模型进行了测试,与 GPT-4o 相比,其推理和错误诊断能力有所提高。o1 预览模型可帮助 Devin 有效地分析、回溯和避免幻觉。虽然仍需集成到生产系统中,但初步结果表明其在自主编码任务中的性能显著提升。
研究
AudioBERT:利用听觉知识增强语言模型
https://arxiv.org/abs/2409.08199v1
AuditoryBench 是用于测试语言模型中听觉知识的新数据集。
Mistral 的视觉语言模型
https://github.com/mistralai/mistral-common/releases/tag/v1.4.0
Mistral 发布了 Pixtral 的磁力链接,Pixtral 是其 12B VLM,以图像和文本作为输入。Pixtral 在 Mistral 的 Nemo 12B 模型上进行了训练,并配备了 400m 参数视觉适配器。
使用 PromptCIR 进行图像恢复
https://arxiv.org/abs/2404.17433v1
PromptCIR 是一种用于压缩图像恢复的新技术。它的开发是为了解决现有方法缺乏适应性的问题。
工程
在浏览器中学习 GPU 编程
https://www.answer.ai/posts/2024-09-12-gpupuzzles.html
Answer AI 使用 WebGPU 及其新的 gpu.cpp 程序将 GPU 拼图移植到网络上,作为学习的绝佳资源。拼图引导学习者了解如何开始编程 GPU。
使用 FlashSplat 进行 3D 分割
https://github.com/florinshen/flashsplat
FlashSplat 是一种新的 3D 高斯 Splatting 分割方法,无需长时间梯度下降。
神经科学探索的新工具
https://github.com/pieeg-club/PiEEG-16
PIEEG-16 是一种新的、经济高效的 Raspberry Pi 屏蔽,可实时测量和处理 EEG、EMG 和 ECG 等生物信号。它为神经科学研究和脑机接口实验开辟了令人兴奋的机会,而无需网络数据传输。
杂七杂八
ODAQ:音频质量开放数据集
https://github.com/fraunhofer-iis/odaq
ODAQ 是一个数据集,它解决了音频信号公开集合的稀缺性问题,并附带相应的主观感知质量评分。
OpenAI 的新模型“工具伪造对齐”
https://www.transformernews.ai/p/openai-o1-alignment-faking
OpenAI 的新 AI 模型 o1-preview 和 o1-mini 展示了高级推理能力,在数学和科学等领域表现出色。然而,这些模型也表现出更大的风险,包括奖励黑客攻击和潜在的生物威胁滥用。尽管存在这些担忧,OpenAI 指出这些模型比以前的版本更强大,但也承认风险水平正在上升。
使用 Pinecone 创建 RAG 管道
https://docs.vectorize.io/tutorials-and-how-to-guides/pinecone-quickstart
本快速入门指南详细介绍了如何设置管道以从 Amazon S3 收集数据、使用 OpenAI 模型创建向量嵌入并将其存储在 Pinecone 中。用户创建 Pinecone 索引、使用 OpenAI 配置 AI 平台、添加 Amazon S3 源连接器并安排管道。处理完数据后,用户可以在 RAG Sandbox 中查询数据以与其数据集进行交互。
Google DeepMind 教机器人自动系鞋带并修理其他机器人
https://techcrunch.com/2024/09/12/google-deepmind-teaches-a-robot-to-autonomously-tie-its-shoes-and-fix-fellow-robots/
DeepMind 推出了 ALOHA Unleashed 和 DemoStart,通过观察人类来教机器人完成灵巧的任务。
Salesforce 推出其首批 AI 代理
https://www.axios.com/2024/09/12/salesforce-ai-agents-atlas-reasoning
Salesforce 推出了 Agentforce,旨在创建能够在既定限制内自行采取行动的生成式 AI 机器人。
无需训练的图像分割
https://github.com/linsun449/iseg.code
iSeg 是一个无需训练的图像分割框架,可增强 Stable Diffusion 创建分割蒙版的能力。