头条
OpenAI o1 Card
https://openai.com/index/openai-o1-system-card/
本报告概述了在发布 OpenAI o1 和 o1-mini 之前开展的安全工作,包括根据 OpenAI 的准备框架进行的外部红队和前沿风险评估。
Perplexity 扩大其出版商计划
https://www.perplexity.ai/hub/blog/perplexity-expands-publisher-program-with-15-new-media-partners
Perplexity 已将十多个国际新闻组织添加到其出版商计划中,提供工具、收益分享和支持,以加强与全球媒体的合作。
DeepMind 的 Genie 2 可以生成看起来像视频游戏的交互式世界
DeepMind 的 Genie 2 是一种先进的 AI 模型,可以根据图像和文本描述生成多样化的交互式 3D 世界。该模型特别擅长模拟物理和 NPC 行为等复杂元素,通过保持场景一致性使其有别于类似模型。Genie 2 定位为研究工具,旨在为交互式体验制作原型并评估 AI 代理。
研究
Paligemma 2
https://arxiv.org/abs/2412.03555
Paligemma 2 是目前市场上最好的 VLM 之一。它使用 SigLIP 和 Gemma。
使用 ASANet 进行土地覆盖制图
https://arxiv.org/abs/2412.02044v1
非对称语义对齐网络 (ASANet) 使用 SAR 和 RGB 图像改进土地覆盖分类。
使用标记合并实现更快的多模态模型
https://arxiv.org/abs/2412.03248v1
研究人员开发了一种无需训练的方法,可以在不牺牲太多性能的情况下提高多模态语言模型 (LLM) 的效率。他们的方法通过智能合并和修剪视觉数据标记,将计算需求减少了多达 7 倍。
工程
GraphCast
https://github.com/google-deepmind/graphcast
DeepMind 已开源其 GraphCast 算法,该算法在 36 小时内的局部天气预报方面表现更好、更快。而且运行时间也只是一小部分。
创造视觉错觉
https://github.com/pixtella/anagram-mtl
该项目通过改进扩散模型处理多个视点的方式,推进了视觉字谜生成(翻转或旋转时外观发生变化的图像)。
自动驾驶汽车的 3D 场景完成
https://github.com/happyw1nd/scorelidar
ScoreLiDAR 是一种新方法,可加快自动驾驶汽车的 3D LiDAR 场景完成速度。
杂七杂八
新的 Fish Audio 模型
https://threadreaderapp.com/thread/1864370933496205728.html
最新的 Fish Audio 1.5 目前在文本转语音排行榜上仅次于 ElevenLabs,排名第二。它支持语音克隆,运行速度很快,尽管输出质量似乎时好时坏。
OpenAI 与 Anduril 合作
https://www.cnbc.com/2024/12/04/openai-partners-with-defense-company-anduril.html
OpenAI 和国防公司 Anduril 合作创建基于国家安全的人工智能。
谷歌病毒式 NotebookLM 背后的关键领导者将离职,创建自己的初创公司
谷歌 NotebookLM 的三位关键成员已离职,开始创办一家新的隐形 AI 企业。这家初创公司旨在利用最新的 AI 模型来创建面向消费者、以用户为先的 AI 产品。它仍处于早期阶段,没有明确的重点或宣布的资金。
DeepThought 8B 推理模型
https://huggingface.co/ruliad/deepthought-8b-llama-v0.01-alpha
Ruliad 发布了一款小型推理模型,需要额外的时间来思考问题。
GUI 代理
https://vyokky.github.io/LLM-Brained-GUI-Agents-Survey/
关于大型语言模型大脑 GUI 代理的研究论文和项目集。
Sam Altman 称通用人工智能即将到来
https://www.nytimes.com/video/business/100000009858580/sam-altman-openai-dealbook.html
OpenAI 首席执行官 Sam Altman 在 DealBook 峰会上表示,通用人工智能对日常生活的影响可能没有预期的那么大。