头条
Genmo Mochi 微调
https://github.com/genmoai/mochi/blob/main/demos/fine_tuner/README.md
领先的开源视频模型 Mochi 1 具有 LoRA 微调功能。它在单个 GPU 上运行。此存储库展示了许多用途,包括自定义效果和角色一致性。
Anthropic 推出个性化响应的自定义样式
https://www.anthropic.com/news/styles
Anthropic 现在支持自定义样式,允许用户根据他们的沟通偏好和工作流程定制 AI 的响应。
OpenAI 的 Sora 视频生成器似乎已泄露
https://techcrunch.com/2024/11/26/artists-appears-to-have-leaked-access-to-openais-sora/
一个组织泄露了 OpenAI 未发布的视频生成器 Sora 的访问权限,以抗议所谓的不公平做法和“艺术清洗”。他们在 Hugging Face 上发布了一个前端,允许用户生成视频,据报道 OpenAI 在几个小时后关闭了该前端。OpenAI 坚持认为 Sora 处于研究预览阶段。
研究
Fugatto 声音模型
https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
Nvidia 展示了一种新的 2B 音频模型,该模型比以前的模型灵活得多。它可以以新颖有趣的方式混合和匹配音频、音乐和语音。
OLMo2
https://allenai.org/blog/olmo2
作为完全开源训练工作的延续,Allen AI 发布了新一代语言模型,这些模型从上到下都是透明的。它们与现有的最佳开放权重模型相匹配或超越了它们。
用于图像生成和理解的统一模型
https://github.com/lehduong/onediffusion
OneDiffusion 是一个大规模扩散模型,专为各种任务而设计,从文本到图像的生成和图像编辑到深度估计和分割等逆向过程。
工程
定制的 Flash Attention
https://github.com/xiayuqing0622/customized-flash-attention
新的 Flash Attention 叉可以具有不规则的 Q/V 矩阵大小。
新视图合成
https://ewrfcas.github.io/MVGenMaster/
MVGenMaster 是一种多视图扩散模型,旨在通过集成 3D 先验来改进新视图合成任务。
推进 3D 分子设计
https://github.com/dunni3/flowmol
这项工作对离散流匹配方法进行了基准测试,以生成新的 3D 分子结构,这对于化学发现至关重要。
杂七杂八
LLM 作为法官
https://llm-as-a-judge.github.io/
该项目探索了新兴的“LLM 作为法官”范式,其中大型语言模型用于各种 AI 和 NLP 应用程序中的评分、排名和选择任务。
当我们成为齿轮时
https://www.strangeloopcanon.com/p/when-we-become-cogs
AI 提高了材料科学家的效率,导致材料发现增加了 44%,但由于创意生成任务减少,工作满意度下降了 44%。GitHub Copilot 提高了技能较低的开发人员的生产力,将重点从项目管理转移到编码。 AI 缩小了技能差距,但通过自动化创造性任务,存在疏远风险,这与过去自动化对各个行业的影响如出一辙。
AI 本身还无法用于芯片设计
https://spectrum.ieee.org/chip-design-ai
将传统搜索方法与机器学习相结合的混合方法有望克服芯片设计的复杂性,尤其是在布局规划任务中。虽然 AI 本身难以应对多约束场景,但集成 AI 来指导基于搜索的算法(如模拟退火)可以提高效率和有效性。这种组合可以加速设计过程并实现更复杂的芯片解决方案。
AI Suite
https://github.com/andrewyng/aisuite
一种在单一封装环境中使用各种基于 API 的模型的简便方法。
亚马逊将向 OpenAI 最大的竞争对手 Anthropic 再投资 40 亿美元
亚马逊宣布向 Anthropic 投资 40 亿美元,使其总投资额达到 80 亿美元,同时将 AWS 确立为 Anthropic 的主要云和培训合作伙伴。
OpenAI 正在资助“人工智能道德”研究
https://techcrunch.com/2024/11/22/openai-is-funding-research-into-ai-morality/
OpenAI 正在资助杜克大学研究预测人类道德判断的人工智能算法。