2024-10-30 简讯 : 麻省理工学院的通用机器人训练


头条


麻省理工学院的通用机器人训练

https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028

麻省理工学院的研究人员引入了异构预训练 Transformers (HPT),这是一种受大型语言模型启发的新模型架构,可使用来自不同领域和模式的数据来训练多功能机器人。

Google 将语音技术支持扩展到另外 15 种非洲语言

https://blog.google/around-the-globe/google-africa/africas-digital-decade/

Google 已在其平台上为另外 15 种非洲语言引入语音识别功能,包括语音搜索、Gboard 语音输入和翻译听写。此次更新使大约 3 亿非洲人能够以自己的母语与数字内容互动。


研究


具有最小 3D 归纳偏差的视图合成

https://haian-jin.github.io/projects/LVSM/

长期以来,人们一直认为新颖的视图合成需要强大的 3D 归纳偏差。这项工作表明,通过规模和一些弱归纳偏差,大大超越以前认为的限制。

使用每个标记潜在扩散的连续语音合成

https://arxiv.org/abs/2410.16048

自回归模型在许多情况下仍然占主导地位。然而,最近对图像扩散头的研究启发了连续 AR 扩散。这项工作将每个标记扩散思想扩展到可变长度输出。

遥感中的变化检测

https://arxiv.org/abs/2409.16261v1

本文引入了变化描述指令数据集来微调 LMM,以实现更好的遥感变化检测。


工程


Flux IC light

https://github.com/lllyasviel/IC-Light/discussions/98

IC Light 是目前将图像与预训练的文本到图像主干关联起来的最佳方式。本次讨论是将该功能扩展到强大的 Flux 模型的开始。

用于 3D 场景生成的场景语言

https://github.com/zzyunzhi/scene-language

从头开始生成 3D 场景具有挑战性,原因有很多,例如数据限制。这项工作引入了一种类似编程语言来描述 3D 场景,并表明 Claude Sonnet 可以生成极具吸引力的场景,尽管他没有接受过这项任务的明确训练。

3D 语义分割

https://arxiv.org/abs/2410.19446v1

FtD++ 是一种跨模态学习方法,可改善 3D 语义分割的无监督域自适应。


杂七杂八


Gemma 2B 上交叉编码器的开源复制

https://www.lesswrong.com/posts/srt6JXsRMtmqAJavD/open-source-replication-of-anthropic-s-crosscoder-paper-for

Anthropic 最近发布了两篇作品,重点介绍了其新的可解释性方法。这篇文章是 Gemma 2B 上交叉编码器的开源复制。

分布外图学习方法集

https://github.com/kaize0409/awesome-graph-ood

此存储库列出了有关分布外图学习的论文,涵盖三个主要场景:图 OOD 泛化、训练时图 OOD 适应和测试时图 OOD 适应。

像 AI 一样思考

https://www.oneusefulthing.org/p/thinking-like-an-ai

LLM 充当复杂的自动完成系统,根据训练数据和当前输入预测下一个标记。输入的微小变化会影响预测,即使是同一个问题也会导致不同的输出。了解标记预测、训练数据上下文和内存限制可以帮助改进 AI 的使用。

多模态 Web 代理

https://github.com/minorjerry/openwebvoyager

OpenWebVoyager 提供工具、数据和模型,用于开发能够通过真实世界的 Web 交互进行导航和学习的多模态 Web 代理。

动画自动着色

https://ykdai.github.io/projects/InclusionMatching

研究人员推出了一种新颖的包含匹配方法,解决了自动着色的挑战,尤其是在动画中,遮挡和皱纹可能会破坏传统的片段匹配。

Lofi 音乐数据集

https://huggingface.co/datasets/vikhyatk/lofi

由音乐生成模型生成的音乐片段和详细文本描述的数据集。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容