头条
Stability AI 推出更小、更高效的 1.6B 语言模型
Stability AI 的最新版本 Stable LM 2 1.6B 是一个紧凑而强大的语言模型,支持七种语言。 它的设计目标是在 20 亿个参数下超越其他模型,包括它自己之前的 3B 模型。 凭借其较小的尺寸,它旨在降低开发人员的门槛,提供各种版本,包括独特的“半生不熟”模型,以提供更多的定制灵活性。
特斯拉终于发布 FSD v12
https://electrek.co/2024/01/22/tesla-releases-fsd-v12-last-hope-self-driving/
特斯拉已开始推出其全自动驾驶 Beta v12 更新,该更新将车辆控制从显式 C++ 代码转变为人工智能驱动的单一神经网络。 尽管该软件仍被标记为测试版,但该版本的发布标志着该公司在实现自动驾驶目标方面迈出了重大一步。 在该软件向谨慎选择的 Beta 测试人员推出时,人们仍会持怀疑态度,直到观察到自动驾驶功能的切实改进为止。
研究
深入探究:从头开始的 LoRA
https://lightning.ai/lightning-ai/studios/code-lora-from-scratch
LoRA 是低阶适配器,允许人们仅微调语言模型中的少量参数。 他们可以显着提高和改变这些模型的性能。
分组一切
https://www.garfield.studio/
3D 分组是一项具有挑战性且不明确的任务,因为人们不知道分组操作需要什么粒度(例如,键盘上的按键与整个键盘本身)。 这项工作使用了多级掩码,在语义 3D 分组问题上取得了很大进展。
面混合器扩散
https://www.justinpinkney.com/blog/2024/face-mixer-diffusion/
这项工作展示了如何使用扩散来Clone 图像中的面部。 有很多方法可以用Deep Fake 来做到这一点,但扩散很有趣,因为它能够根据需要修复图像的其他部分。
工程
通过独特的数据选择自我改进人工智能 (GitHub Repo)
https://github.com/ofa-sys/diverseevol
DiverseEvol 是一种新方法,可以让人工智能模型选择自己的训练数据来变得更好,而不需要人类或其他先进人工智能系统的帮助。
自我奖励语言模型 (GitHub Repo)
https://github.com/lucidrains/self-rewarding-lm-pytorch
该项目探索自我奖励语言模型,其中模型充当自己的法官来改进培训。 通过使用这种方法,研究人员能够提高模型的性能,超越 GPT-4 等其他系统。
深度估计的任何深度
https://depth-anything.github.io/
Depth Anything 是一种单目深度估计的新方法,它依赖于约 6200 万张图像的大规模数据集来提高其准确性。 通过使用来自预训练编码器的数据增强和辅助监督,该模型实现了令人印象深刻的泛化能力,并在深度估计方面树立了新标准。
杂七杂八
我的人工智能时间线再次加快 (Again)
https://www.alexirpan.com/2024/01/10/ai-timelines-2024.html
作者根据扩展模型的进步修改了他们的人工智能时间线预测。 他们现在估计,到 2028 年实现通用人工智能的可能性为 10%,到 2045 年实现人工智能的可能性为 50%。这些变化归因于大型语言模型的有效性以及对许多智能能力可能大规模出现的认识。
文本生成中的交互控制
https://julianjuaner.github.io/projects/PromptHighlighter/
研究人员推出了“提示荧光笔”,这种方法通过允许用户突出显示提示的部分内容,彻底改变了多模式语言模型中的文本生成。
微软纳德拉希望 OpenAI 保持稳定,而不是控制
https://www.bloomberg.com/news/articles/2024-01-16/microsoft-s-nadella-wants-stability-at-openai-not-more-control
微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 对微软与 OpenAI 的合作现状感到满意,在欧盟和英国的监管审查中,重点关注稳定性而不是控制。 他强调了微软的独立人工智能开发以及对 OpenAI 的大量投资。
图像文本数据生成 (GitHub Repo)
https://github.com/opengvlab/mm-interleaved
MM-Interleaved 是一种新的生成模型,擅长处理和创建交错的图像文本数据。