头条
OpenAI首席执行官为分布式芯片制造公司筹集资金
https://beebom.com/openai-sam-altman-raising-money-ai-chip-factories/
据报道,Sam Altman 正在为人工智能芯片制造工厂的弹性分布式系统筹集资金。 当前的人工智能芯片供应链与地缘政治冲突密切相关,并面临中断的风险。
谷歌 DeepMind 科学家正在商谈离开并组建人工智能初创公司
https://finance.yahoo.com/news/google-deepmind-scientists-talks-leave-193114887.html
谷歌人工智能子公司 DeepMind 的两位科学家正在与投资者洽谈在巴黎组建一家人工智能初创公司的事宜,这凸显了目前顶尖人工智能人才的需求量。
AI手机即将到来
https://www.theverge.com/2024/1/16/24040562/samsung-unpacked-galaxy-ai-s24
三星将推出新的专注于人工智能的手机,突出人工智能在移动技术中的发展,例如谷歌的 Pixel 8 Pro 和 CES 2024 上流行的 Rabbit R1。
研究
深入探讨:文本转视频
https://huggingface.co/blog/text-to-video
从文本描述生成视频是一个活跃的研究领域,过去几周出现了许多强大的模型。 Hugging Face 团队的这篇博客概述了任务、当前挑战和研究现状。 它并不完全全面,但将为进一步阅读提供一个很好的起点。
适用于各种图像和视频分割的模型
https://lxtgh.github.io/project/omg_seg/
OMG-Seg 是一种新模型,可以使用单个高效系统执行各种图像和视频分割任务。 与针对每个任务使用不同模型的传统方法不同,OMG-Seg 可以处理从图像语义到交互式视频分割的所有内容,使其成为降低复杂性并增强性能的一站式解决方案。
开放词汇视频实例分割
https://arxiv.org/abs/2401.09732v1
研究人员开发了 BriVIS,这是一种改进开放词汇视频实例分割 (VIS) 的方法。 通过使用一种称为布朗桥的技术,BriVIS 可以维持视频帧中对象移动的上下文,从而实现视频和文本之间更准确的对齐。
工程
3D 并行库 (GitHub Repo)
https://github.com/huggingface/nanotron
HuggingFace 发布了 Nanotron,这是一个小型但功能强大的库,用于训练具有 3D 并行性的模型。 这意味着它将数据、模型和模型中的层/张量分开。 PyTorch 等库很好地支持前两种类型的并行性。 然而,分割模型张量是每个模型自定义的,并且通常很难实现。 该库提供了有用的原语,使该过程更容易且不易出错。
用于数据过滤的库(GitHub Repo)
https://github.com/huggingface/datatrove
HuggingFace 发布了 Datatrove,一个用于过滤大型文本数据集的库。 它具有许多有用的原语和用于文本过滤的完全并行管道。 提供了在 C4 中使用 Gopher 质量过滤器的示例。
图像字幕软件 (GitHub Repo)
https://github.com/ANTONIOPSD/CaptionIMG
简单的软件,可用于为图像添加标题以进行人工智能训练。
杂七杂八
微软如何利用人工智能发现潜在的新型电池材料
https://www.theverge.com/24027031/microsoft-new-solid-state-battery-material-ai
微软和西北太平洋国家实验室利用人工智能和大规模云计算发现了一种新的电池材料。 该材料是一种新型固态电解质。 与锂离子电池相比,它可能导致电池起火的可能性更小。 虽然该材料仍需要进行测试,以确定它是否是锂离子电池的可行替代品,但这一发现证明了人工智能加速材料发现的潜力。
更清晰的遥感图像
https://arxiv.org/abs/2312.07849v1
RSHazeNet 是一个旨在消除遥感图像雾霾的新框架。 该工具使用创新模块来更好地理解和保留图像中的重要细节,使它们更清晰、更有助于分析。
提升视觉基础模型 (GitHub Repo)
https://github.com/tencentarc/visft
新的 ViSFT 方法通过应用类似于语言模型微调的两阶段过程来增强视觉基础模型,就像图像文本训练中使用的模型一样。
人工智能工具包 (GitHub Repo)
https://github.com/linkdd/aitoolkit
AI Toolkit 是一个纯头文件 C++ 库,为游戏 NPC 带来有限状态机、行为树、实用 AI 和面向目标的行动规划。
谷歌将把 Bard Advanced 宣传为提供“复杂、更好的响应”
https://9to5google.com/2024/01/19/bard-advanced-better-responses/
与当前版本相比,Bard 的增强版有望提供更复杂、更好的响应,当前版本运行在 Gemini Pro 上并与 GPT 3.5 竞争。