头条
构建 LLM 应用程序
用 LLM 构建看起来很酷的东西很容易,而让这个看起来很酷的东西产生实际生产力却有很多困难。许多挑战来自自然语言的歧义,以及如何存储提示。 Chip Huyen 的这篇文章给出了他对此问题的深刻的见解,并给出了一个他觉得比较有前途的 LLM 应用程序列表。
AWS 推出 Bedrock 服务
亚马逊宣布了一项名为 Bedrock 的 AWS 新服务,允许客户使用来自不同公司的基础模型,例如anthropic 和stability AI。这个想法是采用开放模型加上客户自己的书(只需将其指向 s3)。最近有很多关于数据隐私和安全的讨论,有了这项服务,人们可以在自己的 AWS 基础设施中运行模型,从隐私的角度来看这很有吸引力。亚马逊还宣布了两个新模型,并允许个人开发者免费访问他们的代码模型。
研究
DreamPose:通过Stable Diffusion实现时尚图像到视频的合成
DreamPose 是一种基于Stable Diffusion的图像到视频合成模型。给定人物和姿势序列的输入图像,DreamPose 会按照姿势序列合成输入人物的逼真视频。
儿童动画数据集
2021 年,Meta 发布了一个很酷的演示,演示了使用 AI 为孩子们的图画制作动画。现在他们已经开源了包含 100k+ 个示例、动画代码、姿势查找等的数据集。它似乎获得了版权许可,因此对那些有兴趣在自动化动画领域工作的人很有用。很高兴看到这次Meta 在过滤数据集时采取了一些额外的努力来保护隐私。
Vicuna:一款开源聊天机器人,以 90% 的 ChatGPT 质量给 GPT-4 留下深刻印象
本文介绍了 Vicuna-13B,这是一种开源聊天机器人,通过在用户对话数据上 fine tuen LLaMA 得到。 Vicuna-13B 在超过 90% 的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型,同时与 OpenAI ChatGPT 和 Google Bard 相比,质量达到 90% 他们以上。训练 Vicuna-13B 的费用在 300 美元左右,代码和演示是公开的,可用于非商业用途。
工程
使用 VidStyleODE 进行视频编辑
VidStyleODE 结合了 StyleGAN 和 Neural-ODEs 用于分离视频表示,支持外观操作、运动操作、图像动画和视频插值/外推等应用。
Continual Diffusion
文本到图像的 diffusion models 在使用顺序概念进行定制化时会面临灾难性的遗忘问题,导致对过去概念的图像生成效果不佳。我们提出的 C-LoRA 方法通过持续自我调节的low-rank适应克服了这个问题,在持续扩散中优于baseline,并在图像分类的 rehearsal-free 持续学习中设置了最新的最高标准。
动态视频的自适应人像抠图
Adam 是一种用于动态视频的自适应遮罩框架,它通过同时区分前景和背景并捕获各种非结构化视频中的 alpha 遮罩细节来解决无 trimap 方法的局限性。利用互连的编码器-解码器网络和Transformer网络,Adam 提高了消光真实感和时间相干性,为复杂的真实世界视频实现了同类模型中的最佳的通用性。
杂七杂八
Chroma 的驻场黑客
在最近的筹款活动之后,矢量数据库初创公司 Chroma 希望聘请一名黑客,为期 3 个月,以构建需要长期记忆的酷炫 AI 应用程序。具体来说,他们希望这位黑客能够自我驱动并构建强大的应用程序!考虑到在语言模型之上进行 MVP 开发的便利性,我希望看到更多此类职位出现。
人工智能如何颠覆视频游戏
这篇文章探讨了人工智能颠覆视频游戏行业的潜力,强调了机器学习和程序内容生成方面的创新如何改变游戏开发、用户体验和该行业的整体经济。
人工智能不断增加的人力和环境成本
本文认为,虽然生成式 AI 是一项令人兴奋的发展,但考虑其人力和环境成本至关重要,例如增加的能源消耗、碳排放以及侵蚀创意专业或利用人类生成内容的风险。
Meta 开源了它的动画绘图模型
Meta 开源了一个 AI 项目,可以将用户的涂鸦转化为动画,使开发人员和艺术家能够使用该技术。
欧洲隐私监管机构创建 ChatGPT 工作组
欧洲数据保护委员会将在周四的会议上讨论人工智能政策,强调在欧盟解决数据隐私、道德问题和围绕人工智能的监管框架越来越重要。
Midjourney AI 指南 (Notion Page)
使用 Midjourney 的指南。
EditAnything (GitHub Repo)
一个旨在编辑和生成图像中的任何内容的项目,由 Segment Anything、ControlNet、BLIP2 和 Stable Diffusion 组成。