头条
Anthropic 为 Claude 添加系统提示
https://docs.anthropic.com/en/release-notes/system-prompts
Anthropic 为所有模型添加了系统提示并更新了日期。
Salesforce 推出文本转视频生成
https://www.arxiv.org/abs/2408.12590
Salesforce 推出了 xGen-VideoSyn-1,这是一种文本转视频 (T2V) 模型,可根据文本描述生成逼真的场景。该模型使用视频变分自动编码器 (VidVAE) 来压缩视频数据,从而降低计算需求,并使用扩散变换器 (DiT) 来提高时间一致性和泛化能力。
研究
无限数据集中心
https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub
由 phi-3-mini 提供支持,该空间使用稀有提示来生成有关任何主题的数据。它不是最准确的,但它令人着迷且功能强大。
Neural 资产
https://neural-assets-paper.github.io/
神经网络可以通过调节每个对象的表示来表示和操纵 2D 场景中的 3D 对象。这项工作很可能是 3D 对象解开的圣杯。
文本引导的 3D 动画
https://arxiv.org/abs/2408.12885v1
研究人员引入了一种名为 T3M 的新方法,用于创建由文本输入引导的 3D 动画。与以前仅依赖语音的技术不同,T3M 可以实现更准确、可定制的动画,使其成为虚拟现实、游戏和电影制作的宝贵工具。
工程
BiRefNet
https://github.com/ZhengPeng7/BiRefNet
使用双参考分割去除背景的最新技术。
RB 调制
https://github.com/google/RB-Modulation/
Google 有一种非常新颖的方法来个性化扩散模型,其性能优于许多常用方法。它可用于 PyTorch,经过一些轻微的修改即可与 Flux 配合使用。
使用视觉语言模型进行图像编辑
https://github.com/a-new-b/flex_edit
FlexEdit 是一种图像编辑方法,它将视觉大型语言模型 (VLLM) 与自由形状蒙版相结合,以便根据语言指令进行更精确的编辑。
杂七杂八
AI 公司正从创造神转向制造产品
https://www.aisnakeoil.com/p/ai-companies-are-pivoting-from-creating
AI 公司正在努力寻找适合 LLM 的产品市场,这导致了大量投资,但商业成功却有限。阻碍 AI 产品可行性的五个主要挑战是成本、可靠性、隐私问题、安全和保障问题以及用户界面限制。克服这些社会技术问题对于 AI 在消费产品中的有效集成和广泛采用至关重要。
D-ID 推出了一款包括语音克隆和唇形同步的 AI 视频翻译工具
D-ID 推出了一项 AI 视频翻译功能,可以克隆说话者的声音并同步翻译视频中的唇形动作。它支持 30 种语言,旨在降低全球活动的本地化成本。它可供订阅者使用,计划起价为每年 56 美元。该技术与 YouTube 和 Vimeo 等公司提供的类似产品以及众多 AI 语音克隆工具竞争。
我的朋友 Claude
https://trevorklee.substack.com/p/my-friend-claude
由于工作需求增加,作者依靠 Anthropic 的LLM Claude 进行技术写作,这凸显了LLM 在专业环境中日益增长的实用性。尽管需要专家验证,但 Claude 的帮助已被证明具有成本效益,并强调了面对人工智能驱动的自动化的细分专家的快速变化的前景。随着 Claude 等人工智能工具越来越多地融入日常任务,作者反思了知识工作的潜在转变。
ShellMate AI
https://www.producthunt.com/posts/shellmate-ai
由 OpenAI 提供支持的 Mac 终端生产力工具。
Phi 3.5 的快速微调
https://colab.research.google.com/drive/1lN6hPQveB_mHSnTOYifygFcrO8C1bxq4
使用 Unsloth 快速微调新 Microsoft 模型的脚本。
Vyond 推动 AI 视频的企业时代
https://www.vyond.com/blog/vyond-new-all-in-one-2024-release/
Vyond 是一个针对企业用例的 AI 视频创建平台。