头条
"苹果智能" 的功能列表
苹果公司发布了 "Apple Intelligence "人工智能套件,该套件具有会话式 Siri、人工智能生成的 "Genmoji "和用于复杂请求的 GPT-4o 集成等功能。这些功能将为新款 iPhone、iPad 和 Mac 所独有。它们将在今年秋季的 iOS 18、iPadOS 18 和 macOS Sequoia 中以英文推出。苹果公司通过设备上处理和 "私有云计算"(Private Cloud Compute)处理设备外任务来强调隐私,并允许独立的隐私验证。
研究
Proofread: 一键改正所有错误
https://arxiv.org/abs/2406.04523
Gboard 团队概述了他们如何在 PaLM2-XS 模型上使用 SFT 来修复设备上书面文本中的句子和段落级错误。他们发现延迟优化带来了巨大的改进和使用率的提高。
BitsFusion: 1.99 位权重量化扩散模型
https://snap-research.github.io/BitsFusion/
Snap Research 团队采用新的量化方案,将稳定扩散 UNet 模型的大小从 1.72 GB 减少到 219MB,同时提高了性能。量化方法有些复杂,但为在消费类硬件上运行生成模型描绘了一条强劲的前进道路。
Apple 的基础模型介绍
https://machinelearning.apple.com/research/introducing-apple-foundation-models
苹果公司在 WWDC 2024 上推出了 "苹果智能"(Apple Intelligence)。Apple Intelligence 是一个集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中的人工智能系统,具有先进的生成模型,可用于文本提炼、通知汇总和图像创建等各种日常任务。该系统强调负责任的人工智能开发和用户隐私,结合了设备上和云端功能,以增强苹果产品的用户体验。
工程
Thread
https://github.com/squaredtechnologies/thread
Jupyter 笔记本将 OpenAI 代码解释器的体验与 Python 笔记本熟悉的开发环境相结合。
Better Open-Vocabulary Recognition
https://arxiv.org/abs/2406.04675v1
OVMR 是一种新方法,它通过结合文本描述和示例图像来增强开放词汇识别能力。
增强多模式培训的稳定性
https://arxiv.org/abs/2406.04802v1
预测性动态融合(PDF)框架通过解决可靠性和稳定性问题来增强多模态学习。
杂七杂八
人工智能图像模型如何工作
https://every.to/p/how-ai-image-models-work
自 2022 年以来,人工智能图像生成技术已经从基于文字描述创建图像发展到现在。本文以儿童游戏为类比,解释了这些模型如何改进噪声输入,生成详细而具体的图像,展示了人工智能在视觉创意方面的快速进步和潜力。
Enhancing Depth Sensing
研究人员推出了一种新的框架,将主动立体原理集成到标准无源相机中,而无需使用物理图案投影仪。
Asana称其新 AI队友已准备好管理你的项目
https://www.fastcompany.com/91134681/asana-ai-teammates-dustin-moskovitz-interview
Asana 推出了 "人工智能队友",用于主动处理分流请求和整理项目细节等任务,旨在提高效率和产出质量。这项在 Asana 工作创新峰会上展示的新功能被集成到工作流程中,像人类团队成员一样行动,但仍处于人类监督之下。
glm 4 9b
https://huggingface.co/THUDM/glm-4-9b-chat
来自清华 KEM 小组的优秀模型,经过 10T 词库训练,支持 26 种语言。
高质量 3D 生成
DIRECT-3D 是一种全新的基于扩散的三维生成模型,可根据文字提示创建高质量的三维资产。
ChainGPT
人们在所有加密货币和区块链相关主题方面的个人人工智能专家。