头条
Google I/O
https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/
谷歌在 2024 年 I/O 大会上发布了许多新功能,包括 Gemini Flash、Veo 视频生成、Imagen 3 以及最新的助手 Project Astra。总之,谷歌的改进令人印象深刻,包括 2 米令牌上下文长度、大幅便宜的机型和改进的多模态功能。
Anthropic Is Expanding To Europe And Raising More Money
https://techcrunch.com/2024/05/13/anthropic-is-expanding-to-europe-and-raising-more-money/
Anthropic 已将其人工智能助手 Claude 扩展到欧洲。克劳德支持多种语言。Anthropic 正在其网站、iOS 应用程序和面向团队的商业计划中提供这项服务。公司正在开始筹集更多资金。
研究
Mamba 对视觉任务的适用性
https://arxiv.org/abs/2405.07992v1
研究人员对通常用于具有长序列和自回归特征任务的 Mamba 架构及其在视觉任务中的应用进行了研究,发现虽然 Mamba 在图像分类方面效果不佳,但在检测和分割任务中却大有可为。
A New State-Free Sequence Parallel Inference
https://arxiv.org/abs/2405.06147v1
为深度学习开发了一种使用双转移函数表示法的新状态空间模型。它采用无状态序列并行推理算法。
工程
Ollama on Google Firebase
https://firebase.google.com/docs/genkit/plugins/ollama
Genkit 是 Firebase 用于构建和部署生成式产品的新工具集。它可用于启动开源语言模型的服务器。
Image Deraining
https://github.com/mingtian99/esdnet
ESDNet 是一种尖峰神经网络 (SNN),专为图像推导任务而设计。它利用雨点像素值的独特属性来增强尖峰信号强度。
杂七杂八
OpenAI 做了什么
https://www.oneusefulthing.org/p/what-openai-did
GPT-4o 的多模态能力整合了视觉和语音,有望在人工智能与世界的交互方式上取得重大进展,为人工智能在日常生活中更加普及铺平道路。
Fine-Tune PaliGemma
https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb
谷歌在今天的发布会上发布并预告了几个开源模型。其中一个实际发布的模型是基于 SigLIP 的视觉语言模型。它非常容易调整和扩展到各种任务中。这本 Colab Notebook 展示了如何通过简洁、可读性强的代码实现这一点。
xAI 接近 100 亿美元租用甲骨文服务器
https://www.reuters.com/technology/elon-musks-xai-nears-10-bln-deal-rent-oracles-ai-servers-information-reports-2024-05-14/
埃隆-马斯克(Elon Musk)的人工智能初创公司xAI正在洽谈一项可能价值100亿美元的交易,向甲骨文租用云服务器,旨在成为甲骨文最大的客户之一,并与OpenAI和谷歌的人工智能产品相抗衡。
Gemini Flash
https://deepmind.google/technologies/gemini/flash/
Gemini Flash 是谷歌推出的一种新型轻量级模型,具有多模态推理功能和长达一百万个代币的长上下文窗口。
Veo
https://deepmind.google/technologies/veo/
Veo 是谷歌 Deepmind 推出的全新视频生成人工智能模型,可生成 1080p 分辨率的视频,时长可达一分钟以上。