头条
AMD发布新型AI芯片 与Nvidia竞争
https://www.fastcompany.com/91134766/amd-unveils-new-ai-chips-to-compete-with-nvidia
AMD 在 Computex 展会上发布了最新的人工智能处理器,包括将于 2024 年第四季度推出的 MI325X 加速器。它还详细介绍了通过每年发布新的 AI 芯片与 Nvidia 竞争的计划。MI350 系列预计于 2025 年推出,与 MI300 系列相比,其推理性能有望提高 35 倍。MI400 系列将于 2026 年发布。
Claude 3 Opus 可在 Vertex AI 上使用
谷歌云现在提供 Claude 3 Opus 工具和小型模型,作为其 Vertex AI 产品的一部分。
Mamba-2
https://goombalab.github.io/blog/2024/mamba2-part1-model/
Mambda 是一个功能强大的状态空间模型。其团队发布了第二个版本,并对模型和改进之处进行了详细的解释。
研究
FineWeb:最高质量的网络规模文本数据集
https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1
训练语言模型需要数以万亿计的高质量词库。有关这些数据集构建的许多信息都没有公布。这篇出色的博文讨论了数据集清理和过滤的不同策略。其作者发布了许多用于语言模型训练的最佳数据集。
医疗健康领域的 LLMs
https://arxiv.org/abs/2405.12217v1
InvariantSelectPR 是一种方法,旨在提高大型多模态模型(LMM)在医疗保健等特定领域的适应性。
提高数据稀缺领域的 LLM 性能
https://arxiv.org/abs/2405.20192v1
TrainAllInfAttn 是一种在数据有限的专业领域提高大型语言模型性能的方法。
工程
使用原始视频制作肖像动画
https://megvii-research.github.io/MegFaceAnimate/
MegActor 是一种利用原始视频制作更逼真人像动画的新模型。它采用新颖的数据生成框架和背景编码技术,通过解决身份泄露和背景干扰问题,取得了令人瞩目的成果。
3D 网格生成
https://arxiv.org/abs/2405.20853
MeshXL 是一种可生成高质量 3D 网格的新模式。
使用 Ollama 和 Continue 的完全本地编码助手
https://ollama.com/blog/continue-code-assistant
现在,人们可以在设备上运行自动完成功能和聊天功能,最近在编码方面进行了强大的改进,并采用了多种开放式模型。
杂七杂八
人工智能天气预报已取得巨大进步
天气预报界正在经历一场人工智能模型的革命,如 WindBorne 的 WeatherMesh,该模型使用丰富的 ERA5 数据集,在大大降低计算能力的同时,性能优于传统模型。
手写数学识别
https://arxiv.org/abs/2405.09032
隐含字符辅助学习(ICAL)提高了手写数学表达式的识别能力。
人工智能的通信革命
https://www.digitalnative.tech/p/ais-communication-revolution-were
在实时整合音频、视觉和文本的 OpenAI GPT-4o 的推动下,人工智能正在引领一场通信革命。这种转变使人工智能的互动更加自然,将人与人工智能的交流转变为数字互动的核心模式,并可能带来重大的社会变革和专注于以人工智能为中心的交流的新初创公司。
Amazon's Project Pi AI Looks For Product Defects Before They Ship
亚马逊的 Project PI 利用人工智能和计算机视觉在发货前检测产品缺陷或不正确的规格,从而改进质量控制并减少退货。
Bestever
功能强大的全新人工智能创意套件,用于制作广告。
胸部 X 射线异常检测
https://github.com/sunzc-sunny/ppad
本研究探讨了如何使用基于 CLIP 的方法来检测胸部 X 光片中的异常。