1.在AMD GPU上实现高性能LLM推理
2.IT行业都有哪些职位?
3.Unity官宣Unity 6,理源有哪些新亮点?抢先体验生成式AI工具开放内测,源码有何看点?
在AMD GPU上实现高性能LLM推理
在AMD GPU上实现高性能LLM推理,理源采用ROCm编译LLM(大语言模型)并在其上部署,源码可以达到显著的理源性能。具体而言,源码php内网源码在Llama2-7B/B上,理源AMD Radeon™ RX XTX的源码推理性能可达到NVIDIA® GeForce RTX™ 速度的%,NVIDIA® GeForce RTX™ Ti速度的理源%。Vulkan支持同样使得LLM部署可以推广到其他AMD设备,源码如搭载了AMD APU的理源SteamDeck。
自从开源LLM的源码快速发展,性能优秀的理源推理解决方案大多基于CUDA,并针对NVIDIA GPU进行了优化。源码然而,理源随着计算需求的日益增长,扩展到更广泛的硬件加速器类别变得尤为重要。AMD GPU被视为潜在的选项之一。
硬件指标和软件栈对比显示,AMD的linode源码RX XTX与NVIDIA的RTX Ti在规格上相当。过去AMD在硬件性能上落后于NVIDIA的主要原因并不是硬件本身,而是软件支持和优化。然而,目前的生态系统中,这一差距正在逐步缩小。本文将深入探讨在AMD GPU上实现大模型推理的解决方案与NVIDIA GPU+CUDA的高效解决方案相比性能如何。
机器学习编译(MLC)是一种新兴技术,旨在编译和自动优化机器学习模型。MLC解决方案利用MLC-LLM,它建立在Apache TVM Unity之上,后者是一个基于Python的高效开发和通用部署的机器学习编译软件栈。MLC-LLM支持CUDA、Metal、ROCm、Vulkan和OpenCL等后端,涵盖了从服务器级别GPU到移动设备的广泛范围。通过MLC-LLM,用户可以使用基于Python的工作流程获取开源的大语言模型,并在包括转换计算图、yyjia源码优化GPU算子的张量布局和调度以及在感兴趣的平台上本地部署时进行编译。
针对AMD GPU和APU的MLC,有几种可能的技术路线,包括ROCm、OpenCL、Vulkan和WebGPU。ROCm技术栈与CUDA有许多相似之处,而Vulkan是最新图形渲染标准,为各种GPU设备提供了广泛支持。WebGPU是最新Web标准,允许在Web浏览器上运行计算。然而,很少有解决方案支持除了CUDA之外的方法,主要是因为复制新硬件或GPU编程模型的技术栈的工程成本过高。MLC-LLM支持自动代码生成,无需为每个GPU算子重新定制,从而为以上所有方法提供支持。性能优化最终取决于GPU运行时的质量以及在每个平台上的可用性。
在AMD GPU上实现高性能LLM推理的strcoy源码解决方案提供了与NVIDIA GPU相当的性能。ROCm5.6下,AMD XTX可以达到NVIDIA 速度的%,考虑到CUDA性能,MLC-LLM是CUDA上大语言模型推理的最优解决方案,但仍有改进空间,如通过更好的attention算子优化。在查看性能测试结果时,建议放置%的误差。
为了复现性能数据,用户可以利用预构建的安装包和使用说明,确保Linux系统上安装了ROCm 5.6或更高版本的AMD GPU。通过遵循说明安装启用了ROCm的预构建MLC pacakge,运行Python脚本以复现性能数据。此外,MLC-LLM还提供了一个命令行界面CLI,允许用户与模型进行交互式聊天。对于ROCm,需要从源代码构建CLI。
在SteamDeck上运行Vulkan时,scipy源码使用统一内存最多可达GB,足以运行4位量化的Llama-7B。这些结果为支持更多不同类型的消费者提供了启示。
讨论和未来的方向指出,硬件可用性是生成式AI时代的关键问题。ML编译通过在硬件后端之间提供高性能的通用部署,提高硬件的可用性。基于AMD GPU的解决方案在适当的价格和可用性条件下具有潜力。研究目前重点关注消费级GPU,优化通常可以推广到云GPU。我们有信心该解决方案在云和消费级AMD和NVIDIA GPU之间具有普适性,并将在更多GPU访问权限后更新研究。我们鼓励社区在MLC通用部署流程的基础上构建解决方案。
本文是通过MLC支持高效通用机器学习部署研究的一个阶段性努力,我们正积极地在几个方向上努力推广研究。我们最终的结论是,机器学习系统工程是一个持续的问题。关键问题不仅是构建正确的解决方案,还包括不断更新并解决硬件可用性问题。基于Python的ML编译开发流程使得我们可以在几小时内获得ROCm优化的支持,这在我们探索更多关于通用部署的想法时变得尤为重要。
相关资源包括GitHub上的项目发布、详细指南、MLC LLM的源代码、Discord频道以及运行在浏览器里的LLM解决方案Web-LLM。我们特别感谢CMU、UW、SJTU、OctoML团队成员以及开源社区的支持,特别感谢Apache TVM社区、TVM Unity开发人员、LLaMA、Alpaca、Vicuna团队和huggingface、pytorch等开源社区的帮助。
IT行业都有哪些职位?
“it行业的职业有:程序员和系统分析员、硬件工程师、硬件测试工程师、软件工程师。
IT行业指的是信息技术产业。
信息技术产业,又称信息产业,它是运用信息手段和技术,收集、整理、储存、传递信息情报,提供信息服务,并提供相应的信息手段、信息技术等服务的产业。
信息技术(IT即InformationTechnology)就是感测技术、通信技术、计算机技术和控制技术。也许您不满意这个定义,但这的确是一个又简洁、又具体、又系统、又实用的定义。
Unity官宣Unity 6,有哪些新亮点?抢先体验生成式AI工具开放内测,有何看点?
全球领先的实时3D创作与运营平台Unity Technologies近日在其官方博客上正式发布了Unity 6的预览版,这一新版本预示着众多创新和提升的开始。4月日,Unity 6 Preview作为开发周期的收官之作,亮点众多,包括加速渲染、新的照明选项、改进的多人游戏流程、增强的Web和XR功能以及生成式AI工具的亮相。
Unity 6关注移动游戏的普及,通过支持Web runtimes,开发者能将游戏无缝部署到网页,无需安装,只需浏览器即可体验,这在拓宽游戏受众方面具有重大意义。在虚拟与增强现实领域,Unity 6为XR(扩展现实)提供了更全面的支持,优化性能,提升渲染质量,并扩大对各种硬件设备的兼容性,打造更沉浸的交互体验。
尤为引人注目的是Unity 6引入的生成式AI工具,如Unity Muse和Unity Sentis的体验版。Muse让开发者能够快速生成游戏资产和动画,实现AIGC(AI生成内容)的整合,而Sentis则提供实时智能推理,支持游戏内的逻辑判断和复杂计算。通过这些工具,游戏开发者能够轻松集成AI功能,如对象识别、智能NPC和图形优化,标志着生成式AI在游戏开发中的实际应用迈出了重要一步。
Muse已进入抢先体验阶段,开发者可以试用包括生成代码、AI纹理和精灵图在内的核心功能。Unity计划进一步丰富AI生成内容,涵盖动画自动生成、行为定义和高效场景构建。开发者可放心,所有训练数据基于Unity的版权材料,版权问题无需担忧。
除了AI技术的革新,Unity 6还优化了渲染性能,引入GPU常驻渲染等新技术,全面提升游戏表现。预览版的发布凸显了Unity在游戏开发领域的持续领导地位,通过新功能如Build Profiles和WebGPU后端,Unity 6旨在帮助开发者创造更具吸引力的游戏,推动3D内容创造产业的前行。