Nutanix云原生副总裁兼总经理Dan Ciruli表示,主权人工智能的快速部署需求以及在边缘运行推理的趋势,正在推动更多企业在本地部署Kubernetes。
在最近访问新加坡时,Ciruli在接受ComputerWeekly采访时指出,虽然Kubernetes已经存在超过十年,但现代AI工作负载的需求正在改变容器编排平台的部署方式和位置。
虽然许多组织此前依赖托管Kubernetes服务,如AmazonElastic Kubernetes Service或GoogleKubernetes Engine,但保持敏感数据内部化的需求正在将Kubernetes工作负载推回数据中心。
Kubernetes是构建AI技术栈的必要组件
"Kubernetes是构建AI技术栈的必要组件,"Ciruli说道。"如果你使用AI即服务,或使用Gemini或OpenAI,你可能不太需要它,但我们看到对主权AI有很大需求。"
他指出,不断上涨的云成本已经将一些工作负载推回本地部署,但将AI应用于内部数据的愿望加速了这一转变。
"如果你想在本地进行AI处理,而你的数据就在那里,你就必须解决Kubernetes这个难题,"Ciruli补充道。"在边缘也是同样的情况;在边缘运行推理的需求意味着你必须将Kubernetes部署到那里。"
复杂性是主要挑战而非人才短缺
关于企业在本地运行Kubernetes以支持AI工作负载时面临的挑战,Ciruli表示主要障碍不是缺乏人才,而是从零开始构建生产就绪技术栈的复杂性。
"我在过去12年中看到的每项关于阻碍Kubernetes采用的调查都提到了技能差距,但这实际上意味着复杂性太高,"Ciruli说。"我不喜欢将责任归咎于人员。"
他解释说,Kubernetes很少是独立安装的,通常需要与多达30个开源项目集成,还需要图形处理单元认证和安全治理。
"必须有人弄清楚如何进行升级以及什么将被自动化。如果你使用云服务,这些问题都会被处理,但如果你想本地部署,你必须弄清楚什么是正确的Kubernetes。"
为了解决这个问题,Ciruli表示Nutanix提供了一个交钥匙的、AI就绪的Kubernetes平台,该平台提供操作系统和虚拟机监控程序的选择,与思科等硬件供应商合作建设所谓的AI工厂,并确保与英伟达的认证。
AI工作负载重新点燃裸机部署讨论
随着AI工作负载重塑基础设施,在裸机与虚拟机上运行容器的争论再次浮现。Ciruli认为,虽然虚拟机将继续作为通用应用程序的标准,但AI正在为裸机部署开辟细分市场。
"如果今天在虚拟机中运行,它可能会永远在虚拟机中运行,"Ciruli说,并指出大多数传统应用程序永远不会被重写以在容器中运行。然而,AI集群的处理方式有所不同。
"我们看到公司越来越多地运行裸机Kubernetes的地方是AI,"他解释道。"他们通常购买物理上独立的支持GPU的节点集群,GPU驱动程序在裸机上运行时也工作得更好。"
Ciruli补充说,虽然虚拟化的性能开销只有个位数百分比,但在GPU基础设施上大量投资的组织希望从硬件中榨取每一分性能,这导致他们为AI工作负载选择裸机服务器。
"我们甚至有客户在虚拟机中运行控制平面节点,而他们的工作节点在裸机GPU机器上运行的Kubernetes集群上。"
博通收购VMware引发市场重新评估
在博通收购VMware引发市场动荡的背景下,本地基础设施的转变正在发生。Ciruli指出,这促使企业重新评估其供应商关系,锁定效应是主要担忧。"我们仍然听到客户谈论这如何影响他们的计划,"他说。
虽然一些公司已经脱离VMware——Nutanix提供免费迁移工具——Ciruli警告说,迁移平台很少仅仅是技术挑战。
"最大的担忧是他们的人员,"他说。"你可能会与一个拥有数百名运维人员、在VMware方面有超过十年经验的大型企业客户交谈——帮助他们规划人员过渡方式是困难的部分。"
Ciruli表示,Nutanix解决锁定担忧的策略依赖于使用上游Kubernetes而不是分叉版本,确保跨不同Kubernetes发行版的可移植性,并通过云原生计算基金会的Kubernetes一致性程序认证。
"我们不想分叉并产生不符合标准的东西,"他说。"今天使用它的公司明天可以无需任何更改地部署到其他人的Kubernetes上。"
Q&A
Q1:为什么企业要将Kubernetes从云端搬回本地部署?
A:主要原因是主权AI和边缘AI的需求。企业需要将AI应用于内部敏感数据,保持数据在内部,同时在边缘运行推理,这推动了Kubernetes工作负载回到数据中心。此外,不断上涨的云成本也是推动因素之一。
Q2:本地部署Kubernetes面临的最大挑战是什么?
A:主要挑战不是人才短缺,而是复杂性太高。Kubernetes很少独立安装,通常需要与多达30个开源项目集成,还需要GPU认证和安全治理。企业必须解决升级、自动化等问题,而这些在云服务中都已经被处理好了。
Q3:AI工作负载为什么更适合在裸机上运行Kubernetes?
A:AI集群通常是物理上独立的支持GPU的节点,GPU驱动程序在裸机上工作更好。虽然虚拟化性能开销只有个位数百分比,但在GPU基础设施上大量投资的组织希望获得最佳性能,因此选择裸机服务器来运行AI工作负载。