九游下载中心_九游游戏中心官网

九游下载中心_九游游戏中心官网

AI落地千行百业,存储痛点突显,波涛信息怎样助力AI向实?

发布日期:2024-11-08 05:51    点击次数:125

作家 | 陈骏达剪辑 | 漠影

AI期间,存储不仅是数据的栖息之地,更是AI模子素养、落地经由中的坚实底座。

在AI开启的存储行业新周期中,繁密厂商已将带宽等性能目的卷至新的高度。然则,这种追求似乎将AI这一复杂应用场景简短地“存储化”了。

履行上,AI对存储的需求远不啻于性能这一维度自己,更需要让存储“AI化”,关爱全体存储经管决策与AI应用场景的契合度。这少许,亦然人人唯独的AI/ML存储基准测试——MLPerf所关爱的履行。

MLPerf存储基准测试面向AI/ML用户的痛点,即存储和运筹帷幄的均衡及两者的有用驾御。然则测试中存储架构的各样与存算节点的非标准化,导致性能数据自己的参考价值有所下落。

在性能数据除外,有无另一目的不错更为准确地反馈存储系统在AI场景的施展呢?MLPerf存储基准测试条目加快器驾御率需达到90%或70%,在这一区间内调查节点所能支握的最大加快卡数,测试其能否尽可能跑满每个客户端的表面带宽,以完了最好存储性能。

在MLPerf存储基准测试中,由于表面带宽是拯救的,因此整个厂商的经管决策均可归一化到集聚驾御率这一目的上,进行相对客不雅的评估。集聚驾御率的提高意味着本钱的镌汰,算力潜能的更充分开释,存储与AI应用场景的契合度也越高。

本年9月,新一轮MLPerf存储基准测试收获发布,其中,中国企业波涛信息的散布式存储平台AS13000G7,在图像分割模子3D-UNet和天文体模子CosmoFlow悉数8项测试中斩获5项最好收获。这一平台在集聚驾御率上展现出20%傍边的上风,断层跨越。

值得一提的是,本次MLPerf存储基准测试已升级至1.0版块,这一升级冷漠了哪些新的条目,波涛信息又是怎样凭借其技能积淀与全体经管决策,得到新版测试中的多项最好收获的呢?

一、MLPerf测试迎升级,存储助力AI算天文分图像

2018年,图灵奖得主大卫·帕特森(David Patterson)辘集斯坦福、哈佛等顶尖学术机构和谷歌、百度等AI行业头部企业,共同发起了MLCommons协会,同庚推出首款测试套件MLPerf,当今,该测试是影响力最广的外洋AI性能基准评测之一。

▲图灵奖得主大卫·帕特森(图源:ACM)

MLPerf系列测试套件得到学界和产业界的庸俗招供。其中,MLPerf存储基准测试是成心用于AI复杂负载下存储系统性能的测试套件,最大程度地模拟了AI任务的简直负载,数据拜访的pipeline、架构、软件栈均与履行素养门径无异,已成为AI/ML模子诱导者采选存储经管决策的泰斗参考依据。

▲波涛信息是MLCommons的首创成员之一(图源:MLCommons官网)

本次MLPerf存储基准测试1.0版块测试劝诱了人人13家跨越存储厂商和联想机构的参与,测试内容也迎来关键升级,回报了当下复杂AI应用场景对存储冷漠的新需求。

一方面,存储系统的带宽峰值处奢睿力迎来新的挑战,测试尽头关爱了在高性能GPU达到一定使用率的情况下,存储系统能为AI集群提供的全体带宽和单个节点的带宽。

另一方面,测试还强化了对散布式素养的历练,尽头关爱每个存储节点纰漏支握的GPU数目,以此来琢磨用户在AI存储方面的投资效益。

在本次测试中,波涛信息使用3台AS13000G7平台搭建散布式存储集群,并配备ICFS自研散布式文献系统,参与了3D-UNet和CosmoFlow两个单项的测试。

动作图像分割畛域最具影响力的AI模子,3D-UNet模子的测试中使用了海量的图像类非结构化数据,条目存储平台具备高带宽、低时延的特色,才能保证GPU的高效驾御。CosmoFlow天地学分析模子参数目仅有10万-20万,如斯之小的模子对时延冷漠了更高的条目。二者齐是典型的数据密集型应用。

在3D-UNet多客户端2评测任务中,波涛信息的存储平台作事于10个客户端264个加快器,集群团聚带宽达到360GB/s,单个存储节点的带宽高达120GB/s。

在天地学分析CosmoFlow单客户端2和多客户端2评测任务中,波涛信息的存储平台分离提供了18 GB/s和52 GB/s的带宽最好收获。

二、契合AI使用场景,兼顾性能、效劳、韧性

波涛信息多项最好收获的背后,是其面向AI期间,进步存储平台性能、效劳和韧性的勇猛。

性能层面,波涛自研散布式软件栈中的全新数控分离架构经管了散布式存储数据流在节点间流转的转提问题,减少东西向(节点间)数据转发量80%。这一性能的进步能匡助客户检朴浩繁的存储本钱,系统性价比也相应改善。

效劳层面,波涛信息通过多公约数据和会技能,经管了AI应用场景使用多种数据接入公约变成的存储效劳问题,最高可检朴50%的数据存储空间。

韧性层面,为得志AI业务对握续性的条目,波涛信息的可靠性主动经管技能、AIOps系统故障预运筹帷幄法和敲诈软件检测技能,有用防备了建造故障和数据安全问题的出现。相关技能对硬盘故障的料到准确率达到98%,对敲诈软件的检测漏报率仅有0.029%。

怎样将技能整合落地,将技能目的升沉为履行效劳,最终形成齐全且适配AI场景的经管决策,则是委果造福AI行业客户的关节。

波涛信息与AI场景轮廓契合,凭借其产物场景化定制智力与熟练的AI场景经管决策智力,打造出了委果贴合AI需求的存储产物,为AI场景构建坚实的数据撑握平台。

以本次测试中3D-UNet加快器H多客户端下的测试松手为例,波涛信息的多路并发透传技能有用减少了I/O操作中雷同的高下文切换,镌汰单次I/O时延50%。本次测试的3D-UNet场景中,3节点存储撑握了1430个高并发读线程,运筹帷幄节点集聚驾御率达到了72%。

集聚驾御率的提高有用镌汰了集聚资源的糟践。在客户端竖立双网卡情况下,部分参赛经管决策仅有50%的集聚驾御率,意味着整套决策实质上糟践了近乎一整张网卡资源,大大增多了总体本钱。

若在大模子素养的万卡集群下,低集聚驾御率变成的网卡资源的糟践可能高达数千万级别,更无须说建造扩容所激励的算力驾御率下落、一语气线增多、运维复杂度进步等连锁本钱效应。

关于本就本钱不菲的AI基础设施而言,任何不错削减的开支齐显得尤为关节。波涛信息存储经管决策在集聚驾御率上的彰着上风,阐发了相关决策对AI场景的高度适配。

在履行中,波涛信息的存储经管决策仍是在互联网企业大模子素养推理场景、大型AI算力中心与某国度要点实验室中落地。

举例,在大模子场景素养中,波涛信息通过增多全闪存储匡助客户完了效劳进步,将断电续训时辰镌汰到分钟级别。新增20台全闪存储进步的效劳,极端于新增了10多台GPU作事器,从投资角度上来看,每100万存储投资极端于300万的GPU作事器投资。

而针对大模子推理场景中多文献公约特色,波涛信息的和会存储决策让客户检朴了公约升沉的时辰,使得数据采集准备时辰检朴30%,存储空间也大幅检朴。

结语:生成式AI步入下半场,存储成AI向实关节

据工信部测算,到2035年,中国生成式AI的市集限制将冲破30万亿元,制造业、医疗健康、电信行业和零卖业对生成式AI技能的接受率迎来较快增长。

2024年,生成式AI正过去所未有的速率走入千行百业。AI行业仍是由百模大战时期的“卷模子”,搬动为“卷场景、卷应用”,或将迎来下半场的角逐。

在AI向实发展的程度中,数据是一语气物理天下与数字天下的迫切桥梁,而存储动作数据的载体,握续在AI落地的履行中施展关节作用。