收藏
数说123 数说123之数字校园
(注:本文数据和内容来自权威信源,非AI生成)
一、项目核心信息
项目名称:北京大学智能学院AI高性能服务器集群招标采购项目
招采单位:北京大学
中标单位:北京中软国际教育科技股份有限公司
中标金额:3596.0862万元
二、项目建设全维度解析
作为北京大学布局AI科研与教学的核心基础设施项目,本次采购围绕“算力支撑-数据存储-网络互联-智能调度”构建全栈AI硬件与软件体系,所有核心设备均明确要求国产自主可控,且深度适配大模型训练、推理及行业应用开发需求,具体建设内容如下:
2.1核心算力底座:AI高性能服务器集群(24台,核心产品)
该集群是项目的核心支撑,聚焦国产算力突破与AI全流程支持,关键技术指标严格限定且部分为强制性要求:
处理器配置:每台服务器搭载≥4颗国产自主可控CPU,单颗CPU核心数≥48,主频≥2.6GHz,TDP功耗≤150W,采用精简指令集,且必须纳入中国信息安全测评中心安全可靠测评结果公告清单,确保核心计算单元的自主可控与安全合规。
AI卡性能:配置≥8块国产自主可控AI卡,单卡HBM内存≥64GB,整机提供≥3.0PFLOPS@FP16算力与≥0.79PFLOPS@FP32算力,卡间实现全互联,聚合互联带宽≥390GB/s,该指标为硬性要求,一项不满足即不得分。同时明确要求,若AI芯片与服务器整机非同厂商,需提供芯片厂商针对本项目的专项授权,保障硬件兼容性与技术溯源。
存储与内存配置:配备≥32根32GBDDR43200MHzECC内存条,保障海量数据处理时的内存支撑;存储层面采用混合存储架构,含≥2块480GBSATASSD硬盘与≥1块3.84TBNVMESSD硬盘,兼顾数据存储的可靠性与高速读写需求。
网络接口能力:满配≥8个200GRoCE光口(含多模光模块)、≥4个25GE光口(含多模光模块)及≥2个GE电口,为AI训练过程中的高速数据传输与集群互联提供硬件基础。
AI软件生态支持:这是本部分的核心亮点,要求AI卡必须支持Pytorch、MindSpore、TensorFlow等主流AI开发框架,且需提供芯片厂商官方软件社区链接与截图证明;同时配套国产自主可控的全流程工具链,覆盖训练开发、推理开发、算子开发全环节,提供分布式训练加速套件(支持主流大语言模型、多模态大模型)、推理引擎(含运行加速、调试调优、快速迁移部署功能)及应用软件开发套件,沉淀行业能力以实现极简开发与极致性能,所有软件能力均需提供厂商官方社区证明材料,确保技术落地性与可持续支持。
硬件可靠性设计:配备≥4块2600W热插拔电源(2+2冗余)、N+1冗余热插拔风扇(支持单风扇失效),并提供免工具滑动导轨套件,保障设备长期稳定运行与便捷运维;管理层面配置独立千兆管理网口,与业务口严格分离,支持电源控制、风扇监控、温度监测、固件更新、错误日志管理等功能,且具备独立远程管理控制端口,可实现与操作系统无关的远程开机、关机、重启及虚拟设备挂载等操作,提升集群运维效率。
2.2数据存储支撑:高容量分布式存储服务器(1台)
存储系统以“大容量、高可靠、国产化、分布式”为核心设计原则,关键指标聚焦自主知识产权与性能适配:
硬件规模配置:由≥3个存储节点组成集群,物理容量不低于2.5PB,可用容量不低于1450TiB;单个存储节点配置≥42块20TSATAHDD主存盘、≥192GB内存、≥2块480GSSD系统盘与≥3.2TBNVMESSD缓存盘,网络接口含≥3个GE端口与≥8个25GE端口,设备总高度不高于12U,兼顾容量与空间利用率。
核心性能要求:采用国产CPU,总核心数≥288,单CPU主频不低于2.6GHz;容量密度方面,每UHDD裸容量需≥300TB,以节省机柜空间;CPU限定为鲲鹏、飞腾、申威等国产品牌自主研发产品,需提供具体型号与主频证明材料。
自主可控与架构优势:明确要求存储系统具有完全自主知识产权,为原始取得的全部权利,非OEM产品、非基于Ceph/GlusterFS等开源架构开发、非基于IBMSpectrumScale文件系统授权,且软硬件为同一品牌厂商;采用全对称分布式架构,无独立元数据节点,数据与元数据均匀分布于所有节点,单个节点故障不影响数据正常访问,保障存储可靠性。
功能特性与安全保障:支持全局文件系统与统一命名空间,单个集群可配置多个独立文件系统,每个文件系统支持1000亿以上文件;兼容NFS/CIFS/POSIX/MPI-IO/HDFS/S3多种访问协议,无需独立网关节点;单一目录支持3000万文件,具备多租户能力,可基于租户配置Qos、域控、协议类型,并支持元数据检索与审计日志查询;Qos功能可覆盖文件/对象/大数据等服务,支持按租户、命名空间、客户端等多维度配置带宽与IOPS上限。安全层面支持安全启动(修改BIOS、引导文件或存储软件后系统无法启动)、故障冗余保护(节点故障时自动调整EC配比)、数据重构(硬盘或节点故障后无人工干预下每TB重建时间≤15分钟)、动态扩容(支持ECN+M动态扩列,最大22+2配比)、分级存储(可配置写入/迁移/删除策略)及防病毒功能(支持ShareOpen、ICAP协议对接第三方防病毒软件),上述多项功能均需提供第三方权威评测机构认证报告,确保技术真实性。
2.3网络互联架构:高速与管理交换机集群(3台)
网络设备作为算力集群与存储系统的“连接中枢”,聚焦自主可控、高性能转发与高可靠性:
AI高速网络交换机(1台):核心指标凸显高速转发与国产化要求,交换容量≥1900Tbps,包转发率≥460000Mpps;硬件规格上,主控槽位≥2个,交换网板槽位≥6个(可扩展至≥9个),业务槽位≥8个,电源槽位≥10个,风扇框≥2个;实配≥2个主控、≥7个交换网板、≥120个400G光端口、≥6个3000W电源,配套96个400G多模模块(可拆分为2200G)与96根一分二线缆。安全与可靠性方面,设备CPU、转发芯片需自主可控,支持数据面故障快速自愈(DPFR)与ERSPAN增强功能,所有核心指标均需提供厂商官网截图、产品手册或第三方检测报告证明。
汇聚交换机(1台):交换容量≥8Tbps,包转发率≥2400Mpps;硬件配置含≥48个25GE/10GE光端口、≥8个100GE光接口,配备≥2个电源与≥5个风扇模块;设备CPU与转发芯片自主可控,支持DPFR与ERSPAN增强功能,核心指标需提供第三方检测报告或厂商证明材料。
管理交换机(1台):交换容量≥670Gbps,包转发率≥200Mpps;支持≥48个10/100/1000Base-T以太网端口与≥4个10GESFP+端口,堆叠带宽(双向)≥48Gbps,配备≥2个电源;设备需具备ID指示灯(支持远程点亮)与物理复位按钮(一键恢复配置),CPU与转发芯片自主可控,核心硬件指标需提供厂商证明材料。
2.4智能调度中枢:AI管理调度软件(1套)
软件系统聚焦集群资源的高效管理与灵活调度,适配AI与高性能计算融合需求:
总体要求:为国产自主研发平台,支持扩展至不少于24节点管理授权(含计算节点与管理节点),兼容英伟达、飞腾、曙光、华为、浪潮等国内外主流架构硬件,需提供不少于三家国产品牌硬件兼容性认证。
核心功能模块:集群管理支持多集群异地管理,管理员可通过Web界面统一管控多个集群,且需具备高校多集群部署案例与截图证明;调度管理支持对接K8S、SLURM等主流调度器及国产调度器CraneSched(需原厂商证明),支持先进先出、公平共享、回填、抢占、资源预留等多种策略及自定义策略,可实现单节点单GPU、单节点多GPU、多节点多GPU及CPU/GPU混合调度;计费管理支持按核心/卡每小时、包年包月、按存储、按账户等多模式收费,可在Web界面设置不同集群分区费率,支持同一资源面向不同账户差异化定价,需提供功能截图并加盖原厂公章;在线演示需接入CPU、GPU、国产芯片、国产操作系统、国产调度器组成的多集群,展示Jupyter、RStudio、通义千问等应用的使用方式,同样需提供加盖公章的功能截图。
辅助功能:支持融合部署(统一HPC与AI资源管理门户)、多级管理模型(用户-账户-租户-平台)、主账号与子账号关联计费、跨集群用户同步与文件传输、作业模板创建与调用、操作审计与报表生成等,同时提供开发API及示例文档支持二次开发。
2.5配套服务与验收标准
服务要求:提供7x24小时技术支持,服务人员需具备专业资质与实操经验,覆盖系统维护、故障排除、软件升级、用户培训等内容;售后服务期限不少于三年免费保障,关键系统享受优先响应;故障响应时间要求4小时内初步响应,24小时内解决90%常见故障,重大故障48小时内处理并定期反馈进度;每季度提供系统健康检查与维护服务,到货后提供现场使用培训直至相关人员熟练掌握。
验收标准:设备到货前需书面通知安装环境要求,到货后现场开箱检查;安装调试后需达到技术规格要求的全部指标,由采购人组织验收并签署验收文件;免费保修期不少于1年(自验收签字之日起),保修期满前1个月提供免费全面检查并出具报告;维修响应时间24小时内,一般问题48小时内解决,重大问题1周内提供解决方案。
交货要求:合同签订后45日内完成交货与安装调试。
三、关键洞察(KeyInsights)
3.1国产自主可控已成政企AI基建的硬性门槛,全链条国产化能力成核心竞争力
本次项目从CPU、AI芯片、存储CPU到交换机CPU/转发芯片,再到AI工具链、训练加速套件、推理引擎、管理软件,均明确要求“国产自主可控”,且部分核心硬件需提供安全测评清单证明、厂商授权或第三方认证报告,体现出高校及科研机构AI基建对供应链安全与技术自主的极致重视。这意味着,未来参与政企AI基础设施投标的厂商,必须具备“硬件-软件-工具链”全链条国产化整合能力,单纯的设备组装或代理销售模式已无法满足需求,核心技术的自主研发与溯源能力将成为中标关键。
3.2AI大模型适配与全流程工具链成算力项目核心加分项
项目对AI卡的算力指标、互联带宽有严格要求,更聚焦大模型支持能力——明确要求支持主流AI开发框架、多模态大模型与大语言模型,配套全流程开发工具链、分布式训练加速套件与推理引擎,且需提供厂商官方社区证明。这反映出高校AI基建已从“通用算力搭建”转向“专项能力支撑”,核心目标是服务于大模型训练、推理及行业应用开发,具备大模型适配经验与成熟工具链的厂商将更易获得科研机构青睐,而单纯堆砌硬件参数的方案将失去竞争力。
3.3高性能算力、存储、网络的协同设计成项目成功关键
项目中AI服务器的200GRoCE光口、高速交换机的400G端口配置、存储系统的25GE端口与分布式架构,形成了“算力-存储-网络”的性能匹配,避免单点瓶颈。这启示行业从业者,AI基建项目的设计需打破单一设备性能最优的思维,转向全链路协同优化,确保算力输出、数据存储、网络传输的能力适配,尤其是大模型训练场景下的海量数据交互需求,需提前规划硬件接口、带宽与架构的协同性。
3.4高校AI基建市场聚焦“实用化、可扩展性与运维便捷性”
项目在硬件配置上强调冗余设计(电源、风扇冗余)、远程管理与免工具运维;软件系统支持多集群管理、弹性扩容、自定义调度策略与灵活计费;服务层面注重培训、定期维护与快速故障响应,体现出高校AI基建“重使用、重效率、重长期稳定”的特点。对于行业厂商而言,除了技术指标达标,还需强化产品的运维便捷性、可扩展性与服务保障能力,形成“技术+服务”的综合解决方案,才能满足高校科研与教学的持续需求。
3.5多维度认证与证明材料成投标必备,合规性与可验证性不容忽视
项目对核心指标要求提供产品彩页、白皮书截图、厂商官网证明、第三方权威评测报告、软件著作权登记证、兼容性认证等材料,部分指标甚至要求“一项不满足即不得分”。这提示行业从业者,在投标前需提前梳理产品的合规性材料与技术验证报告,建立完善的“指标-证明材料”对应体系,避免因材料不全或无法验证而错失中标机会,合规性与可验证性已成为投标环节的基础门槛。
3.6高校AI基建市场规模持续扩大,全栈解决方案服务商迎来增量机会
北京大学作为顶尖高校,此次3596万的AI集群项目彰显了高校在AI科研与教学基础设施上的大额投入。随着人工智能成为高校学科建设与科研创新的核心方向,预计未来更多高校将启动类似的算力集群、存储网络与智能调度系统建设,市场需求将持续释放。对于行业玩家而言,聚焦高校需求特点,打造“国产化算力+大模型适配+便捷管理+长期服务”的全栈解决方案,将有望抢占这一增量市场的核心份额,尤其是具备高校多集群部署案例与成熟生态支持能力的厂商,将获得更强的竞争优势。
教育信息化行业的创新媒体与服务平台,透析数据价值、洞察行业风向,探索教育行业数字化转型之路,分享信息化最新动态,助力教育事业智慧升级。
合作请联系:
*开通会员可解锁*
别忘了点
分享、
收藏、
在看、
点赞
哦!
微信扫一扫关注该公众号
继续滑动看下一个