当前位置：网站首页 > |实践总结| > 文章当前位置： |实践总结| > 文章

中国首个专注AI推理的Serverless GPU产品上线：清华力量共绩科技驱动AI普惠

时间：2025-05-26 点击：次来源：网络作者：佚名 - 小 + 大

编者按：本文将深入探讨AI推理领域面临的核心挑战，并介绍中国首个专注AI推理的Serverless产品——共绩算力AI推理Serverless平台。我们将解析其技术亮点、背后源自清华的创业团队力量，以及其如何以创新的价格策略，打造中国版的RunPod，赋能广大开发者与企业，共同迎接AI普惠时代的到来。

当前AI推理算力市场的结构性问题

随着AI应用的落地增长，推理算力的需求持续提升。然而，当下国内的算力服务市场存在的结构性问题，使得推理计算成本始终居高不下，成为了制约AI应用大规模落地的“隐形瓶颈”。

服务僵化，弹性不足： 流量高峰时，GPU一卡难求，应用卡顿，用户流失；流量低谷时，预购的昂贵算力大量闲置，白白烧钱。刚性供给与弹性需求之间的矛盾，直接影响了AI应用的效率和用户体验。

模式传统，阻碍增长： 大多数厂商要求长租，高昂的固定投入让创业公司望而却步，也束缚了业务的快速迭代和试错。

管理繁琐 & 效率低下： 跨平台资源调度、复杂环境配置、持续运维投入……大量工程师的精力被基础设施“绑架”，无法专注于模型创新。

供需错配，一卡难求：算力资源建设粗放，精细化运营缺失，算力供需严重不匹配，一方面有大量闲置算力资源未能被有效利用，另一方面，短租高性能GPU却“一卡难求”。

这些问题共同构成了AI算力市场的“弹性、稳定、低价”不可能三角。在现有模式下，企业往往只能在这三者中选择其二，难以兼得。例如，追求极致弹性可能牺牲稳定性或增加成本；追求稳定和低价则可能失去弹性。这种困境成为AI开发者普遍面临的巨大挑战。

图：多数云平台提供的三类服务：整租（低价&稳定）、按量租（高价&稳定）、抢占式SPOT实例（低价&弹性）

传统GPU整租模式，其设计初衷更多是为了满足持续、高负载的AI训练任务。然而，AI推理的特点是请求量波动大、突发性强、单次请求耗时短。这种模式与AI推理的实际需求存在根本性的不匹配。当流量稀疏时，大量预购的GPU闲置，产生高昂的“空闲成本”；当流量激增时，又因扩容慢而导致用户排队或服务中断。这使得AI应用的成本居高不下，商业模式难以闭环，从而阻碍了AI应用的广泛部署和创新。

图：刚性供给与弹性需求之间的矛盾，直接影响了AI应用成本和用户体验

Serverless GPU：重塑AI应用部署范式

Serverless计算是一种云原生开发模型，它将底层服务器的管理和维护工作完全抽象化，由云服务提供商负责。开发者只需将代码打包成容器或函数，即可部署应用。其核心优势在于：按需付费（闲置不收费）、自动伸缩（根据需求弹性扩缩容）、以及极大地简化运维。

将GPU能力与Serverless模式结合，意味着AI开发者可以按需调用强大的GPU算力，无需预先购买和维护昂贵的硬件，也无需担心资源闲置。特别适用于AI推理这种计算密集型、但请求量不稳定的工作负载，能够大幅缩短处理时间，优化成本。这种模式也适用于实时和批量推理、3D渲染、大数据分析等典型用例。

图：Serverless架构工作机制示意图

全球Serverless GPU市场正在蓬勃发展。在AI算力服务领域，国际上已有先行者，如RunPod，其Serverless产品提供了按小时计费、零出入网费、支持多种GPU型号、容器化部署、闪电般冷启动等优势。主要服务于AI训练和推理工作负载。

图：Runpod.io

但同时，国内却缺少专注于Serverless GPU服务的云计算平台，少数提供Serverless GPU服务的平台往往资源极少（因为压货成本过高），难以实现快速稳定的扩缩，使得多数本土应用难以进行大批量的Serverless部署，制约了AI应用的增长。

共绩算力：专注Serverless GPU推理服务

在这一行业痛点日益凸显之际，“共绩算力”（suanli.cn）应运而生。专注提供Serverless GPU推理服务，打破行业“不可能三角”，实现真正的弹性&稳定&低价，让AI开发者不受算力制约，专注于产品本身，创造无限可能。

为支撑AI应用的快速部署，共绩算力平台为AI推理服务部署打造了极简流程，为AI开发者带来了多重核心价值，真正实现以下特性：

极致弹性，随时扩缩

随流量自动扩缩容： 流量激增时秒级扩容，流量回落时自动缩容归零，告别浪费与排队。

毫秒级按量计费： AI模型推理有请求才付费，没请求不花钱，彻底告别空闲成本。

部署极简，无缝迁移

Docker容器化： 五步部署，一键托管，快速上云，实现真正“零运维”。

兼容各类平台： 提供预制镜像与7x24h免费技术支持，可顺滑迁移。

实测仅需5步，即可在2min内从零启动SD生图服务

资源管饱，价格最优

独家调度网络： 整合全国算力，提供万卡资源。

保障充足低价： 全网最实惠的算力（4090 单卡1.68元/h）。

支撑这一“弹性、稳定、低价”算力服务的，是共绩科技自研的闲时算力调度平台。目前该平台已经调度整合了来自包括金山云、火山引擎在内的26家智算平台的算力资源，超越了单一云厂商的资源边界，使得不可能三角变成可能，平台不仅提供了Serverless的按需付费特性，更通过资源整合扩大了可用算力池，解决了“供需错配”这一结构性问题。

共绩科技团队拥有深厚的学术和技术背景，核心成员来自清华大学、北京大学以及 Intel、字节跳动、阿里等知名企业。团队在分布式资源调度领域深耕多年，目前已经承建青海省、河北省省级算力调度平台，具备极强的工程落地能力，Suanli.cn已累计服务90余家人工智能企业。曾获 2024 年互联网+大赛亚军（金奖，创业组冠军），并已获得奇绩创坛、水木创投等知名机构的投资。

全网低价，助力AI创新

共绩云AI推理Serverless平台上线优惠活动

NVIDIA RTX 4090 单卡推理，价格最高1.68元/小时！

即日起至6月18日，新用户注册并首次充值，额外赠送20%积分！

邀请好友，通过您的邀请码成功拉新，您和被邀请人各得50元积分！

参与方式：活动期间，通过共绩科技官方网站登录用户后台，选择在线充值即可自动参与并获得赠送金额。具体活动细则以官网届时公布为准。

立即访问 suanli.cn，开启您的AI推理新纪元，让算力不再是您创新的瓶颈！

上一篇：畅通无阻——无障碍通行守护者

下一篇：集美大学“星火青芒”暑期社会实践队访旧址重温峥嵘岁月学党史砥砺青春初心