DeepSeek 投下的重石激起了千层浪,不仅被推到全世界的聚光灯下,也迎来了意料之外的众多机会。
上线不到一个月,DeepSeek 应用端就成为了全球增速最快的 AI 应用,日活用户数呈现出一条陡峭的增长曲线。据 AI 产品榜统计,截至 1 月 31 日,DeepSeek 应用(APP)全球日活已突破 2000 万,超过字节跳动的豆包,是 ChatGPT 的 41.6%。
但当用户想和 DeepSeek 进行频繁、深度的对话时,却常常会出现卡顿的情况,得到 " 服务器繁忙,请稍后再试 " 的回复。有用户戏称,DeepSeek 之所以将模型命名为 R1,是因为每天只能运行(Run)一次。
2 月 6 日,DeepSeek 还表示,因当前服务器资源紧张,已暂停 API 服务充值。截至发稿,充值服务仍未恢复。有 AI 从业者告诉蓝鲸新闻,团队原先基于 DeepSeek 模型构建了 AI 搜索功能。但 DeepSeek 爆火后出现 API 服务卡顿、响应超时的情况,导致搜索结果无法生成。春节期间他们不得不加班加点,将服务转移到备用的 GPT-4o 模型上。
中上游的 " 抢滩 " 行动
DeepSeek 让 AI 迎来了 " 破圈 " 时刻,对上下游产业链来说则蕴含着无数商机,手握大量算力的云厂商、芯片厂商开始迅速行动起来。
最先有所动作的便是国内外云厂商,微软、亚马逊等云巨头赶在春节伊始就在自家云平台上接入了 DeepSeek-R1 模型。自 2 月 1 日起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商也纷纷宣布上线 DeepSeek 模型,面向开发者和企业客户提供模型部署服务。
紧随其后的是各大国产芯片厂商。目前已有十数家国产芯片宣布完成了对 DeepSeek 模型的适配和上线,包括沐曦、天数智芯、摩尔线程、壁仞科技等。这些芯片厂商或基于自身构建的算力平台,或与下游的 AI Infra 平台联手,支持 DeepSeek 模型的部署。
一位从业者对蓝鲸新闻解释称,云厂商的敏捷反应得益于它们接入 DeepSeek 的成本较低。DeepSeek 模型是基于英伟达 GPU 训练出来的,而云厂商通常存有大量的此类芯片,可以直接、快速地完成部署。国内芯片厂商在硬件上使用的指令集不同,因此需要另做适配和移植工作,相应的工作量和成本会更大一些。
无论是云厂商还是芯片厂商,都希望能赶上这轮 DeepSeek 的热度。当 DeepSeek 官方的 API 服务不稳定时,能够吸引部分用户跳转到自家平台上,凭借已有的算力资源,为用户提供 DeepSeek 的模型服务。有使用者在初步体验后表示,一些平台的价格和推理速度能够满足其需求,之后会考虑通过第三方平台开发基于 DeepSeek-R1 的 AI 应用。
社交平台上也涌现出不少第三方平台的推广信息,称能够绕开 DeepSeek 官网的拥堵,提供流畅、稳定的使用体验,其中部分平台还亮出了 " 国产芯片 + 国产大模型 " 的招牌。例如硅基流动与华为云团队联手,在其大模型云服务平台上线了基于华为云昇腾云服务的 DeepSeek 模型,华为也在纯血鸿蒙版小艺助手 App 中集成了 DeepSeek-R1。
硅基流动创始人兼 CEO 袁进辉在社交平台上透露,DeepSeek-V3 模型发布前,DeepSeek 创始人梁文锋曾建议可以用最少 20 台英伟达 H800 服务器在其平台上部署。考虑到成本问题,他们没有这么选择。
DeepSeek 走红后,硅基流动团队才决定用国产芯片进行适配。于是和华为达成合作,春节假期 " 加班加点,遇到问题随时讨论,晚上也开会讨论到很晚 "。最终在 2 月 1 日,正式上线了基于国产芯片的 DeepSeek 模型服务。
国产算力的良机
当谈及 DeepSeek 模型是如何与国产芯片搭配在一起时,首先要对大模型的训练和推理阶段进行区分。在训练阶段,大模型还处于学习过程中,需要输入大量的数据,不断调整内部参数,来发现规律。而推理则是大模型完成训练后,进行实际应用的环节。
一位前大厂 AI 工程师对蓝鲸新闻进一步解释称,模型在训练阶段对算力和带宽的要求更高,同时大模型厂商需要试验不同的模型结构、算子,大多会优先选择使用英伟达的 GPU 硬件及其 " 开发工具包 "CUDA。推理阶段对软硬件的要求较低,因此成为许多国产芯片主打的场景,针对已训练好的模型进行兼容和优化。
有国产芯片厂商告诉蓝鲸新闻,虽然 DeepSeek 在结构上有微创新,但仍然是大语言模型。对 DeepSeek 的适配都是在推理应用环节,所以并不难,能够很快实现。
DeepSeek 因低成本引发热议后,曾一度造成英伟达股价暴跌,单日市值蒸发创下美股记录。一个广泛传播的说法是,DeepSeek 在模型开发过程中绕开了英伟达的 CUDA 框架,由此能够降低对英伟达的依赖。究其来源,是 DeepSeek 在 V3 模型技术报告中提到," 我们专门采用定制的 PTX(并行线程执行)指令,并自动调优通信块大小,从而显著减少了 L2 缓存的使用及对其他 SM 的干扰。"
使用 PTX 编程语言是否意味着 DeepSeek 跨过了英伟达 CUDA 的垄断?有从业者表示这种说法是完全错误的,因为 PTX 是属于 CUDA 的一部分,并没有绕开 CUDA。
该从业者解释称,CUDA 是一个软件套装,包括上层的开发语言、丰富的 API 工具库、编译工具等,提供给开发者对 GPU 进行编程。PTX 则是 CUDA 的中间层汇编语言,更接近于硬件层面,通常不直接面向开发者。基于 CUDA 的开发更为上层,因此难以在 GPU 上进行更精细的控制。而使用 PTX 这一更低层次的编程语言,能够更灵活地控制底层硬件,优化程序性能," 这也是 DeepSeek 之所以所需算力更少的创新点之一。"
尽管 DeepSeek 模型仍是基于英伟达 GPU 训练出来的,但无论是它所展现出的对计算资源的高效利用,还是由此引起的国产芯片适配潮,对于芯片产业都是重大利好。
有从业者表示,此前国内大模型公司也会用国产芯片去做一些模型推理或测试训练的工作,但规模有限,并没有达到这次的程度。受 DeepSeek 带动,国产芯片的利用率将会得到极大的提升。
AI 应用落地之年真的来了?
中上游掀起的波澜终会向下游传导,随着 DeepSeek 热潮蔓延,AI 应用层也开始大范围地行动起来。过去几天,智能硬件、汽车、金融等各行各业都在积极接入 DeepSeek 模型,希望借助其能力来升级自身服务。
上周,阅文集团宣布旗下作家辅助创作产品 " 作家助手 " 已集成 DeepSeek-R1 模型,称这是 "DeepSeek 首次在网文领域的应用 "。阅文集团对蓝鲸新闻表示,当调用帮助作家查资料、找灵感的智能问答功能时,DeepSeek 对于作家的提问意图有较强的理解推导能力,能够听懂潜台词和言外之意。
同时,R1 模型展示出的超长思维链对网文作家来说也具备较高的启发性。" 网文作家、尤其是成熟作家,经常抱怨的是 AI 内容的老套重复,他们需要的是启发和思考梳理。" 阅文称。接入 DeepSeek 后,当作家让 AI 生产包含某网站热点元素的网络小说提纲时,除了提供生成的答案,AI 还会在思考过程中先清晰地罗列具体元素,并给出对应热门书目,从而辅助作家获取需要的专业内容。
在 DeepSeek 带来的竞争压力下,OpenAI 上周宣布将其最新模型 o3-mini 系列模型的思维链也予以公开。但其研究员表示,这些思维摘要虽然已经非常接近,却并不是原始的思维链。有开发者之前对蓝鲸新闻分析称,OpenAI 此举可能是出于用户体验、隐私保护、输出质量、技术成本和商业机密等多方面的考虑,既能提供有用的思考过程,又不会带来负面影响。
去年 5 月,DeepSeek 就曾因低定价引爆国内大模型 " 价格战 "。业内普遍认为,大模型降价将有助于推动应用的落地。就 DeepSeek 此番接连发布的两款模型而言,V3 模型的价格优惠期虽已于 2 月 9 日结束,API 调用价格仍是 GPT-4o 的十几分之一。推理模型 DeepSeek-R1 的定价比所对标的 o1 正式版也要低上 27-55 倍。
硅基智能是一家专注 AI 数字人、硅基智慧屏等服务的企业,其创始人、董事长兼 CEO 司马华鹏对蓝鲸新闻表示," 大模型底座的成本降低了,AI 基础设施建设的成本下降,对于行业发展是非常大的促进。AI 应用会出现大爆发,将会产生更多超级应用的出现。"
DeepSeek 对模型的开源和思维链的公开,让硅基智能看到了升级其 AI 数字人能力及服务的可能。春节期间团队快速反应,接入了 DeepSeek 模型,以提升硅基智能数字人系列产品在自然语言理解、情感识别等方面的能力。
2 月 10 日,硅基智能再携手算力企业华鲲振宇发布全新解决方案。整合硅基智能自研的 AI 数字人引擎,并依托鲲鹏、昇腾集群作为国产高性能算力底座,使 DeepSeek 大模型在海量数据处理下具备卓越的响应速度与稳定性。
对国内 AI 产业链来说,这个蛇年春节势必过得并不轻松。而 DeepSeek 所引发的涟漪,或要再等待一些时间,汇聚成更庞大的浪潮。
来源:蓝鲸财经