DeepSeek R2因为芯片问题被迫推迟

Deepseek 徽标以风格化的鲸鱼和文字为特色,显示在具有粉红色和蓝色渐变背景的智能手机屏幕上。

8月14日消息,据英国《金融时报》报道,中国人工智能技术公司 DeepSeek 在未能使用华为芯片训练其新模型后,推迟了新模型DeepSeek R2的发布。

据三位知情人士透露,在今年 1 月份发布DeepSeek R1 型号后,当局鼓励 DeepSeek 采用华为的 Ascend AI芯片,以替代使用英伟达(Nvidia)的AI系统。

但知情人士称,这家中国初创公司在使用 Ascend 芯片进行 R2 训练过程中遇到了持续存在的技术问题,促使它被迫继续使用原有的英伟达的AI芯片进行训练,使用华为AI芯片进行推理。

一位知情人士表示,这些问题是R2的发布时间从 5 月份开始推迟的主要原因,导致其输给了竞争对手。

训练涉及模型从大型数据集中学习,而推理是指使用经过训练的模型进行预测或生成响应(例如聊天机器人查询)的步骤。

业内人士表示,与英伟达成熟的AI产品相比,国产AI芯片存在稳定性问题、芯片间连接速度较慢和软件生态上的劣势。

据两名人士透露,华为派出工程师团队前往 DeepSeek 的办公室,帮助该公司使用其 AI 芯片开发 R2 模型。然而,知情人士表示,尽管有华为团队在现场支持,但 DeepSeek R2模型仍无法在 Ascend 芯片上成功进行训练。

知情人士称,DeepSeek仍在与华为合作,使该模型与Ascend兼容进行推理。

他们表示,创始人梁文峰在内部表示,他对 R2 的进展不满意,并一直在推动花更多时间构建一个能够维持公司在人工智能领域的领先地位的先进模型。

另一位人士补充说,由于其更新模型的数据标记时间长于预期,R2 的发布也被推迟。不过最新的消息称,该模型最快可能在未来几周内发布。

“模型是可以轻松更换的商品,”美国加州大学伯克利分校的人工智能研究员 Ritwik Gupta 说。“很多开发者都在使用阿里巴巴的Qwen3,它功能强大且灵活。”

Gupta 指出,Qwen3 采用了 DeepSeek 的核心概念,例如其训练算法,使模型能够进行推理,但使用起来更加高效。

跟踪华为人工智能生态系统的古普塔表示,该公司在使用 Ascend 进行训练方面面临着“成长的烦恼”,尽管他预计这位中国国家冠军最终会适应。

“仅仅因为我们今天没有看到在华为上训练的领先模型,并不意味着它不会在未来发生。这是时间问题,“他说。

英伟达是一家处于中国和美国地缘政治斗争中心的AI芯片商,最近同意向美国政府提供在中国的15%的销售收入分成,以恢复向中国销售其 H20 芯片。但在这同时,中国正在要求英伟达配合调查其芯片是否存在“安全问题”。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容