DeepSeek V4 发布后,海外开发者社区在讨论什么

5 分钟阅读

2026 年 4 月 24 日,DeepSeek V4 Preview 正式上线,同时开源权重。并不像在公众号推文中那句:「不诱于誉,不恐于诽,率道而行,端然正己」,引得朋友圈争相转载,海外的宣传略显低调,但也在几个小时内冲上了 Hacker News Past 第一位,累计 1800+ 点赞、1400+ 条评论。这个数字,放在任何一个科技话题里都算得上炸锅。

本文整理了海外社区(主要来自 Hacker News)中的一些讨论,看看海外开发者都在讨论什么。

模型本身:规格与基准

DeepSeek 这次发布了两个模型:

  • DeepSeek-V4-Pro:1.6T 总参数 / 49B 激活参数,1M 上下文,定位媲美顶级闭源模型。
  • DeepSeek-V4-Flash:284B 总参数 / 13B 激活参数,速度快、成本低,适合高频调用。

两个模型均支持思考模式(Thinking Mode)与非思考模式切换,API 仅需修改 model 参数即可切换,兼容 OpenAI ChatCompletions 与 Anthropic API 格式。

从 HN 上有人做的实测对比来看,V4-Pro 在多项基准上与 Claude Opus 4.6 大体持平,在竞争性编程(competitive coding)方面甚至有优势,但在软件工程类任务上略逊于 Opus 系列。另有用户用自己的硕士/博士级概率统计题目做了测试,评价是"感觉是开源模型的巨大飞跃"。

官方发布的技术亮点中,结构性创新值得关注:Token-wise 压缩 + DSA(DeepSeek Sparse Attention),实现长上下文下计算与内存的大幅降低,并把 1M 上下文设为所有官方服务的默认值。

定价:真正让西方同行坐立难安的部分

如果说技术规格只是"又一个强模型",那定价才是这条新闻的核心爆破点。

HN 用户 kybernetikos 写道:

如果你能以五十分之一的价格拿到一个几乎同等能力的模型,大多数场景你都会选它。你或许还会把少量最难的 token 发给更贵的模型,但那顶多占 10%。我不知道 Anthropic、OpenAI、Google 靠什么撑住现在的烧钱速度,如果他们只能处理最难的那 10%。

这个逻辑并不新鲜,但被说得相当直白。另一位评论者则从战略角度提出了更谨慎的看法——glenstein 的评论获得了大量好评:

DeepSeek 最核心的创新是以极低成本复现了接近前沿的能力,但在前沿本身继续推进的成本,依然由西方公司承担。如果 GPT/Claude/等模型"只是"在最贵的模型上领先,那也仍然是护城河。

这是整个线程里难得的清醒声音:跟上成本低,但率先突破的代价还是很高。

不过也有评论指出一个反向逻辑:DeepSeek 的超低定价是否构成"倾销"(dumping)?即以低于成本的价格抢占市场份额,打垮竞争对手后再提价。这个担忧没有结论,但值得关注。

华为芯片:一场被仔细纠偏的误传

HN 原帖中点赞最高的评论之一写道:“它完全运行在华为芯片上,零 CUDA 依赖——中国 AI 技术栈已经独立完整。”

这话传播很快,但很快就被用户 nabakin 用六条来源逐条核查:

这是一个没有证据支撑的重大说法。我查阅了论文、HuggingFace、Twitter、微信公众号和官方新闻稿,没有找到任何支持这一说法的表述。论文中唯一涉及华为的内容,是他们在 Ascend NPU 上验证了一种降低互联带宽的技术(同时在 NVIDIA GPU 上也做了验证)。中文版新闻稿有一条脚注提到,等华为 Ascend 950 超节点在今年下半年大规模上线后,V4-Pro 的推理价格预计会大幅下降。

归纳一下实际情况:

  • DeepSeek V4 目前仍在 NVIDIA GPU 上训练和推理;
  • DeepSeek 计划在今年下半年将 Huawei Ascend 950 超节点引入推理集群,以进一步降低成本;
  • 论文中确实验证了一项技术在华为 Ascend NPU 上也能跑,但这与"完全运行在华为芯片上"相差甚远。

这个误传的传播路径倒是很有意思:一条高赞但存疑的评论被大量转引,而认真做事实核查的回复则在早期被 down 投票。HN 上有人专门对此发出了感慨:这种情况在技术论坛里本不该出现。

这里放一条华为昇腾官方发布的公众号推文:DeepSeek V4正式发布,昇腾超节点系列产品全面支持 ,感兴趣的可以去看看。

开发者反馈:用脚投票

抛开争议,实际使用者的声音更值得参考。

有用户直接表示已经把工作流切到 DeepSeek:

“作为美国公民,我几乎只用中国 AI 做编程,因为我觉得 Claude 和 Codex 的价格是明抢。”

也有人给出了具体的使用技巧:

“如果你好好提示它,给出你为什么这样要求的背景,它的表现会大幅领先其他模型。”

开源权重(MIT 许可证)被多次提及作为核心优势:不用担心 token 计费、订阅限制,或未来模型悄悄降级。对于需要本地部署或离线运行的场景,这一点尤为关键。非 NVIDIA 硬件用户(如 AMD 显卡)则被告知:只要支持 Vulkan,llama.cpp 的 Vulkan 后端性能与 CUDA 差距不大,可以跑 GGUF 格式的量化权重。

地缘政治:话题的"引力阱"

老实说,HN 这个讨论贴里大约有 80% 的评论是关于中美关系、谁更有道德立场、以及谁欠了谁债的讨论。这不是本文的重点,这里只简单一提:

用户 sigmoid10 的发言代表了一种并不少见的矛盾心理:

虽然 AI 栈的垄断被打破是好事,但由中国来控制唯一的替代方案,我也不确定自己该如何感受。

当然这是比较平和的发言,更多的发言仍然充斥着偏见、落后的认知以及自以为高人一等的优越感,这里就不做转述。

小结

DeepSeek V4 的海外社区反应,大致呈现三层叠加:

  1. 技术层:开源权重 + 接近前沿的性能 + 极低价格,开发者热度真实,尤其在编程和长上下文场景;
  2. 战略层:对 OpenAI/Anthropic 商业模式的冲击被反复讨论,但也有人指出"追上成本低、率先突破成本高"的护城河逻辑仍然成立;
  3. 叙事层:华为芯片的误传、中美科技战的宏大叙事,把大量的讨论空间挤掉了,而事实核查的声音在早期反而被压制——这本身也是观察这场讨论的一个切面。

对于大多数开发者来说,真正的问题其实很简单:同等质量、更低价格、可本地运行——为什么不用?怎么用好?

参考资料