DeepSeek V4 发布后，海外开发者社区在讨论什么

2026 年 4 月 24 日，DeepSeek V4 Preview 正式上线，同时开源权重。并不像在公众号推文中那句：「不诱于誉，不恐于诽，率道而行，端然正己」，引得朋友圈争相转载，海外的宣传略显低调，但也在几个小时内冲上了 Hacker News Past 第一位，累计 1800+ 点赞、1400+ 条评论。这个数字，放在任何一个科技话题里都算得上炸锅。

本文整理了海外社区（主要来自 Hacker News）中的一些讨论，看看海外开发者都在讨论什么。

模型本身：规格与基准

DeepSeek 这次发布了两个模型：

DeepSeek-V4-Pro：1.6T 总参数 / 49B 激活参数，1M 上下文，定位媲美顶级闭源模型。
DeepSeek-V4-Flash：284B 总参数 / 13B 激活参数，速度快、成本低，适合高频调用。

两个模型均支持思考模式（Thinking Mode）与非思考模式切换，API 仅需修改 model 参数即可切换，兼容 OpenAI ChatCompletions 与 Anthropic API 格式。

从 HN 上有人做的实测对比来看，V4-Pro 在多项基准上与 Claude Opus 4.6 大体持平，在竞争性编程（competitive coding）方面甚至有优势，但在软件工程类任务上略逊于 Opus 系列。另有用户用自己的硕士/博士级概率统计题目做了测试，评价是"感觉是开源模型的巨大飞跃"。

官方发布的技术亮点中，结构性创新值得关注：Token-wise 压缩 + DSA（DeepSeek Sparse Attention），实现长上下文下计算与内存的大幅降低，并把 1M 上下文设为所有官方服务的默认值。

定价：真正让西方同行坐立难安的部分

如果说技术规格只是"又一个强模型"，那定价才是这条新闻的核心爆破点。

HN 用户 kybernetikos 写道：

如果你能以五十分之一的价格拿到一个几乎同等能力的模型，大多数场景你都会选它。你或许还会把少量最难的 token 发给更贵的模型，但那顶多占 10%。我不知道 Anthropic、OpenAI、Google 靠什么撑住现在的烧钱速度，如果他们只能处理最难的那 10%。

这个逻辑并不新鲜，但被说得相当直白。另一位评论者则从战略角度提出了更谨慎的看法——glenstein 的评论获得了大量好评：

DeepSeek 最核心的创新是以极低成本复现了接近前沿的能力，但在前沿本身继续推进的成本，依然由西方公司承担。如果 GPT/Claude/等模型"只是"在最贵的模型上领先，那也仍然是护城河。

这是整个线程里难得的清醒声音：跟上成本低，但率先突破的代价还是很高。

不过也有评论指出一个反向逻辑：DeepSeek 的超低定价是否构成"倾销"（dumping）？即以低于成本的价格抢占市场份额，打垮竞争对手后再提价。这个担忧没有结论，但值得关注。

华为芯片：一场被仔细纠偏的误传

HN 原帖中点赞最高的评论之一写道：“它完全运行在华为芯片上，零 CUDA 依赖——中国 AI 技术栈已经独立完整。”

这话传播很快，但很快就被用户 nabakin 用六条来源逐条核查：

这是一个没有证据支撑的重大说法。我查阅了论文、HuggingFace、Twitter、微信公众号和官方新闻稿，没有找到任何支持这一说法的表述。论文中唯一涉及华为的内容，是他们在 Ascend NPU 上验证了一种降低互联带宽的技术（同时在 NVIDIA GPU 上也做了验证）。中文版新闻稿有一条脚注提到，等华为 Ascend 950 超节点在今年下半年大规模上线后，V4-Pro 的推理价格预计会大幅下降。

归纳一下实际情况：

DeepSeek V4 目前仍在 NVIDIA GPU 上训练和推理；
DeepSeek 计划在今年下半年将 Huawei Ascend 950 超节点引入推理集群，以进一步降低成本；
论文中确实验证了一项技术在华为 Ascend NPU 上也能跑，但这与"完全运行在华为芯片上"相差甚远。

这个误传的传播路径倒是很有意思：一条高赞但存疑的评论被大量转引，而认真做事实核查的回复则在早期被 down 投票。HN 上有人专门对此发出了感慨：这种情况在技术论坛里本不该出现。

这里放一条华为昇腾官方发布的公众号推文：DeepSeek V4正式发布，昇腾超节点系列产品全面支持，感兴趣的可以去看看。

开发者反馈：用脚投票

抛开争议，实际使用者的声音更值得参考。

有用户直接表示已经把工作流切到 DeepSeek：

“作为美国公民，我几乎只用中国 AI 做编程，因为我觉得 Claude 和 Codex 的价格是明抢。”

也有人给出了具体的使用技巧：

“如果你好好提示它，给出你为什么这样要求的背景，它的表现会大幅领先其他模型。”

开源权重（MIT 许可证）被多次提及作为核心优势：不用担心 token 计费、订阅限制，或未来模型悄悄降级。对于需要本地部署或离线运行的场景，这一点尤为关键。非 NVIDIA 硬件用户（如 AMD 显卡）则被告知：只要支持 Vulkan，llama.cpp 的 Vulkan 后端性能与 CUDA 差距不大，可以跑 GGUF 格式的量化权重。

地缘政治：话题的"引力阱"

老实说，HN 这个讨论贴里大约有 80% 的评论是关于中美关系、谁更有道德立场、以及谁欠了谁债的讨论。这不是本文的重点，这里只简单一提：

用户 sigmoid10 的发言代表了一种并不少见的矛盾心理：

虽然 AI 栈的垄断被打破是好事，但由中国来控制唯一的替代方案，我也不确定自己该如何感受。

当然这是比较平和的发言，更多的发言仍然充斥着偏见、落后的认知以及自以为高人一等的优越感，这里就不做转述。

小结

DeepSeek V4 的海外社区反应，大致呈现三层叠加：

技术层：开源权重 + 接近前沿的性能 + 极低价格，开发者热度真实，尤其在编程和长上下文场景；
战略层：对 OpenAI/Anthropic 商业模式的冲击被反复讨论，但也有人指出"追上成本低、率先突破成本高"的护城河逻辑仍然成立；
叙事层：华为芯片的误传、中美科技战的宏大叙事，把大量的讨论空间挤掉了，而事实核查的声音在早期反而被压制——这本身也是观察这场讨论的一个切面。

对于大多数开发者来说，真正的问题其实很简单：同等质量、更低价格、可本地运行——为什么不用？怎么用好？

模型本身：规格与基准

定价：真正让西方同行坐立难安的部分

华为芯片：一场被仔细纠偏的误传

开发者反馈：用脚投票

地缘政治：话题的"引力阱"

小结

参考资料