一家中国公司如何以低成本推理模型冲击美国股市与投资者
DeepSeek 的 R1 模型凭借低成本、高性能的推理能力,扰乱了美国人工智能股票市场。
这家由梁文峰创立的中国公司,旨在推动人工智能发展,而并非聚焦商业利益。
独立开发者可以通过开源模型或低成本 API 接入 R1,用于创新应用。
如今,人人都在谈论 DeepSeek:这家规模不大的中国人工智能公司,成功打造出一款强大的推理模型,成本却只是知名竞争对手的零头。
这款名为 R1 的模型,让科技市场为之震荡。投资者们不禁发问:为何美国要在人工智能基础设施上投入数千亿美元?英伟达(Nvidia),其顶尖芯片为人工智能技术提供强大动力,自上周 R1 发布以来,股价一路下跌。
这还不够,DeepSeek 随后又推出了一系列图像生成模型,表现似乎超越了 DALLE – 3。
那么,这家公司背后的团队是谁?他们又是如何在短时间内引起如此大的轰动?最重要的是,独立开发者怎样利用 DeepSeek 的技术提升自身产品?
1.DeepSeek 背后的团队
DeepSeek 于 2023 年由中国工程师、对冲基金创始人梁文峰创立。据官方媒体报道,20 世纪 80 年代,他在广东的一个小城市长大,之后在杭州东部的浙江大学求学。
梁文峰长期对人工智能抱有浓厚兴趣。2015 年,他与人共同创立了专注于人工智能的对冲基金 High – Flyer Quant,该基金随后打造了自己强大的超级计算机。这家公司是 DeepSeek 的唯一所有者,梁文峰创立 DeepSeek,既是为了推动人工智能研究,也是为了促进中国的创新发展。
去年,他在接受科技网站 36 氪采访时表示:“我们常说中国与美国有一到两年的差距,但真正的差距在于原创与模仿。如果这种情况不改变,中国将永远处于追随者的地位。”
DeepSeek 是一家规模较小的中国企业,约有 140 名工程师和研究人员。它似乎并未获得中国政府的资金支持,不过其运营时间大致与国家法规的调整相契合。
这是一家专注于研究的机构,并非以商业盈利为目的。其模型开源,API 价格相对低廉,部分原因是该公司希望外部企业基于其技术进行拓展,突破技术边界。
2. DeepSeek 如何以低成本打造 R1

DeepSeek 表示,打造 R1 的花费略低于 600 万美元,相比美国竞争对手动辄 1 亿至 10 亿美元的投入,只是零头。目前尚不清楚该公司究竟如何能用如此微薄的资金取得这样的成果。例如,我们并不知晓该公司使用何种数据对模型进行训练。
但我们知道,由于高端英伟达芯片受到禁运限制,该公司可用的处理能力可能低于美国竞争对手。尽管在禁令生效前,该公司购买了不少芯片,但很可能使用的是大量 “H800” 芯片,这是英伟达强大的 H100 芯片的低性能版本。
一份关于 R1 及其配套模型的技术报告,详细阐述了该公司如何开发这一系列模型,让我们得以了解他们如何以有限资源取得显著成果。
其竞争对手通常采用 “监督微调”(SFT)方法,即研究人员向模型输入精心挑选的数据,教导模型逐步处理查询。
DeepSeek 则采用 “强化学习” 来训练模型。研究人员为模型设定一套规则系统,并辅以奖励系统,以识别准确性和特定格式。
在这个过程中,未经过监督微调的早期版本模型(R1 – Zero)能自发地对自身 “推理” 进行反思,这对其开发者来说是令人兴奋的一步。但它给出的结果也相当不可预测。
研究人员将强化学习与监督数据基线相结合,最终产生了上周发布的 R1 模型。
3. 独立开发者如何使用 R1
无论你是否是开发者,都有多种方式可以对 R1 进行尝试。
对于技术型创始人来说,最令人兴奋的是与 R1 完整版一同发布的一系列 “提炼” 模型。这些是 R1 对 Meta 和阿里巴巴的开源模型进行大幅改进后的版本。最棒的是,最小的模型可以在普通笔记本电脑上运行。
你可以通过 HuggingFace 平台下载所有这些模型。
如果你不想在本地运行模型,但希望在自己的应用程序中试用 R1,可以通过低成本 API 接入。至少目前来看,与 OpenAI 的竞品 o1 相比,它具有成本优势,价格只是其零头。但要记住,OpenAI 很快将发布下一代 o3 模型,届时其其他产品价格可能会下降。
你可以在此处查看 R1 的完整定价和规格。
最后,你可以像使用 ChatGPT 一样使用 DeepSeek 的 R1 聊天界面。它完全免费,无需每月支付 20 美元订阅。但它对发送和接收的消息数量有限制。
你可以在此处与 DeepSeek 聊天,或者在苹果应用商店或谷歌应用商店下载应用程序。
尽管 DeepSeek 的表现令人印象深刻,但它仍会出错并产生幻觉,并且受审查法律限制,对于许多与中国政府和历史相关的查询,很难得到可靠答案。
与任何人工智能模型一样,不要向其输入用户详细信息或 API 密钥等敏感信息。要记住,其服务器位于中国,所以你输入的所有信息也都在中国。需考虑这是否与你所在国家的法规(以及个人隐私)相关。