DeepSeek
  • 全球独立开发者生态日报(2025-03-13)

    新产品 失败案例 Humane Ai Pin:从“手机杀手”到电子垃圾的教训 技术动态 1. 多模态大模型开源浪潮加速 2. 全球开发者大会聚焦AI技术落地 3. 具身智能与硬件结合新趋势北京智源研究院提出“具身大模型”概念,通过多模态数据整合提升智能硬件环境感知与决策能力,推动医疗、教育等场景应用8。 信息来源 Read More

  • LLM是如何训练出来的——训练工程科普

    我们在多达 512 个 GPU 上进行了超过 4000 次扩展实验,并测量了吞吐量(标记大小)和 GPU 利用率(标记颜色)。需要注意的是,在本可视化中,两者都根据模型大小进行归一化。 数千块 GPU 协同工作,完美协调——这正是当今最强大 AI 模型所需的训练规模。直到最近,这种规模还只属于顶尖研究实验室的专有领域。开源让这块领域发生了翻天覆地的变化,但并没有彻底改变现状。是的,你可以下载最新的 Llama 或 DeepSeek 模型。是的,你能阅读它们的 技术和 实验报告。但最具挑战性的部分——用于协调 GPU… Read More

  • 深度剖析:中美科技霸权角逐与开源 AI 引发的行业变局

    Marc Andreessen 是 Andreessen Horowitz 的联合创始人。我们讨论了 DeepSeek 的 R1 模型对美中技术军备竞赛的意义、地缘政治中竞争与合作的权衡,以及传统媒体和政治机构遭遇广泛抵制的背后因素。 引言 Patrick 我的嘉宾是 Marc Andreessen。Marc… Read More

  • 2025 年 AI 行业全景展望:技术突破、应用拓展与投资新局

    2025年春节假期刚刚复工,已经遍地都是“AI味”。 先是“AI界拼多多”DeepSeek,从除夕前火到了现在。它凭借着“低训练成本”、“能和OpenAI一较高下的模型能力”,直接给全球来了一剂猛药,甚至让OpenAI、英伟达两大AI巨头公司感受到了“威胁”。关于DeepSeek成本、能力、创始人的“神话”和“误读”,还在此起彼伏出现。 其次是“扭秧歌机器人”成为春晚“显眼包”,16个穿着花棉袄的人形机器人整整齐齐地站在舞台中央转动手绢,14多亿观众在拍手大笑的同时,也让背后的研发公司宇树科技一炮而红。 近两年,AI成为最热门的行业,没有之一。互联网巨头、AI六小虎卷模型和应用卷得火热,普通用户也通过Midjourney、ChatGPT等现象级AI产品,以及AI耳机、AI眼镜等硬件,切身感受到了AI的来袭。 即便这一行业中途也遇到过被否定、被质疑的时刻,但2025年开年的这波热度,让不少AI从业者认为,以目前的发展势头来看,AI很可能在今年取得突破性进展。 「定焦One」和几位AI行业的资深投资人聊了聊,他们作为嗅觉最灵敏的人,在过去两年密切关注AI行业,有人甚至投资了不下十家AI公司,有着丰富的操盘经验和血泪教训。 他们的投资风格也很不一样,有人喜欢多位布局,既看大模型这类基础设施建设,也有人形机器人这种相对小众的领域。有人则重点押注某一领域,比如全部押宝AI眼镜。 他们对今年AI发展的重点方向也有趋于一致的预测: 技术突破上:多模态模型能力持续升级,朝向多模态理解和生成的统一发展;普及度上:AI将和更多专业领域深度融合,甚至取代更多人的工作(典型代表是初级程序员);发展困境上:模型突破能力、可使用数据量、产品商业化面临的挑战不小;投资态度上:过去看好的领域不放弃,但也会关注新领域,集中在AI硬件、AI Agent两大方向。 大家也对DeepSeek的爆火感到意外和惊喜,它必然会助推AI行业的发展,也当然会令竞争加剧。做FA的李明明觉得,大模型六小虎可能会出现部分掉队。资深投资人陈悦天认为,DeepSeek的广泛传播让更多人知道了LLM(大语言模型)的功能并开始尝试使用,2025年会成为AI Agent应用大爆发的一年,新的商业模式也将诞生。 AI领域的初步竞争阶段已结束,2025年或将成为AI技术成熟、应用落地的关键节点。 被看好的AI硬件:眼镜热度最高,陪伴玩具机会最多 如今扫地机器人、音响、手机等但凡能和AI搭上边的电子设备,都不落伍地推出了AI功能。不过,目前比较火的AI硬件大致分为三类:AI眼镜、AI耳机、AI陪伴玩具,这也是投资人今年比较关注的三大方向。… Read More

  • 马斯克称 xAI 公司的 Grok 3 聊天机器人即将发布

    马斯克在 X 平台(原推特)发文称,该产品将于太平洋时间晚上 8 点通过演示正式上线。 周四,马斯克在迪拜举行的世界政府首脑会议视频会议上,提前透露了 Grok 3 聊天机器人的发布计划,他称这是一款性能将超越目前所有已发布竞争工具的人工智能模型。 马斯克表示,该模型基于合成数据进行训练,能够通过反复梳理数据来反思自身所犯错误,以实现逻辑一致性。 马斯克旗下xAI推出最新大模型Grok 3,并在直播中进行了现场演示。马斯克称,我们非常高兴能够推出 Grok3,它的能力将在短时间内比Grok2强大一个数量级。 马斯克还介绍了“Grok”的含义说,“实际上,我们应该解释一下为什么我们称之为‘Grok’。这个词来自罗伯特·海因莱因的小说《异乡异客》。这个词被一个在火星长大的角色使用,意思是充分而深刻地理解某事。‘grok’这个词传达了深刻的理解,而同理心是其中的重要组成部分。” Grok… Read More

  • DeepSeek-R1 冲击波:AI 技术变革与产业新思

    围绕 DeepSeek-R1 ,极客公园「今夜科技谈」直播间讨论,深入探讨了多个关键话题。 首先,针对 DeepSeek 文笔好这一现象,分析出原因包括未过度追求安全对齐、有资深人士参与数据撰写、模型规模增大等。 其次,R1 思维链透明清晰,是首个完整展示思维链的模型,其思维链由强化学习涌现,基模质量对其影响重大。 再者,即便有了更好的模型,AI 应用开发难度并未降低,因为模型能力提升拉高了基线,创业者需寻找新可能;同时,R1 对 AI 产业影响深远,推动多 agent 协作发展,降低推理成本,引发… Read More

  • 百度搜索全面接入 DeepSeek,开启 AI搜索新时代

    今日,百度搜索正式宣布将全面接入国产人工智能大模型DeepSeek及文心大模型的深度搜索功能。这一战略合作标志着百度搜索正式迈入“AI搜索2.0”时代,7亿用户可通过百度APP免费体验智能化、多模态的搜索服务,传统搜索引擎的形态或将迎来颠覆性变革。 技术整合:低成本与高性能并行 根据公告,DeepSeek-R1模型在多项国际基准测试中表现优异,其性能与OpenAI的GPT-4o-mini相当,但训练成本仅为后者的10%。此外,DeepSeek-R1-Distill-Qwen-32B模型在AIME 2024和MATH-500测试中分别取得72.6%和94.3%的成绩,显著超越同类产品。百度搜索通过接入该模型,将实现更精准的语义理解与多轮对话能力,例如用户可通过自然语言提问直接获取结构化答案,而非传统的关键词链接。 市场反应:概念股大涨,行业生态加速重构 消息公布后,港股DeepSeek概念股应声上涨。截至17日上午,中国联通(00762.HK )涨超9%,中国电信(00728.HK )、万国数据(09698.HK )等跟涨。这反映了市场对AI搜索商业化的强烈信心。此前,华为、腾讯、阿里云、京东云等头部企业已陆续接入DeepSeek模型,覆盖智能终端、云计算、医疗健康等领域。 用户与开发者双线赋能 对于普通用户,百度搜索的升级将体现为三大变化: 开发者层面,文心智能体平台同步开放DeepSeek接口,支持快速调用模型能力创建定制化智能体,进一步降低AI应用开发门槛。 行业影响:搜索赛道竞争升级 百度此次合作被视为应对市场竞争的关键举措。此前,微信搜一搜已灰度测试接入DeepSeek-R1模型,而字节跳动、阿里等企业也在加速布局AI搜索。DeepSeek的低成本优势或引发行业价格战——例如百度智能云千帆平台已推出“超低价”模型调用方案,企业级客户推理成本降幅达70%。 未来展望:AI技术平权与生态扩张… Read More

  • 微信牵手 DeepSeek,腾讯豪赌 AI 意味着什么?

    从 “极度保守” 到成为首个集成 DeepSeek 的聊天应用,微信这一显著转变表明,其团队认识到以 DeepSeek R1 为代表的推理模型在微信平台应用的巨大潜力,并决定迅速投身其中,引领这波变革。作为当今重要的通讯平台,微信已成为 “真正普及 AI” 进程中不可或缺的一环。 自 2011 年上线以来,微信以创始人张小龙 “克制”… Read More

  • 揭秘DeepSeek:一个更极致的中国技术理想主义故事 |36氪独家

    中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。 弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek 是有利润的。 这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。 在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”… Read More

  • 深度探索 DeepSeek 与 R1:一文了解所有关键信息

    一家中国公司如何以低成本推理模型冲击美国股市与投资者 DeepSeek 的 R1 模型凭借低成本、高性能的推理能力,扰乱了美国人工智能股票市场。 这家由梁文峰创立的中国公司,旨在推动人工智能发展,而并非聚焦商业利益。 独立开发者可以通过开源模型或低成本 API 接入 R1,用于创新应用。 如今,人人都在谈论 DeepSeek:这家规模不大的中国人工智能公司,成功打造出一款强大的推理模型,成本却只是知名竞争对手的零头。 这款名为 R1 的模型,让科技市场为之震荡。投资者们不禁发问:为何美国要在人工智能基础设施上投入数千亿美元?英伟达(Nvidia),其顶尖芯片为人工智能技术提供强大动力,自上周… Read More