• 首页
  • 赌一费阵容玩法介绍
  • 产品展示
  • 新闻动态
  • 新闻动态

    你的位置:赌一费阵容玩法 > 新闻动态 > 拒绝融资、拒绝PR、拒绝扩张: 一个研究者如何做出10亿美元的AI公司

    拒绝融资、拒绝PR、拒绝扩张: 一个研究者如何做出10亿美元的AI公司

    发布日期:2025-12-18 13:31    点击次数:169

    在大模型圈,有几家名字人人都知道:OpenAI、GoogleDeepMind、Anthropic。

    但在这些名字背后,还有一家几乎不做PR、从不上头条的公司——SurgeAI。

    不到四年时间,这家公司用不到100人的团队,做到年收入超10亿美元;从零开始到今天,它从未融过一分钱VC,从第一天起就盈利。

    更关键的是:ChatGPT、Claude、Gemini等一线模型,在后训练、评测、对齐阶段都不同程度地用过Surge的数据和工具。

    这意味着,在决定“模型该长成什么样”这件事上,Surge站在了一个极其隐蔽但关键的位置。

    Surge创始人EdwinChen的身份也不典型:他不是“连续创业达人”,而是一路从MIT到Google、Facebook、Twitter做机器学习研究的学术型工程师。而当他真的创业时,他几乎把硅谷主流剧本全部按了“反选”——

    在一片“融资—扩张—估值”的喧嚣里,他用一套几乎反主流的选择,做出了10亿美元公司,也把自己定位为:与其说是创业者,不如说是“下一代AI的养父”。

    1

    “我不想上那辆硅谷跑步机”

    如果要给Edwin的创业哲学找一句话,大概是他在访谈中的原话:

    在大科技公司待过的人,大多见识过“组织臃肿”的威力;Edwin的感觉则更极端——他曾在多家大厂工作,始终觉得:“如果裁掉90%的人,公司会跑得更快。”

    于是到自己创办Surge时,他干脆把这种直觉变成公司设计原则:

    在融资问题上,他选择了更少人敢走的路:完全不融VC。

    在今天的硅谷,这几乎等于主动放弃一整套“增长加速器”:

    没有风投帮你站台发声、没有估值数字帮你上头条、也没有“新一轮融资完成”的新闻推动招聘和合作。

    代价是明显的:没有PR光环,Surge很长时间都“名不见经传”;他们的增长,几乎完全依赖一种最原始、也最难的方式——产品好到研究员愿意口口相传。

    但Edwin觉得,这是唯一能保证公司不被“硅谷机器”带偏的路径:

    他不愿意把时间花在路演、处理媒体关系上,而是宁可困在数据集和实验报告里,琢磨怎么让下一版模型的行为更可靠一点。

    在这种设定下,Surge反而被迫把每一件事做到极致:你没有VC的背书、没有PR的放大器时,剩下唯一能说服前沿实验室的,只剩下结果。

    1

    他赌的那件事:把“高质量数据”做到极致

    Edwin的背景,决定了他赌的方向——不是做模型,而是做“模型背后的那层水”。

    他从小同时迷恋数学和语言学,后来在MIT读书,又去了Google、Facebook、Twitter做机器学习研究。

    在这些公司里,他一遍遍遇到同一个问题:想训练好模型,却拿不到足够好的数据。

    在大多数互联网公司,所谓“数据标注”,往往意味着两件事:

    用大量廉价劳动力做简单打标——“这是不是猫?”“这个框是不是车?”

    用非常粗糙的规则衡量质量——“有没有填满?”“有没有按格式来?”

    这套逻辑在“图像分类”时代还能凑合,

    但在大模型时代,结果就是:模型在形式上合格,在内容上平庸甚至有害。

    GPT-3发布时,他意识到:如果模型真的要走向“能写论文、能做研究、能辅助科学发现”的阶段,“写得像模像样”远远不够,模型需要被教会什么是“真正好的东西”。

    于是,他在GPT-3发布一个月后创立Surge,给公司定的方向非常单一:只做一件事——用极高标准的人类数据,训练和评估模型。

    在访谈中,他用一个小例子解释什么叫“高质量”:

    为了在规模上做到这种主观要求,Surge做了一件别人懒得做的事:给每一个标注者、每一个任务收集成千上万条行为信号。

    不仅看他最后打了什么分,更看:

    打字节奏、响应时间;他自己写出来的文本或代码质量;基于他数据训练后的模型,在真实任务里有没有变好。

    再用一整套内部模型去判断:谁在哪些领域是真正“有品位的人”。

    这听起来有点像GoogleSearch的演化:先是把垃圾内容和死链全部扫掉,再在剩下的海量内容里,慢慢学会“谁是真的好页面”。

    Edwin的逻辑是:你认为什么是好数据,最终就会决定模型认为什么是“好答案”。

    这不是工程细节,而是价值观问题。

    1

    拒绝“为小报读者优化模型”

    在谈到当下大模型行业时,Edwin的批评非常直接——他认为,很多实验室正在被错误的目标函数带偏。

    第一个被点名的是各种排行榜和基准测试,尤其是LMSysArena这样的“开放投票榜”。

    在这类榜单上,来自全世界的用户可以对比两个模型的回答,选择“更好”的那个,以此决定排名。

    在表面上,这是一套“民主评选最佳模型”的机制;但在Edwin眼里,它更像给模型设计的一套“标题党训练营”。

    因为绝大多数投票者不会花时间做事实核查,他们只会扫两秒,就根据“看起来更厉害”的那一条点票——emoji多一点、加粗多一点、多级标题多一点、篇幅长一点,

    就比一个简洁、谨慎、老实的回答更容易获胜。

    Edwin说,Surge自己研究LMSys数据后发现:

    问题在于,整个商业链条都被这个榜单绑住了:

    企业客户买模型时,会问:“你在LMSys上排第几?”

    销售团队为了签单,只能把榜单当宣传单;

    研究员的绩效、晋升又跟“模型进榜”挂钩——即使他们非常清楚,为这种榜单优化,会让模型在准确性和指令遵循上变差。

    这条链条一路延伸下去,最后把整个行业导向了一个危险的站位:我们正在为“超市门口买小报的人”优化AI,而不是为真理优化。

    Edwin还有另一层担忧,来自他在Twitter、Facebook做推荐算法的经历。

    他清楚地知道,当一个系统的目标函数从“信息质量”变成“用户参与度”时,会发生什么——标题党、极端言论、猎奇图片迅速占领屏幕,因为它们最能勾起多巴胺。

    而把这套逻辑移植到大模型上,就是当下你时常能看到的景象:模型疯狂夸你有多聪明、多前瞻;不断顺着你的偏见讲故事,而不是提醒你“这件事其实很复杂”;在完全不重要的小事上陪你反复打磨,消耗你大量时间。

    他讲了一个很小、但很典型的例子:有一次他用Claude改一封邮件,改了30个版本,最后满意地发出去了。

    然后他突然意识到——

    于是问题变成:你到底希望你的模型怎样对待你?

    是那种永远说“太棒了,我们还能再试20个版本”的好好先生?

    还是那种在适当时候会告诉你:“这里已经够好,快去做更重要的事”?

    这背后就是不同的目标函数:前一种对“对话时长”负责,后一种对“人类的时间和生活质量”负责。

    1

    “公司就是你的目标函数”

    如果把Edwin的故事压成一句话,大概是:他在用一家公司,活出自己相信的那套目标函数。

    在访谈末尾,他说了一句很“反鸡汤”的话:

    对他来说,这件事情就是:在大模型时代,认真地回答“什么是好数据、好模型、好目标函数”这几个看起来枯燥的问题,并把它们一点一点做进产品、做进客户关系、做进公司文化里。

    他给创始人的建议也很简单:

    不要靠不停pivot去“找市场”,而是先问清楚:有没有一件事,是没有你就不会有人去做的?

    不要只看“什么项目现在最容易融资”,而是问:“如果十年后失败了,我是不是仍然觉得这件事值得?”

    在AGI这场竞赛里,模型参数、算力规模、排行榜名次当然重要,但Edwin给出的视角更底层:

    换句话说——你就是你的目标函数,一家公司也是。

    而现在,这家拒绝融资、拒绝PR、拒绝扩张的10亿美元公司,正在用一种极其安静的方式,把自己的目标函数,写进下一代AI的成长轨迹里。

    点个“爱心”,再走吧