那简直是组建了一支几万人的重装钢铁洪流,用铺天盖地的钞票硬生生砸开技术的大门。
然后,DeepSeek的技术报告横空出世了。
满打满算,不到六百万美元!
连人家巨头一个零头都不到的训练成本,却打出了一个在各项核心测试上媲美甚至超越上亿美金模型的极限成绩,一纸报告,直接让全世界的同行闭嘴。
这其中的差距,用个最通俗易懂的比喻来说:
同样是做一桌极其复杂的满汉全席,硅谷巨头就像是个不差钱的傻大款,花天价雇了十万个米其林三星主厨。
结果呢?
不管是烹饪极品鲍鱼,还是在后厨切大葱、洗盘子,全都让这帮拿着天价年薪的主厨去干。
而DeepSeek的打法,是极其精打细算的“扫地僧”。
它只留极少部分核心主厨在最关键的位置,剩下的全是切菜工和帮厨。
系统一旦拿到任务。
点个拍黄瓜,直接丢给切菜工去干;点个佛跳墙,主厨才下场。
它通过极简的底层算力优化和MOE(混合专家架构),绝不浪费哪怕一滴多余的算力。
顾屿当时读完那份报告,在椅子上坐了很久。
不是看不懂。
是看懂了,才明白。
那场属于AI时代的终极竞赛,从来不是比谁的肌肉更大,不是比谁更有钱,而是比谁浪费得更少。
任少卿跑的这条路,在2013年是对的。
但终点在哪,他恐怕想不到。
“你现在做的东西,”
顾屿收回目光,看向任少卿,
“在2013年是对的。但沿这条路走下去,十年后,你会碰到一堵墙。”
“什么墙?”
“规模的边际效益递减。”
顾屿顿了顿,把那套逻辑往更通俗的地方压,
“堆到某个临界点之后,你的收益增速会垮,但成本会疯涨。到那时候,别的大厂为了训练一个更好的模型直接烧掉几千万甚至一亿美金,你哪怕卖肾也跟不起。真正的破局,不在更大,在更聪明地用更少。”
“具体怎么做?”
任少卿的语气已经完全变了。
“让模型只用它需要用的那部分脑子去思考,别把整个网络都喊起来处理一个简单问题。”
顾屿把手从大裤衩的口袋里抽出来,随手在空中画了
本章未完,请点击下一页继续阅读!