第269章 出手
2025-03-02 作者: 梅克马内
第269章 出手
林远在试过DS-LLM的性能后对DS这家小公司来了兴趣。
他遍历全网,发现这家公司竟然才刚成立不久,而且特么成立的初衷竟然不是为了搞通用AI。其成立初衷竟然是为了研究如何将AI技术应用到金融交易市场。
这特么,,,让林远说啥呢。
一个厨子为了炒出好菜,于是自己动手打制了一口铁锅,结果这口铁锅的性能不输于专业铁匠的匠心手作。
厨子打制铁锅的时候没想过以后要从事打铁行业,他只是单纯的想弄口好锅做菜而已。
如果事情到此为止,那还仅仅止步于略带奇谭色彩而已。真正让林远吃惊的是,DS-LLM需要的算力这勾巴少。
虽然林远此前为了跑训练特地去弄了两块部署在云端的H100,甚至还为此提交报告给上头审批,可是如果和chatGPT那些个大块头比起来,这特么根本不是事。
想在本地部署chatGPT?先不说openai如今已经是closeai,你根本就拿不到最新满血版本的chatGPT。即便openai真的开源了chatGPT,就chatGPT4最新版本那恐怖的算力开销。你就算买得起GPU,你也负担不起电费呀。
所以,这整件事情的轮廓就变成了:一个厨子为了烧好菜特地打制了一口铁锅,结果这口铁锅不但和专业铁匠打制的性能差不多,还只需要更少的铁料和工时。
这,,,就特么过分了呀。
林远于是接着试了下DS-V2版本,整体测试下来,DS的V2满血版本已经和chatGPT4早期版本性能接近,可是相比于去年初发行的chatGPT4-o系列还是有不小差距。
但这已然足够让林远惊喜,因为这样一个一百多人的小团队竟然做出了如此惊艳的AI大语言模型。
作为对比,看看那些个大公司,尤其是度度家,整天就想着靠AI来提升搜索体验。明明也是一个企图造口好锅来烧出好菜的厨子,可偏偏两者的差距却是如此巨大。
这种差距的巨大不是体现在两家的大语言模型上的,而是体现在投入产出比上。
度度家大概从十年前就号称要搞AI,甚至还一度喊出了“all in AI”的口号。一段时期内也确实汇聚不少AI领域的大佬。结果,一不小心就成了其它公司的孵化池,成了半所AI领域的“黄埔军校”。
眼前的实例刷新了林远的认知--原来无心插柳真的能柳成荫。目标可以变,但是实现的决心必须坚决。
最难能可贵的是,DS这家公司还把自家的AI语言大模型给开源了,这可比closeai有格局多了。
鉴于此,林远决定和这家小公司合作。
因为这家小公司完全符合林远的选择标准——有足够的技术实力,又有足够的毅力,且和外资没什么关联,最主要是还不为人所熟知。
DS这家公司正好处于“大”和“小”的完美平衡点。
太大的公司合作起来麻烦不说,且大公司有一堆的规章制度,林远难免会深陷其中。光是算法知识产权就足够烦人了。还有那没完没了的各种会议各种章程,林远想想就头大。
毕竟大公司针对风险都是有一套完善的风控机制,也因此大公司规模上去后,创新能力反而会下降。为了应对这种情况,大公司才会搞出一些类似独立工作室性质的项目攻坚小组。
但是这类项目攻坚小组在大公司里头藏的太深,林远没机会直接和这些特种部队一样内部机构合作。
而如果是小公司呢,太小的公司往往会面临研发实力欠缺的问题。还有个更头疼的,则是抱负问题。小公司的第一要务首先是活下去,按照常理是不会乐意投入资源到通用类技术领域的。
所以,DS的这个规模正正好。
这或许就是缘分吧。
林远很快就通过DS在github上的开源项目,给对方的账号发了封站内信过去。虽然作为开源项目,林远是可以直接提交项目贡献请求的。
可是呢,林远还是想低调一点。
一旦公开提交请求,那以后所有人都能看到某个账号给DS的大语言模型提交了关键代码更新,万一有一天有人扒出来这个提交更新的账号就是林远的。
之后要是好巧不巧,林远做空NVIDIA的操作又被人发现了,然后两厢关联,林远不就成了处心积虑做空NVIDIA了嘛。
虽然林远是想通过做空NVIDIA来反击Musk出口恶气,可事情做归做,留不留痕迹却是另外一回事。一旦留下了明显的痕迹,那麻烦事可就一堆。
成功的做空和操纵股价之间的界限鬼知道是如何区分的。
因此林远只是发了个私信,而且还是用临时申请的账号发的。
私信中林远给对方提供了一个关键思路,一个基于推理演进的关键思路。
根据算力系统对眼下各大AI大语言模型的深度扫描,系统给出的评语是:训练过程中过于强调算力的重要性,从而忽略了推理的价值。
用人话说就是:不过脑子就知道蛮干。
林远对此的理解是,就好比做数学题,你知道加减乘除的规律之后,就可以在此基础上做任意多位数的加减乘除运算,这就是推理的过程。
而与之相对的,就是硬凑答案。
当然,算力系统实际所指出的眼下市面上的AI大语言模型的缺陷自然不会是如此浅薄的拙劣。可是道理大差不差。
于是,林远就将算力系统的见解经过加工之后给对方发了过去。
他当然不至于仅仅发一段不着边际的有关强调推理过程的话,而是针对DS-V2版本代码中的某一组神经网络进行了针对性优化。
林远将这一组神经网络作为参照物,以此为根基修改代码,用实例诠释了算力系统有关强调推理的论点。
经过修改之后,这组神经网络就附带了动态自动可调节属性。以便在回答实际问题的时候,会从逻辑链入手,向用户展示模型自身的推理过程。
这一点是至关重要的,因为如果AI反馈的推理过程都是错的,那你直接就可以中断AI的回答,而不需要等AI回答完毕之后通过阅读答案再去判断。
这种推理过程犹如是答案的纲领,让人类能感知到AI的推理细节,从而实现双向奔赴。
因为AI所希望你问问题的方式,经常并非是人类实际的提问方式。再者人类的语言体系中本就存在一个随着谈话深入不停深化主题的概念,也就是说,人与人之间的谈话是需要联系上下文的。
这在日常对话中就很好理解,两个陌生人对话的前期总是免不了建立共同语境的过程。既然如此,那人与AI的对话也是如此。
强调推理,就是强调让AI抓紧这种推理逻辑链。
(本章完)