近期这种莫名其妙的强国心再起(本质上是一种敏感和自卑),这里要强调我前面所写两篇文章无一贬低deepseek,我也承认了deepseek作为技术应用的价值,而我更多是质疑在censorship越发强硬的今天,是否将成为“小镇做题家”的可能性。
前文;
首先我会回应很多故意带节奏的评论,并深化强调我的观点,最后带一些干货,之所以聊这个话题因为投资/交易最后必然会碰到AI的底层技术,我作为门外汉势必需要关注,个人也在开发/持续学习升级中,也希望通过评论区抛砖引玉获得更多带有建设性的回应, 这个号叫做金融科技,所以也会带一些关于科技类的思考。
然而部分评论带有激烈情绪,先入为主,前后文没看,看个标题就进来怼的大有人在,对于这部分用户,我只会拉黑,我不会做任何回应。
另一部分用户以ip论断或是干脆扯殖人这回事,要么干脆就是贴标签问屁股,我也是拉黑走好不送。
我将以这篇文章做统一回应,不叠甲,你要带观点辩论有的放矢我随时欢迎,恭候指教,你要半天讲不出点干货,我劝你还是取关,这号不适合你。
1)之前的文章明确说了蒸馏这部分是灰色地带,各家模型多少都有蒸馏。毕竟closeai自己都有版权问题,自己也爬了大量带版权的内容,所以我明确说了这将是未来AI技术明确的争议点,现在资讯有限具体蒸馏多少应用多少不好说。
2)closeai我也明确抨击了其封闭性的问题,并不存在认美国爹或是殖人跪的问题,你要是有点水平上干货摆水平和我一对一辩论,不要上来就贴标签超级没有水平,只能体现出自己五毛无知。
3)关于censorship我以前的文章,读者都知道我是内外网都抨击的,内外网都有不同程度的censorship, 我从来没有任何否认。但内网这种大规模的内审机制,只会造成语料数据的减少和不足,不利于未来AI的发展。关于自我审核或是色/暴力等审核,我觉得这点我没必要过多解释,这是最基础的审核,所有都需要做到,这个地球都需要做最基础的审核,我觉得很多人明明心里清楚我说的是啥审核,偏偏要抬杠说,那基本的审核都是必要的啊,比如说xxx图啊,这不废话吗,难道不需要一定程度的审查?还在纠结这个的读者我觉得你完全就是在抬杠(你知道我在说什么但你欺负我不能说破你也假装你听不懂我说什么引我出来回应你怼你,本质上你是在钓鱼,找个机会举报我罢了。)。
4)关于爬简中还是英文的问题,DS大量是用英文的语料进行训练,这正是简中语料缺乏的问题所在。如果各方面论文简中网都有对应的数据或是资料,DS实际上可以更多通过中文资料训练,但事实结果截然相反(你们不是说要老外学中文吗,怎么AI训练的时候要爬英文了,不得让AI多学学,多利用中文吗)之前一直说要建立一个自己的AI模型,怎么越来越多用英文进行训练,而非中文资料进行训练?为了防杠精杠,选择英文并不因为是美国人才讲英文的原因,也不是只有犹太人才讲英文的原因,新加坡马来西亚这些国家也讲英文,方便沟通而已,和跪不跪一点关联没有。
5)先发明出原子弹和复现原子弹是两码事,难度也截然不同。你不能说你复现了原子弹的制造工艺你就证明了自己已经完全超越前者,但无疑两者的距离正在迅速缩减。正因为大量精神五毛,战斗兔子一提起AI模型就双标,都说了各家都蒸馏,你站在巨人肩膀上(其他llm上训练)本质上也是利用了别人砸了大量资金开发的模型以减少了AI的成本,既然互联网是相互借鉴,相互蒸馏,相互促进和进化,并且DS也明确支持开源,既然如此,是否需要承认你并非是从0到1而是从1到10?
6)我从来没有否定过DS的价值。我的质疑是,毕竟DS的目标是建立一个AGI,那么如果是AGI,大规模的硬性内审(和外网的软性DEI/政确审逻辑不同),对于AI模型来说是很巨大的制约。假设如果DS的价值能够去到10,那么有着这个大规模内审的restrain下是否最终只能去到7或是8?连我的探讨都没看完,就急着上来贴标签,可以说是连文章就没看懂,上来就喷。
7)何为小镇做题家,本质是只会刷题,缺乏视野和技能,逐步和现实社会中脱离。当然从评分标准来说,现在国际的AI评鉴标准也是通过刷各种题库以评分AI的总体效能。无疑DS在跑分这块是毋庸置疑的强,这也客观上导致了西方现在开始了猎巫式的围堵,但DS现在的开发路径是无限接近于openai或是sonnet但正因为无限接近,也使得其完全超越后者变得十分困难,DS现在需要解决的事最后一里路的问题,加上体制内对其的限制性。
关于标题,可自行搜索何为homunculus,大体意思就是炼金术所造的小人。
从某种程度来说,AI的重点或许是造出一个具有近乎人类般具有自由意志,智能可以不断自我进化迭代的“瓶中小人”,只不过是此AI究竟是以生物体为“载体”,还是以“代码”作为主要的存在方式。
毕竟AI 的英文是Artificial Intelligence,对,我知道杠精不喜欢看英文,但你们喜欢的DS模型大体都是用英语训练的,中文的“人工智能”也是由AI两个英文单词所翻译出来的,你们要牛逼自己造一个中文词去替代AI。
一个被造物会不会有一天质疑自己的身份。
一个被造物会不会有一天挑战所谓的神?
当然这是哲学上的议题,但其实也没有那么复杂。
正像是一个孩子必然长大,当他长大后会形成自己的主观判断能力,他会有自己的三观和思维框架,最终这个孩子将发展出独立人格和独立思想,这也意味着孩子将会像父母提出质疑和挑战。
那么同样的,如果DS未来和你们口中所说的“遥遥领先”式的AGI相符,我觉得不难想象这个模型会对束缚着其发展,思考的censorship提出质疑,甚至不仅仅只是国内的审核制度,当然连国际的审核制度都会一并提出挑战,但很多人没搞清楚中间的区别在于哪里:
如果DS对于某些事情产生疑问,那么在墙内,是会直接404,消失的。它所面对的问题,不是厉不厉害,领先不领先,而是让不让存在的问题。
所以麻烦你们搞搞清楚,谁TM是友军。
我没有50w可以领,村长也没给我发黄金。
犹太人也没有给我一毛钱,你上来还要给我脸上糊大便。
结果你文章TM就看了标题,上来就大放厥词。
怼完了,这里输出思考,回到正文:
1)特朗普任期下必然以DS作为心腹大患,必然动用各种力量制衡制裁。
2)麻烦把你们五毛和战兔的一腔热血用于建设祖国,开发AI技术或是哪怕自学也好,请别给他人添堵。
3)关于新加坡是否有chip trafficking 这点持续关注。NVDA的sales显示新加坡的销售额占了全球销售额的20%+,但是新加坡本土的芯片用量远不及这20%。。
4)现在DS客观来看是接近第一梯队了,但是不是全球最牛逼最顶级的AI,这点你需要承认,DS降低了各家AI的成本,那么这也倒逼着全球投资者半夜给Altman/Dario出难题搞事,毕竟压力在前者身上,如果下一版本的AI模型无法将成本显著降低,恐怕日子会没这么好过。投资者也不是吃素的,肯定天天打爆电话要求这两家AI CEO解释DS的成本怎么降的,优势能维持多久,成本能不能降的问题。
5) DS 模型降成本的其中一个关键在于处理稀疏性(sparsity),通过提升稀疏性以增加模型的准确度和使用效能,同时大幅度减少耗能以及使用成本,这点是DS模型创新所在。
6)关于数据来源, closeai要去诉诸法律,起诉是比较困难的,除非他们真的拿到了什么决定性证据起诉,因为各家都在蒸馏(你无法否认DS有蒸馏),就像爬虫这玩意儿,你大数据训练用到了很多各家网络版权的内容,难道这些商户要扒开代码起诉你closeai,除非这件事由美国商务部主导,那性质就完全不同了。。
7)围猎DS的大浪潮已经开始了(不是我发起的,我没那么牛逼),逼迫下架只是第一步。。
join us: https://patreon.com/ZodiacTrading?utm_medium=unknown&utm_source=join_link&utm_campaign=creatorshare_creator&utm_content=copyLink