去年春节,DeepSeek 横空出世,新款 Mac Studio 也在节后不久面市。 我们用一台售价快到 10 万元人民币的 M3 Ultra Mac Studio(512GB + 16TB)跑了 DeepSeek R1 671B 模型(注:实际上只需要内存,硬盘不用那么大,1TB SSD 售价七万多的型号就够了),以及蒸馏过的 70B 版本。
这意味着,曾被寄予厚望的洗衣机第二增长曲线,在投入一年多后不得不大幅收缩。
,推荐阅读新收录的资料获取更多信息
Sarvam-M是一个240亿参数的混合模型,支持10种印度语言,针对数学和代码任务做了强化训练。发布公告里列了一串基准测试数字,措辞是它在"多项指标上与全球领先模型相当"。,推荐阅读新收录的资料获取更多信息
Scaling does not start with headcount. It starts with culture. Without shared values and expectations, growth becomes chaos.,更多细节参见新收录的资料