Workflow
Qwen3深夜正式开源,小尺寸也能大力出奇迹。

小道消息一直在说,昨天深夜或者今天凌晨,阿里会发Qwen3。 然后我特意早早的睡了一两小时,凌晨1点起床,就为了等Qwen3发。 结果这一等,就是好几个小时。。。 不过,功夫不负有心人。 凌晨5点,我眼睛都睁不开的时候,终于等到了。 Qwen你赔我睡眠。。。 把报告看完,我总结一下,觉得最大的亮点有6个: 1. 模型能力登顶全球,这个没啥可说的,就是No.1。 2. 第一个开源的混合推理模型。 3. 8个不同尺寸的模型,几乎覆盖了所有场景。 4. 成本很低, 旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。 5. 支持MCP协议。 6. 居然还支持了119种语言。 一起说吧。 就像我们其实都知道,DeepSeek这个深度思考,你打开的时候,是R1模型,但是你关掉,其实用的是v3来给你回答。 但是Qwen3,是一体的。 是一个模型,只不过支持了两种模式,这个不管对于开发者还是使用者,都方便很多。 这次发了8个模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,这6个都是Dense稠密模型。 还有两个重量级MoE模型,Qwen3-30B-A3B,和旗舰版的Qwen3-235B-A2 ...