【保姆级】Qwen3硬件配置、模型选择与本地部署完全指南,全面支持MCP,思考模式自由切换!

Konten Video AsliPerluas Video
  • 千问系列模型推出新一代——千问3
  • 五代模型持续探索各个领域
  • 千问3性能与国际强模型德国2.5 Pro相当
  • 首款开源混合推理模型
  • 高效利用,整合推理与对话能力

好那么10个半年千问系列模型是终于推出了新的一代,这个模型叫千问3。当然对于千问系列模型来说,它是每个0.5是一代新的模型,所以千问3系列模型对于千问系列模型来说,它应该是第五代模型。

在过去的这么两年的时间里面,千问系列模型一直是持续不断的坚持在推出优质的开源大模型。其实从2023年开始,整个的大模型技术圈就分成两派:一派是推再现模型,而一派是推开源模型。然后在此前很长一段时间,开源模型都是被再现模型二人打的,主要是因为再现模型里面有一个GPT4那样的怪物。

在从GPT4诞生之后的差不多一年多的时间里面,不管是再现模型好还是开源模型好,基本上是属于无人能敌的状态,没有任何一个模型能够和GPT4模型的性能进行比较。

那么在2023年,千问一代模型推出的时候,当时整个开源大语模型的技术圈才刚刚新起。很多不同的团队都在推出他们自己的开源模型,比如说当时有非常多的像JM系列这样的模型,像百川系列模型,以及千问系列模型,国外的像拉马,还有欧洲的Mystery等等,很多公司和机构都是在推出自己的开源大模型。

其实千问一代模型的开始我们最一开始在2023年的时候使用千问一代模型,其实感受还没有那么的明显,大家会觉得说那个模型可能就是所有的开源大语模型当中云云众生当中的一个。但是两年过去了,千问发了五代模型,几百个模型的版本,千问系列模型是在各个方向上进行记忆探索,比如说前段时间什么视觉推理模型、全模碳模型,再往前还推出了包括像数学类的模型、Coder代码类的模型等等,各个领域各个方向进行全面探索。

时至今日,现在第五代的千问3系列模型已经是登上了整个开源大模型技术圈的定流。同时相比于目前来看所有的这些大模型来说,现在其实放眼全球性能最强的大模型肯定是Germany 2.5 Pro,这个其实是没得跑的。现在千问3系列模型的最大尺寸那样的模型,基本上性能可以和Germany 2.5 Pro那样的模型性能相当。

后这么两年的发展时间,其实已经淘汰了很多的一些当初大家一起去做开源大语模型的公司,比如说Lama就不说了,Lama翻车了。然后GM是转头向了载线模型的阵营,虽然这样之前是发了一些小尺寸的模型、小尺寸的开源模型,但有一定程度是为了当时的IPO来进行造势。再往前,比如说像百川系列模型现在已经全面拥抱具体的医疗场景,专门去做医疗领域里面的专业领域的大模型了。

而像Mystery其实也有一段时间没有听到他的声音了,所以你会发现开源大模型的技术圈里面,除了DeepSix之外,其实最能打的就是千问三。当然其实现在千问三代模型的整体性能,已经和DeepSixV3模型拉开了一定的差距,所以千问三系列模型就是现在当前来看最强的这样的一块开源大模型。

当然除了它性能强之外,其实对于千问三系列模型来说,千问系列就把江湖人称元神,这个“元神”这个元是开源的元,指的是开源的神。它每一代模型推出的时候都会有很多不同的尺寸的版本,比如说当时千问2.5当时开源的时候一口气上下了几百个不同的模型型号。当时我的小伙伴们都惊呆了。

千问2.5代模型的时候,因为有很多细分的具体领域的一些模型,什么Coder模型、Math模型,还有不同尺寸的模型,还有Base模型跟Instruct模型等等,这样的一系列不同尺寸和不同领域的模型。所以导致整个当时千问2.5代模型发布的时候一口气发布了上百个型号的模型。

这个其实是千问系列模型的传统,它可能并不是发一个特别强的模型,而是会发覆盖完整应用生态的这样的一系列全尺寸的模型。然后现在千问系列模型发了的千问3系列模型,总共是有六个尺寸的模型,从0.6B开始一直到最大的235B这样的模型。这一系列模型其实整体来说性能都非常不错。

在这六款模型当中,有四款是Dance模型,有两款是MOE模型。所谓Dance模型,就是参数密集性的模型;而MOE模型,是指混合专家模型。我们经过了DeepSeek这一轮的洗礼,大家也都知道混合专家模型是一个什么样的意思。

就是它参数量很大,但每次运行的时候,可能并不是激活所有的参数来进行推理,而是激活其中若干个专家来完成当前任务。这个就是所谓的混合专家模型。

而所谓的Dance模型,它其实指的是每次运行的时候会激活全部的参数来进行运行,大家大概可以这么来理解。当然这两种模型的架构,你说使用效果其实并没有明显的定论,但自从DeepSeek这个模型发布以来,业界也看到了关于MOE混合专家模型的未来的价值潜力。

现在有很多模型都是朝着混合专家模型的方向在进行探索。就比如最近的拉马斯这个模型虽然翻车,但拉马斯这个模型,它确实也是采用混合专家这样的一个模型架构来进行的。实际上这是学术界一个非常普遍的现象,指的是如果有一个团队或者某个机构,它在某一个方向上探索出成果了,那么接下来可能就会有很多其他的团队尝试去模仿这个方向上的一些技术效果。

这其实很正常的事情,因为即使某个方向有价值,但有时只有一个团队在某个方向上探索出价值,那么也就相当于是给整个业内明确了一个方向。所以,DeepSyncV3和RE模型的发布在这个方面是有非常显著的影响。

所以现在看到的很多MOE开源模型的发布,其实也是和DeepSyncV3和RE模型的发布有很大关系。但这一系列模型来说,很明显,小尺寸的模型主要是应用于一些比较简单的任务,比如说一些文档检索或者应用于端侧的场景,移动端或浏览器里面来进行运行。而这些定位参数量比较大的模型,它肯定是一些聚焦于企业级的应用场景。

那么在所有的这些模型里,当前这六个模型里面,参数性能最强的应当是32B的Dance模型和235B-AR2B这样的一个MOE模型。32B这个模型,实际上参数量应该是一个比较标准的,可以应用于企业级的这样的场景的模型的参数量。而我们说235B-AR2B这个就是一个混合专家模型。

其中235B代表的是这个模型总共是拥有2350亿个参数量,而每次执行任务的时候会激活22B个参数量,也就是220亿的参数。A代表的含义是Activate,是这样的一个意思。

好,大家明白它为什么这个名字这么长的原因了。当然我们之后也可以简称它叫235B模型,比如说DFC这个模型发布的时候,大家都说它是671B的模型,它671B实际上是它的所有参数的总量,并不是它每次激活的参数量。那么千问模型命名的规则是会把它激活的参数量也写到这里,这方便我们来进行理解。

那么里面旗舰模型肯定是32B模型和235B-AR2B这两个模型,这两个模型的性能其实是非常强悍的。其中235B模型的性能会略胜一筹,它其实和目前专门的2.5Pro模型整体来看,从一些评测的一些结果来看,性能是相当的,包括它的对话能力、推理能力、数学能力、还有代码能力等等,其实和专门的2.5Pro模型性能是相当的。

这也是现在所有的开源大模型的定流,这其实已经非常难得了,因为专门的2.5Pro模型确实性能很强,我们不管是从哪个方面去看,它基本上都是榜单的存在。同时它不仅是在文本方面性能很强,它还是一个原生多模态模型,所以它基本上是属于六边形战士类型。现在有开源这样的模型能够和专门的2.5Pro模型一较高下,已经是实属难得的一件事情。

当然除此之外,这一系列模型千问三模型,它还不仅仅是简单的对话模型或者推理模型,它是全球首款的开源的混合推理模型。什么叫混合推理模型?这个是最开始在2023年2月份的时候,Cloud3.7模型是全球首款的混合推理模型。

所谓混合推理模型是指现在大模型分成两派,一派是对话模型,而一派是推理模型,它们似乎各自有各自的应用场景。比如说拿OpenAI的模型为例,GBT系列模型GBT4O、GBT4.1这个模型都属于对话模型,响应速度会很快,非常适合编写一些文本或做一些翻译。

除此之外,还有一些模型是推理模型,比如说OpenAI从OE模型开始,OEO在O4这一系列模型都属于推理模型。推理模型实际上是需要针对每个任务进行更复杂的思考,然后再来完成解答。

这个是所谓的推理模型。比如说DipstickV3就是对话模型,DipstickR1就是推理模型,也是类似的。推理模型从DipstickR1开始,其实很多推理模型都会展示它内部的思考流程。之前的O系列模型,O5的O系列模型是没有的,而现在的大多数推理模型都会展示它的内部思考流程。

大家一看就能明白它们各自的一些使用场景,尽管DipstickR1模型出来后,大家会觉得这个模型特别棒,有非常多的应用场景,但R1模型也是会有一些局限。这些局限可能不一定是前段时间某度发表的观点,但像R1模型,如果我们用它来构建一些智能体的话,确实会感觉到响应速度可能没有那么快。

第二个,对于R1模型,它天然是不具有函数调用这样的功能,所以基本上所有的推理模型可能会存在短板。对于对话模型来说,它还是有它很好的一些应用场景,加上对话模型本身响应速度相对较快。在完成很多任务时,可能并不需要进行非常深度的思考。

所以,关于如何更好使用这两类模型就成了大模型业内大家需要思考的问题。像OPPOI走的路线实际上是将两个模型分开创建,一方面推理模型继续是O系列模型,另一方面对话模型是GPT系列。

尽管之前OPPOI曾经想着未来推GPT5的时候,把O模型和GPT模型合而为一,使其能同时具备推理能力和对话能力的模型。但很遗憾的是,这条路可能走得没那么顺利。

最开始能够将对话模型和推理模型合而为一的模型实际上是Cloud3.7这个模型,它也是业内首款名为混合推理的模型。可能国内用户使用Cloud3.7模型的混合推理性能的机会不是很多。其实对于Cloud这样的模型,我们是可以通过设置一些参数,让它在推理模式和对话模式之间进行切换。

比如说设置一个参数,它就可以以对话模型的形式运行,而再设置不同的参数,它就可以以推理模型的模式来运行。而这其实是现在业内探索出来的一个关于如何将推理性能和对话性能合而为一的技术解决方案。

在此之前,这些技术都是在线模型厂商们掌握的。而现在千问三代这个模型实际上开源之后也把这样的技术展示给了大家,推向了大家的眼前,让大家看到一个开源大模型也能够实现混合推理的模式。我们可以通过一些参数设置,让模型表现出推理的性能,或者是让它表现出对话性能。这其实也是我个人觉得整个开源大模型在技术上又往前迈了一大步的证明。

当然现在大家可能刚刚使用这个模型,还在主要是上手使用测试的部署阶段,但当你们用了一段时间之后,你们会发现其实混合推理模式还是非常实用的。我们可以在不同的场景下调用它不同的模式,从而更高效处理一些问题,更关键的是我们不需要部署两个模型,只需要部署一个模型,它就具备两种不同的响应模式。

当然这不同的响应模式可能大家会问,那它是怎么会有不同的这种响应模式的。这里稍微拓展一点,其实非常简单。对于任何我们现在所看到的大模型来说,它本质上都是一个文本响应的,或者说是一个逐个token进行响应的这样的模型。

它自己本身是不知道什么叫做推理,什么叫做对话的。但如果你在训练过程中,给了它两种不同类型的数据进行训练,它就会诞生两种不同类型的响应方法。我们只需要通过一些特殊的token字符来标记两类不同数据的核心特色,那么模型在训练过程中,就能够学会这两类不同的数据背后所代表的推理或对话的行为模式。

这其实是非常有趣的事情。这个过程,就好比我们之前说的函数调用。为什么有些模型具备函数调用的能力?很简单,因为在训练的过程中,我们提供了尤其是在权重微调阶段,输入了两种不同类型的数据集。分别是一类数据是普通的文本问答数据,另一类数据是带有调用外部工具的信息的数据。

你会发现我们准备的这两种不同类型的数据,实际上就代表了我们希望给这个模型赋予不同类型的响应模式。也就是说,对于大模型来说,它们拥有函数调用的功能,也代表了它们能够进行文本问答和外部工具的通信。

通过这种方式理解,你就可以理解其实我们可以通过不同类型文本的训练,让模型具备推理和对话的能力。这两类不同文本,根据千问模型响应的结果,包括你去看它背后的提示模板,你能发现其实这两类文本非常简单。

推理类文本是有Think这个标志符的,它能够引入这样的文本来进行训练。另一类文本是不包含Think标志的对话类文本来进行训练,那么就会让模型知道在某些情况下是不需要进行思考的,可以直接输出结果。

通过这两类不同类型的数据训练,最终让模型拥有了不同的响应方法。理论是这样,但在实践中其实真的非常难,其实也是千问模型的挑战,虽然大家理论上知道不同类型的数据集能够训练出模型不同的特性,但训练出性能强悍的模型还是存在难度。

但从现在来看,千问三模型确实做到了这一点,我们在实践测试中感觉它很好用。它不仅可以通过推理框架里面的参数来改变模型的两种不同对话模式,居然还有一些软提示的方法,你可以直接在一段话中输入nothinking或其他提示,它就会自动开启普通问答模式或者思考再进行问答。

这样的模式切换其实是非常便捷的。因此,千问三模型不仅性能强悍,现有的混合推理模式也是非常实用的。官方给出的截图显示,在开启推理模式后,很多问题的解答上实际上有了显著飞跃。

确实是这么个情况,并且你思考的步骤越多,效果越好,所有推理模型基本都是如此。关于这一系列模型的整体性能,我们可以先看它的性能,最强的当然是235B这个模型和32B这个模型。

这两个模型在各个评测指标上的评分,大家如果之前看过直播应该比较熟悉,比如AIME、数学竞赛,还有LiveCodeBench等编程评估指标,以及AIDER这个编程项目解决的准确率等等各种评估指标。你会发现,235B的模型和32B的模型评分都是非常高的。

当然如果我们去对比Germany 2.5 Pro,你会发现235B这个模型在各个维度上和Germany 2.5 Pro这个模型也是各有胜负,整体表现可以说是非常接近。因此我们说它的模型性能已经将近追平了Germany 2.5 Pro这样的模型。

如果进一步看它的小尺寸模型,你会发现小尺寸模型的各项性能表现也都非常不错。例如官方给出的评测结果中,有一个关于30B-A3B这个相对小一点尺寸的混合专家模型和千问3-4B的Dance模型。发现这两个模型,虽然A3B这个模型性能可能更好一些,但即使是4B这个模型,在很多方面的评估结果上,与DPCV3或GBT4O等模型已经不相上下。

当然,这个榜单中更多的评估指标偏向于一些推理类的问题,但在这些方面,4B这个模型已经有了比较好的表现。总的来说,千问三全链路的各个不同尺寸的模型都是可以用的,没有任何问题。