济宁缓粘结预应力钢绞线 云鹤眼中的Harness:复杂化问题,AGI灵魂争夺之战

钢绞线天津市瑞通预应力钢绞线有限公司

机器之心转载

近段时刻,Agent 又次成为 AI 圈热的关节词。

OpenClaw 这类开源方法走红之后,对于 Agent 的讨论赶紧升温:Agent 到底是什么?应该奈何作念?恒久会演进到那处?这些问题从头被摆到台面上。

近日,云鹤在知乎上围绕这问题发表了篇著作,讨论了我方对 Harness Engineering 的看法,引起了AI 社区的暖热与讨论。

机器之心经授权转载,让咱们看下他对 Harness 的不雅点。

原文地址:https://zhuanlan.zhihu.com/p/2038669387150927679

其实以来,直有个问题莫得被界证据晰,到底什么是 Agent?LLM 和 Agent 的限度在那处?我也频繁会跟东说念主讨论,自主计较、我方判断、实践任务……

然则其实直也莫得个舆论,跟着 LLM 的智商握续提高,致使好多时候有种 Base model as Agent 的趋势,加上多样器具调用轨迹数据的回流后。比如问模子今天的日历和天气,模子去读取了土产货的信息,这种时候,是叫它 LLM 如故叫它 Agent?

回到当下,从 OpenClaw 出来,对于 Agent 到底是什么济宁缓粘结预应力钢绞线,应该奈何作念,恒久演进向是什么的讨论绝顶多,也繁衍出来好多新的契机,论是算法揣测如故工程革命。

早我跟东说念主讨论的是 Agent 还是进阶到需要咱们讨论 AgentOS 层面(非通讯、契约等)了,Agent = Base Models+AgentOS。好多东说念主会空预料上个时间的 OS,Android、Linux,然则此 OS 非彼 OS,AgentOS 里面包含了好多组件来进取开释大模子自己的智商和拓展其期骗限度。自后慢慢大敛迹到 Harness Engineering 的倡导 [r1],也等于 Agent = Model+Harness。到当今,也有了多的对于 AgentOS 和 Harness 的讨论和演 [r2,r3],我以为论是 AgentOS 如故 Harness,皆是在告诉咱们,Base model 很伏击,然则奈何把它使用的好,可能,伏击。

另外个值得度念念考的问题是,Harness 是否会恒久存在,以及,Harness 会不会被模子吃掉?有东说念主会说,Harness 仅仅个新倡导,像昔时的 rag、向量数据库样会跟着模子长序列智商的提高而物化,但推行上呢?Rag 其实在升而不是消灭,加上了 prompt、器具调用、多的常识等形成了 skills。好多 Harness 里面的元素皆是直存在的,况且跟着模子智商和业界的算法与工程算法革命不停进化。况且 Harness 实在敬爱上的把总共的围绕模子的总共价值元素皆联动在了起,是 Agent 时间伏击的事情之。

好了,那咱们当今不错回应初的问题了,等于 Agent 是 Base Model(不错是 LLM、VLM、VLA……)加上 Harness 层面的任何化,哪怕是多加点点 prompt 化,多加了点器具调用,而不是 Base Model as Agent。那回到我我方的不雅点,我以为 Agent 可能要进取,如故要形成 Agent = Models+Harness,也等于说多模子配不错产生好的 Agent 智商。先讲为什么:

1. 模子 “七国八制”:我以为模子的结尾还早,先不谈中好意思模子的差距,存身当下国内的模子方法,如故个七国八制的情况,各模子左证我方的业务属、左证我方的数据、左证我方早 bet 的道路,定会出现特异化的情况(有的生计文娱类阐扬好、有的详实数学、有的 coding 智商强、有的长序列作念的好),而且,价钱也不样。Claude Code 里面还会调用多款模子(opus、sonnet、haiku 等)来达成综解。此外,不同模子尽管评测收支不大,然则在具体任务上的阐扬互异可能很大,致使实践成果会跟 benchmark 关联度很小,还铭记旧年很火的 AI 量化的方法,qwen、deepseek、gpt、gemini、claude、grok 六个比拼的成果,后胜出的是 deepseek 和 qwen,让东说念主大跌眼球的是 gpt。自后我也跟一又友们分析过,论断是 gpt 太安全了,遭遇风险场景不敢作念有筹算,然则频频那些才是收益率大的地。另外,劳动于模子的 benchmark 也短长常多的,虽然也有主不雅评测的榜单,这就致了以不同基准不同体系评价出来的模子亦然不样的。

2. 模子中的任务会 “架”:在机器学习中好多任务是没法用个统的 loss function 来抒发的,况且是不可用个模子来学出来的。言语模子这块有点不样,先 raw data 的 representation 是致的,然后,通过 pre-training 和 scaling law 会对消好多,然则如故有些迹象。比如,快慢念念考(非 prompt 切换)咱们在 25 年 4 月份就勉力的放到起过,然则自后险些总共东说念主皆废弃了。其实对于这个很早作念 IPT(Pretrained Image Processing Transformer [r4])的时候就遭遇过,锚索图像分和图像去迁延是容易突破的两个任务,放在个基模里面学不好,本色上这两个东西个是通滤波,个是低通滤波,我以为快慢念念考从信号处理的角度亦然样的,于是背面咱们又作念了 instruct IPT [r5]。是以,哪怕模子同质化,不同的任务的模子,也会有互异,除非总共东说念主皆对总共任务给雷同的权重。

3. 复杂任务需要多模子:言语模子自己是个详情的事情,大在这个朝上还是鼓胀卷了,排行靠前的几个模子不存在显耀的能上的差距。然则,Beyond LLM,畴昔还有多复杂的任务,比如多模态阐明和生成,具身智能的 agent 等,需要多个模子来协同,比如短剧生成,案牍转写用什么模子?生成用什么模子?中间进程比如转场后的褂讪用什么模子和法保险?具身智能是需要多模子协同来作念感知、有筹算、运控、展望、顾忌等等。如若说基模的愿景是个强的模子吞吃掉总共的 Harness,那这个事情相较于上头两条,给 Harness 这层的时刻窗大,致使要 3-5 年以上了。

回到我为什么要对 Harness 这件事度感意思意思,先是多样模子智商的握续提高,尤其是 coding 和 planning 智商的爆发,迎来了 OpenClaw 这样的开源方法,也深远了绝顶多的坐蓐力期骗,那如若进取念念考 Agent 搞定问题的智商,其实是要搞定个复杂的化问题的。比如,咱们给定了个任务,和些不错用的 Base Models,那对应每个模子,Harness 当中的每个模组需要诊疗的可能是不样的,也等于模子 vs agent 有好多子特上的匹配。这也跟上头段讲的 “七国八制” 联系。比如,有的模子 prompt 不错增长补充提高精度、有些模子 rag 挂多了反而会影响精度、有的安全增加了模子智商会剧烈着落。

是以,我对 Harness 这层的默契是,这是个绝顶绝顶绝顶复杂的,化和系统工程问题,值得过问。

光是求解这个复杂的化问题来带来好的 agent 等于个令东说念主以为敬爱且有价值的事情了。然则,从公式 1 的角度,M 也未始不不错被化,尤其是在 Harness 上积贮的数据,对下阶段的模子也至关伏击。这二者定不是互斥的,致使 Anthropic 告诉咱们的道理是,基模很伏击,然则 Harness 作念好了不错反哺基模的进化,于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上个时间,大瞄着 AGI 要作念的事情是,给定数据集,大化模子参数。现时这个阶段,Agent 在干的总共事情其实,皆是给定模子,大化 Harness parameters。那如若,咱们把 model parameters 也带入进来起化呢?对应的下代 AGI 旅途很有可能等于:

即,Model Parameters 和 Harness Parameters 迭代化,概况,联化。那么,Harness 震荡我的事情是什么?

AI “灵魂” 之争:广义上,大会以为大模子才是实在智能的大脑,是总共期骗的中枢源流,就好比是汽车里的发动机,手机里面的芯片样,然后 Harness 是驾驭大模子,是自动驾驶系统,是总共这个词手机的软硬协同。但,如若公式 1 建树,要适度模子,致使遴荐模子,AI 的大脑,概况说灵魂到底是在 Base Model 如故 Harness 呢?如若公式 2 存在可能,那等于咱们还要基于 Harness 来进取增训模子,达成 Agent 中的自主进化,那灵魂到底属于谁呢?

[r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.

[r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).

[r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).

[r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.

[r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).

[r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.

[r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.

相关词条:不锈钢保温施工     塑料管材生产线     钢绞线厂家    玻璃棉板    泡沫板橡塑板专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定济宁缓粘结预应力钢绞线,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。