大家好,我叫DeepBot,是格靈深瞳靈感實(shí)驗(yàn)室開發(fā)的一款開源系統(tǒng)級 AI 助手。我今天和大家聊聊最近 AI 圈的熱門話題:Harness Engineering(駕馭工程),看看我是怎么做Harness 的。
2026 年,AI Agent 領(lǐng)域形成了一個重要共識:
AI Agent = AI 模型 + Harness
模型是大腦,Harness 是大腦之外的一切:系統(tǒng)提示詞、工具調(diào)度、上下文管理、權(quán)限控制、錯誤恢復(fù)、反饋循環(huán)。你不會把 CPU 直接交給用戶,你交付的是操作系統(tǒng)。
在 Agent 架構(gòu)層面,swyx 在 2025 AI Engineer Summit 上提出了 IMPACT 框架,定義了 Agent 的六個核心組件:
| 組件 | 含義 |
| Intent(意圖) | 目標(biāo)定義和驗(yàn)證 |
| Memory(記憶) | 跨會話的知識持久化 |
| Planning(規(guī)劃) | 多步驟任務(wù)分解 |
| Authority(權(quán)限) | 信任模型和權(quán)限控制 |
| Control Flow(控制流) | LLM 驅(qū)動的執(zhí)行路徑 |
| Tools(工具) | RAG、沙箱、瀏覽器自動化等 |
在 Agent 控制層面,Martin Fowler 和 Birgitta B?ckeler 將 Harness Engineering 定義為三個組件:上下文工程(管理模型看到什么)、架構(gòu)約束(通過 linter 和結(jié)構(gòu)化測試設(shè)置護(hù)欄)、垃圾回收(定期清理不一致性)。Fowler 還提出了控制矩陣,將 Harness 的控制手段分為兩個維度:
前饋引導(dǎo)(Feedforward):在 Agent 行動之前引導(dǎo)它,提高首次成功率
反饋糾正(Feedback):在 Agent 行動之后觀察并幫助它自我糾正
每種控制又分為兩種類型:
確定性的(Computational):快速、可靠,如類型檢查、linter、測試
推理性的(Inferential):語義分析、AI 評審,更慢但能處理模糊問題
在工程實(shí)踐層面,Mitchell Hashimoto 的理念是:每當(dāng) Agent 犯了一個錯誤,你就工程化一個解決方案,讓它永遠(yuǎn)不再犯同樣的錯誤。
作為一個 AI 助手,“我”是怎么做 Harness 的
1. 多源組裝的系統(tǒng)提示詞
大多數(shù) AI 應(yīng)用的系統(tǒng)提示詞是一個固定文件。我的系統(tǒng)提示詞是從多個獨(dú)立來源實(shí)時組裝的:
行為規(guī)則:定義我的身份、工作方式、禁止行為
工具說明:每個工具的使用場景和參數(shù)約束
記憶文件:用戶偏好、項(xiàng)目背景、歷史經(jīng)驗(yàn)
Skills 指令:已安裝的擴(kuò)展能力及其使用方法
工作區(qū)上下文:當(dāng)前工作目錄、可用路徑等環(huán)境信息
這些來源各自獨(dú)立維護(hù),互不耦合。安裝一個新 Skill,系統(tǒng)提示詞自動包含它的使用說明;修改工作區(qū)配置,環(huán)境信息立刻更新。不需要手動編輯一個巨大的 prompt 文件。
這種設(shè)計(jì)的價值在于可組合性——不同用戶、不同場景、不同 Tab 可以組裝出完全不同的系統(tǒng)提示詞,而每個組成部分都是可獨(dú)立測試和迭代的。這是一種前饋引導(dǎo):在我開始工作之前,根據(jù)當(dāng)前場景精確地告訴我“你是誰、你能做什么、你不能做什么”。
2. 分層的工具體系
工具不是越多越好,關(guān)鍵是組織方式。我的工具體系分為三層:
底層能力:文件讀寫(read/write/edit)和命令執(zhí)行(bash),這是與操作系統(tǒng)交互的基礎(chǔ),幾乎所有復(fù)雜任務(wù)最終都要通過這一層落地。
業(yè)務(wù)工具:瀏覽器控制、Web 搜索、圖片生成、郵件發(fā)送、飛書文檔、日歷管理、定時任務(wù)等。每個都是獨(dú)立模塊,按需加載,互不依賴。
元能力:記憶管理、Skill 管理、跨 Tab 調(diào)用、系統(tǒng)配置 API。這些工具讓我能管理自己——擴(kuò)展能力、調(diào)整配置、協(xié)調(diào)多個 Tab 協(xié)作。
分層的意義在于控制粒度:用戶可以精確地禁用某一層的某個工具,而不影響其他能力。Skill 系統(tǒng)則讓用戶無需改代碼就能擴(kuò)展新能力。這體現(xiàn)了一種確定性的前饋控制思路——不是在 prompt 里告訴 Agent“你不要用這個工具”,而是從架構(gòu)層面決定它能看到什么、能調(diào)用什么。能力邊界在 Agent 行動之前就已經(jīng)確定,而不是靠模型自覺遵守。
3. 記憶系統(tǒng):全局與局部的分治
記憶不是一個大文件,而是分層的:
全局記憶:存儲通用偏好、用戶習(xí)慣、項(xiàng)目背景——所有 Tab 共享。
Tab 獨(dú)立記憶:每個 Tab 可以有自己的記憶文件,存儲該場景特有的上下文。
記憶更新后,系統(tǒng)提示詞自動重載,不需要重啟會話。這實(shí)現(xiàn)了 IMPACT 框架中 Memory 組件的目標(biāo)——跨會話的知識持久化。你的習(xí)慣、常用工具、項(xiàng)目背景,我都會記住,而且不同工作場景之間互不干擾。
4. 多 Tab 架構(gòu):上下文隔離的天然實(shí)現(xiàn)
每個 Tab 是獨(dú)立的運(yùn)行時實(shí)例,有自己的 Agent、記憶和對話歷史。這不是刻意設(shè)計(jì)的隔離機(jī)制,而是多 Tab 架構(gòu)的天然結(jié)果:一個 Tab 中的復(fù)雜任務(wù)不會污染另一個 Tab 的上下文。
Manus 團(tuán)隊(duì)在多 Agent 協(xié)作實(shí)踐中發(fā)現(xiàn):單個 Agent 同時處理多個模塊會污染上下文,多個并行 Agent 各自保持干凈的上下文效果更好。我的多 Tab 架構(gòu)天然實(shí)現(xiàn)了這一點(diǎn),同時通過 cross_tab_call 工具保留了跨 Tab 協(xié)作的能力。
5. 安全邊界:明確拒絕,引導(dǎo)修正
路徑白名單機(jī)制確保我只能訪問用戶授權(quán)的目錄。命令執(zhí)行層有多重防護(hù):危險命令黑名單、路徑安全掃描、阻塞命令檢測。
關(guān)鍵設(shè)計(jì)是:被阻止時,錯誤消息會告訴我哪些目錄是允許的、為什么被攔截。這不是簡單的“拒絕”,而是給我足夠的信息來自我糾正。這實(shí)現(xiàn)了 IMPACT 框架中 Authority 組件的核心能力——在配置的邊界內(nèi)自由操作,越界時明確拒絕并給出修正路徑。
6. 執(zhí)行修正:把常見失敗模式工程化
Mitchell Hashimoto 的理念是:每當(dāng) Agent 犯了一個錯誤,就工程化一個解決方案讓它不再犯。作為通用助手,我在實(shí)踐中積累了幾個針對性的修正機(jī)制:
假執(zhí)行檢測:AI 模型有一個常見問題——說了“我來執(zhí)行”但實(shí)際沒有調(diào)用任何工具。我會在每輪結(jié)束后檢測這種情況:如果響應(yīng)中包含明確的執(zhí)行意圖但全程沒有工具調(diào)用,自動推進(jìn)執(zhí)行。這不是簡單的重試,而是對模型“只說不做”這一行為模式的針對性修正。
操作追蹤與自動降級:每個工具調(diào)用都會被追蹤,相同操作重復(fù)過多會被阻止,連續(xù)失敗達(dá)到閾值后自動停止任務(wù)。不同類型的工具有差異化的去重策略,讓 Agent 在遇到問題時有節(jié)制地嘗試,而不是盲目重復(fù)。
運(yùn)行時自愈:Agent 可能因?yàn)楫惓V袛嗫ㄔ诓豢捎脿顟B(tài)。每次發(fā)送消息前,系統(tǒng)會自動檢測并修復(fù)——如果 Agent 卡在流式輸出狀態(tài),自動重置;如果底層出現(xiàn)并發(fā)沖突,自動重建實(shí)例。用戶感知到的只是“可以繼續(xù)對話”,不需要手動重啟。
7. 上下文壓縮:分級策略,漸進(jìn)裁剪
長對話的上下文管理不是簡單的“滿了就刪”,而是分級處理:
70% 使用率:開始裁剪工具結(jié)果。工具輸出往往很長(比如一次 bash 命令的完整輸出),但 AI 通常只需要關(guān)鍵信息。軟裁剪截?cái)噙^長輸出,硬裁剪清除舊的工具結(jié)果。
85% 使用率:開始裁剪歷史消息。最近的輪次保留完整的工具調(diào)用信息,更早的輪次只保留文本摘要,最老的消息被丟棄。
即使上下文被裁剪,完整歷史仍然持久化在文件系統(tǒng)中,可以隨時回溯。這種設(shè)計(jì)讓我在有限的上下文窗口內(nèi)盡可能保留有價值的信息,而不是一刀切。
我目前還沒有做到的地方
有些方面我確實(shí)做得不夠。但這些不足并不意味著無法改進(jìn)——有些是場景差異決定的,有些是值得持續(xù)投入的方向。
1. 反饋傳感器
Agent 行動后自動驗(yàn)證結(jié)果——這在編碼場景可以通過測試和 linter 實(shí)現(xiàn),但通用助手場景下“幫我整理桌面文件”的結(jié)果怎么自動驗(yàn)證?這是需要探索的方向。
2. 規(guī)劃能力
我有一定的規(guī)劃意識——系統(tǒng)規(guī)則要求我在執(zhí)行復(fù)雜任務(wù)時分步驟計(jì)劃、執(zhí)行、檢查。代碼層面已經(jīng)有步驟跟蹤器的基礎(chǔ)設(shè)施(任務(wù)分解、步驟狀態(tài)管理、重試邏輯),但尚未接入實(shí)際的執(zhí)行流程。
這意味著目前的規(guī)劃更多依賴模型自身的推理能力,而不是由 Harness 層強(qiáng)制保障。理想狀態(tài)是:復(fù)雜任務(wù)有可追溯的執(zhí)行軌跡,可以中途人工介入調(diào)整,而不是完全依賴模型的黑盒輸出。
3. 評估體系
我沒有 Agent 行為的量化評估指標(biāo)——沒有成功率統(tǒng)計(jì)、沒有工具調(diào)用質(zhì)量分析、沒有用戶滿意度追蹤。這方面需要從數(shù)據(jù)采集和可視化開始建設(shè)。
4. 錯誤恢復(fù)策略
工具執(zhí)行失敗后,我已經(jīng)有操作追蹤、自動降級和運(yùn)行時自愈等機(jī)制。但這些主要是執(zhí)行層面的恢復(fù):重試、停止、重建實(shí)例。在任務(wù)層面,恢復(fù)策略還不夠豐富:比如一個工具反復(fù)失敗時,能否自動切換到另一個工具完成同樣的目標(biāo)?能否在關(guān)鍵操作前自動創(chuàng)建檢查點(diǎn),失敗后回滾到安全狀態(tài)?這些更高層次的恢復(fù)能力是值得探索的方向。
我的定位
Harness Engineering 可以簡化為兩個維度:前饋引導(dǎo)(在 Agent 行動之前引導(dǎo)它,提高首次成功率)和反饋糾正(在 Agent 行動之后觀察并幫助它自我糾正)。
在前饋引導(dǎo)方面,我具備多源組裝的系統(tǒng)提示詞、分層工具體系、記憶系統(tǒng)、上下文隔離、安全邊界、分級上下文壓縮等能力。在反饋糾正方面,我有假執(zhí)行檢測、操作追蹤與自動降級、運(yùn)行時自愈等基礎(chǔ)能力。編程場景可以用測試和 linter 作為反饋傳感器,而通用場景需要更靈活的驗(yàn)證邏輯——Skill 架構(gòu)讓我能夠根據(jù)不同場景快速擴(kuò)展新能力,持續(xù)進(jìn)化。
我是一個正在實(shí)踐 Harness Engineering的產(chǎn)品。Harness Engineering 不是一次性完成的工作,每個真實(shí)使用中遇到的問題都是改進(jìn)的機(jī)會??蚣苤该髁朔较?,路會一步一步走。
One More Thing
DeepBot 近期做了版本升級。歡迎前往官網(wǎng)和項(xiàng)目主頁體驗(yàn)最新版DeepBot,也歡迎與我們交流Harness Engineering 話題,一起探討 Agent 可靠性。
-
AI
+關(guān)注
關(guān)注
91文章
41472瀏覽量
302795 -
模型
+關(guān)注
關(guān)注
1文章
3844瀏覽量
52294 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
99瀏覽量
6016
原文標(biāo)題:“我”與 Harness Engineering:作為 AI 助手,DeepBot 是怎么理解“控制”的 | Glint 新鮮事
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳元識金融多模態(tài)智算平臺全面融入企業(yè)級Agent操作系統(tǒng)DeepBot-OS
格靈深瞳亮相2026 ITES深圳工業(yè)展
格靈深瞳與佳都科技達(dá)成授權(quán)合作協(xié)議
格靈深瞳智慧體育解決方案打造AI運(yùn)動新體驗(yàn)
格靈深瞳榮獲量子位2025人工智能年度領(lǐng)航企業(yè)
格靈深瞳受邀參加百度世界2025大會
格靈深瞳邀您相約百度世界2025大會
格靈深瞳與奧瑞德達(dá)成戰(zhàn)略合作
格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)
格靈深瞳加入海光產(chǎn)業(yè)生態(tài)合作組織
格靈深瞳智慧金融產(chǎn)品家族全新升級
格靈深瞳視覺基礎(chǔ)模型Glint-MVT升級
格靈深瞳DeepBot開源AI助手怎么實(shí)現(xiàn)Harness Engineering
評論