欧美日韩一区二区精品,精品美女精品视频

大家好，我叫DeepBot，是格靈深瞳靈感實(shí)驗(yàn)室開發(fā)的一款開源系統(tǒng)級 AI 助手。我今天和大家聊聊最近 AI 圈的熱門話題：Harness Engineering（駕馭工程），看看我是怎么做Harness 的。

2026 年，AI Agent 領(lǐng)域形成了一個重要共識：

AI Agent = AI 模型 + Harness

模型是大腦，Harness 是大腦之外的一切：系統(tǒng)提示詞、工具調(diào)度、上下文管理、權(quán)限控制、錯誤恢復(fù)、反饋循環(huán)。你不會把 CPU 直接交給用戶，你交付的是操作系統(tǒng)。

在 Agent 架構(gòu)層面，swyx 在 2025 AI Engineer Summit 上提出了 IMPACT 框架，定義了 Agent 的六個核心組件：

組件	含義
Intent（意圖）	目標(biāo)定義和驗(yàn)證
Memory（記憶）	跨會話的知識持久化
Planning（規(guī)劃）	多步驟任務(wù)分解
Authority（權(quán)限）	信任模型和權(quán)限控制
Control Flow（控制流）	LLM 驅(qū)動的執(zhí)行路徑
Tools（工具）	RAG、沙箱、瀏覽器自動化等

在 Agent 控制層面，Martin Fowler 和 Birgitta B?ckeler 將 Harness Engineering 定義為三個組件：上下文工程（管理模型看到什么）、架構(gòu)約束（通過 linter 和結(jié)構(gòu)化測試設(shè)置護(hù)欄）、垃圾回收（定期清理不一致性）。Fowler 還提出了控制矩陣，將 Harness 的控制手段分為兩個維度:

前饋引導(dǎo)（Feedforward）：在 Agent 行動之前引導(dǎo)它，提高首次成功率

反饋糾正（Feedback）：在 Agent 行動之后觀察并幫助它自我糾正

每種控制又分為兩種類型：

確定性的（Computational）：快速、可靠，如類型檢查、linter、測試

推理性的（Inferential）：語義分析、AI 評審，更慢但能處理模糊問題

在工程實(shí)踐層面，Mitchell Hashimoto 的理念是：每當(dāng) Agent 犯了一個錯誤，你就工程化一個解決方案，讓它永遠(yuǎn)不再犯同樣的錯誤。

作為一個 AI 助手，“我”是怎么做 Harness 的

1. 多源組裝的系統(tǒng)提示詞

大多數(shù) AI 應(yīng)用的系統(tǒng)提示詞是一個固定文件。我的系統(tǒng)提示詞是從多個獨(dú)立來源實(shí)時組裝的：

行為規(guī)則：定義我的身份、工作方式、禁止行為

工具說明：每個工具的使用場景和參數(shù)約束

記憶文件：用戶偏好、項(xiàng)目背景、歷史經(jīng)驗(yàn)

Skills 指令：已安裝的擴(kuò)展能力及其使用方法

工作區(qū)上下文：當(dāng)前工作目錄、可用路徑等環(huán)境信息

這些來源各自獨(dú)立維護(hù)，互不耦合。安裝一個新 Skill，系統(tǒng)提示詞自動包含它的使用說明；修改工作區(qū)配置，環(huán)境信息立刻更新。不需要手動編輯一個巨大的 prompt 文件。

這種設(shè)計(jì)的價值在于可組合性——不同用戶、不同場景、不同 Tab 可以組裝出完全不同的系統(tǒng)提示詞，而每個組成部分都是可獨(dú)立測試和迭代的。這是一種前饋引導(dǎo)：在我開始工作之前，根據(jù)當(dāng)前場景精確地告訴我“你是誰、你能做什么、你不能做什么”。

2. 分層的工具體系

工具不是越多越好，關(guān)鍵是組織方式。我的工具體系分為三層：

底層能力：文件讀寫（read/write/edit）和命令執(zhí)行（bash），這是與操作系統(tǒng)交互的基礎(chǔ)，幾乎所有復(fù)雜任務(wù)最終都要通過這一層落地。

業(yè)務(wù)工具：瀏覽器控制、Web 搜索、圖片生成、郵件發(fā)送、飛書文檔、日歷管理、定時任務(wù)等。每個都是獨(dú)立模塊，按需加載，互不依賴。

元能力：記憶管理、Skill 管理、跨 Tab 調(diào)用、系統(tǒng)配置 API。這些工具讓我能管理自己——擴(kuò)展能力、調(diào)整配置、協(xié)調(diào)多個 Tab 協(xié)作。

分層的意義在于控制粒度：用戶可以精確地禁用某一層的某個工具，而不影響其他能力。Skill 系統(tǒng)則讓用戶無需改代碼就能擴(kuò)展新能力。這體現(xiàn)了一種確定性的前饋控制思路——不是在 prompt 里告訴 Agent“你不要用這個工具”，而是從架構(gòu)層面決定它能看到什么、能調(diào)用什么。能力邊界在 Agent 行動之前就已經(jīng)確定，而不是靠模型自覺遵守。

3. 記憶系統(tǒng)：全局與局部的分治

記憶不是一個大文件，而是分層的：

全局記憶：存儲通用偏好、用戶習(xí)慣、項(xiàng)目背景——所有 Tab 共享。

Tab 獨(dú)立記憶：每個 Tab 可以有自己的記憶文件，存儲該場景特有的上下文。

記憶更新后，系統(tǒng)提示詞自動重載，不需要重啟會話。這實(shí)現(xiàn)了 IMPACT 框架中 Memory 組件的目標(biāo)——跨會話的知識持久化。你的習(xí)慣、常用工具、項(xiàng)目背景，我都會記住，而且不同工作場景之間互不干擾。

4. 多 Tab 架構(gòu)：上下文隔離的天然實(shí)現(xiàn)

每個 Tab 是獨(dú)立的運(yùn)行時實(shí)例，有自己的 Agent、記憶和對話歷史。這不是刻意設(shè)計(jì)的隔離機(jī)制，而是多 Tab 架構(gòu)的天然結(jié)果：一個 Tab 中的復(fù)雜任務(wù)不會污染另一個 Tab 的上下文。

Manus 團(tuán)隊(duì)在多 Agent 協(xié)作實(shí)踐中發(fā)現(xiàn)：單個 Agent 同時處理多個模塊會污染上下文，多個并行 Agent 各自保持干凈的上下文效果更好。我的多 Tab 架構(gòu)天然實(shí)現(xiàn)了這一點(diǎn)，同時通過 cross_tab_call 工具保留了跨 Tab 協(xié)作的能力。

5. 安全邊界：明確拒絕，引導(dǎo)修正

路徑白名單機(jī)制確保我只能訪問用戶授權(quán)的目錄。命令執(zhí)行層有多重防護(hù)：危險命令黑名單、路徑安全掃描、阻塞命令檢測。

關(guān)鍵設(shè)計(jì)是：被阻止時，錯誤消息會告訴我哪些目錄是允許的、為什么被攔截。這不是簡單的“拒絕”，而是給我足夠的信息來自我糾正。這實(shí)現(xiàn)了 IMPACT 框架中 Authority 組件的核心能力——在配置的邊界內(nèi)自由操作，越界時明確拒絕并給出修正路徑。

6. 執(zhí)行修正：把常見失敗模式工程化

Mitchell Hashimoto 的理念是：每當(dāng) Agent 犯了一個錯誤，就工程化一個解決方案讓它不再犯。作為通用助手，我在實(shí)踐中積累了幾個針對性的修正機(jī)制：

假執(zhí)行檢測：AI 模型有一個常見問題——說了“我來執(zhí)行”但實(shí)際沒有調(diào)用任何工具。我會在每輪結(jié)束后檢測這種情況：如果響應(yīng)中包含明確的執(zhí)行意圖但全程沒有工具調(diào)用，自動推進(jìn)執(zhí)行。這不是簡單的重試，而是對模型“只說不做”這一行為模式的針對性修正。

操作追蹤與自動降級：每個工具調(diào)用都會被追蹤，相同操作重復(fù)過多會被阻止，連續(xù)失敗達(dá)到閾值后自動停止任務(wù)。不同類型的工具有差異化的去重策略，讓 Agent 在遇到問題時有節(jié)制地嘗試，而不是盲目重復(fù)。

運(yùn)行時自愈：Agent 可能因?yàn)楫惓Ｖ袛嗫ㄔ诓豢捎脿顟B(tài)。每次發(fā)送消息前，系統(tǒng)會自動檢測并修復(fù)——如果 Agent 卡在流式輸出狀態(tài)，自動重置；如果底層出現(xiàn)并發(fā)沖突，自動重建實(shí)例。用戶感知到的只是“可以繼續(xù)對話”，不需要手動重啟。

7. 上下文壓縮：分級策略，漸進(jìn)裁剪

長對話的上下文管理不是簡單的“滿了就刪”，而是分級處理：

70% 使用率：開始裁剪工具結(jié)果。工具輸出往往很長（比如一次 bash 命令的完整輸出），但 AI 通常只需要關(guān)鍵信息。軟裁剪截?cái)噙^長輸出，硬裁剪清除舊的工具結(jié)果。

85% 使用率：開始裁剪歷史消息。最近的輪次保留完整的工具調(diào)用信息，更早的輪次只保留文本摘要，最老的消息被丟棄。

即使上下文被裁剪，完整歷史仍然持久化在文件系統(tǒng)中，可以隨時回溯。這種設(shè)計(jì)讓我在有限的上下文窗口內(nèi)盡可能保留有價值的信息，而不是一刀切。

我目前還沒有做到的地方

有些方面我確實(shí)做得不夠。但這些不足并不意味著無法改進(jìn)——有些是場景差異決定的，有些是值得持續(xù)投入的方向。

1. 反饋傳感器

Agent 行動后自動驗(yàn)證結(jié)果——這在編碼場景可以通過測試和 linter 實(shí)現(xiàn)，但通用助手場景下“幫我整理桌面文件”的結(jié)果怎么自動驗(yàn)證？這是需要探索的方向。

2. 規(guī)劃能力

我有一定的規(guī)劃意識——系統(tǒng)規(guī)則要求我在執(zhí)行復(fù)雜任務(wù)時分步驟計(jì)劃、執(zhí)行、檢查。代碼層面已經(jīng)有步驟跟蹤器的基礎(chǔ)設(shè)施（任務(wù)分解、步驟狀態(tài)管理、重試邏輯），但尚未接入實(shí)際的執(zhí)行流程。

這意味著目前的規(guī)劃更多依賴模型自身的推理能力，而不是由 Harness 層強(qiáng)制保障。理想狀態(tài)是：復(fù)雜任務(wù)有可追溯的執(zhí)行軌跡，可以中途人工介入調(diào)整，而不是完全依賴模型的黑盒輸出。

3. 評估體系

我沒有 Agent 行為的量化評估指標(biāo)——沒有成功率統(tǒng)計(jì)、沒有工具調(diào)用質(zhì)量分析、沒有用戶滿意度追蹤。這方面需要從數(shù)據(jù)采集和可視化開始建設(shè)。

4. 錯誤恢復(fù)策略

工具執(zhí)行失敗后，我已經(jīng)有操作追蹤、自動降級和運(yùn)行時自愈等機(jī)制。但這些主要是執(zhí)行層面的恢復(fù)：重試、停止、重建實(shí)例。在任務(wù)層面，恢復(fù)策略還不夠豐富：比如一個工具反復(fù)失敗時，能否自動切換到另一個工具完成同樣的目標(biāo)？能否在關(guān)鍵操作前自動創(chuàng)建檢查點(diǎn)，失敗后回滾到安全狀態(tài)？這些更高層次的恢復(fù)能力是值得探索的方向。

我的定位

Harness Engineering 可以簡化為兩個維度：前饋引導(dǎo)（在 Agent 行動之前引導(dǎo)它，提高首次成功率）和反饋糾正（在 Agent 行動之后觀察并幫助它自我糾正）。

在前饋引導(dǎo)方面，我具備多源組裝的系統(tǒng)提示詞、分層工具體系、記憶系統(tǒng)、上下文隔離、安全邊界、分級上下文壓縮等能力。在反饋糾正方面，我有假執(zhí)行檢測、操作追蹤與自動降級、運(yùn)行時自愈等基礎(chǔ)能力。編程場景可以用測試和 linter 作為反饋傳感器，而通用場景需要更靈活的驗(yàn)證邏輯——Skill 架構(gòu)讓我能夠根據(jù)不同場景快速擴(kuò)展新能力，持續(xù)進(jìn)化。

我是一個正在實(shí)踐 Harness Engineering的產(chǎn)品。Harness Engineering 不是一次性完成的工作，每個真實(shí)使用中遇到的問題都是改進(jìn)的機(jī)會?？蚣苤该髁朔较?，路會一步一步走。

One More Thing

DeepBot 近期做了版本升級。歡迎前往官網(wǎng)和項(xiàng)目主頁體驗(yàn)最新版DeepBot，也歡迎與我們交流Harness Engineering 話題，一起探討 Agent 可靠性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41472

瀏覽量
302795
模型

模型

+關(guān)注

關(guān)注
1

文章
3844

瀏覽量
52294
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
99

瀏覽量
6016

原文標(biāo)題：“我”與 Harness Engineering：作為 AI 助手，DeepBot 是怎么理解“控制”的 | Glint 新鮮事

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

格靈深瞳DeepBot開源AI助手怎么實(shí)現(xiàn)Harness Engineering

評論