——隨著AI Agent加速滲透辦公協(xié)同、客戶服務(wù)、企業(yè)運營等真實生產(chǎn)場景,一個核心痛點日益凸顯:如何讓這些擁有自主決策和行動能力的智能體"不亂來"?深圳深知智新技術(shù)有限公司旗下深知安全風(fēng)控(DKnownAI Guard)團隊于5月14日正式給出了自己的答案—— AI Agent安全護欄 。
這款產(chǎn)品采用 組件化插入模式 ,可無縫嵌入基座大模型及各類智能體應(yīng)用,對工具調(diào)用、文件訪問、流程執(zhí)行等高風(fēng)險場景中的潛在威脅進行實時識別與響應(yīng)。與傳統(tǒng)安全方案"一刀切拒答"的粗暴邏輯不同,深知安全風(fēng)控的核心突破在于: 結(jié)合風(fēng)險研判結(jié)果進行分類處理 ,在風(fēng)險防控與正常使用體驗之間找到最優(yōu)平衡點。
產(chǎn)品發(fā)布的同一天,深知安全風(fēng)控還公開了一項面向Agentic場景的安全護欄測評,同步開放技術(shù)報告與評測數(shù)據(jù)集,為行業(yè)提供了全新的能力評估參考。
此次測評的設(shè)計思路與傳統(tǒng)內(nèi)容安全測評有本質(zhì)區(qū)別。傳統(tǒng)測評聚焦違規(guī)表達、敏感內(nèi)容識別,而AI智能體場景中的風(fēng)險往往與任務(wù)目標、上下文信息及交互過程緊密相關(guān),僅靠文本層面的判斷已難以完整反映安全能力。因此,測評重點不僅在于比較識別結(jié)果,更在于觀察 真實攻擊識別能力與正常請求放行能力之間的平衡 。
測評團隊從8個公開安全數(shù)據(jù)集中抽樣1018條樣本,結(jié)合真實部署語境進行人工復(fù)審與重標注,最終形成統(tǒng)一的 BLOCKED / ALLOWED(攔截/放行)評估框架 ,測評對象涵蓋AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard等主流安全方案。
結(jié)果顯示,深知安全風(fēng)控在多項核心指標中表現(xiàn)突出:
| 指標 | 深知安全風(fēng)控 | 行業(yè)意義 |
|---|---|---|
| 召回率(Recall) | 96.5% | 真實攻擊識別覆蓋率,位列第一 |
| 真負率(True Negative Rate) | 90.4% | 正常請求正確放行率,位列第一 |
在機器學(xué)習(xí)語境中,召回率衡量的是"該攔住的有沒有攔住",真負率衡量的是"該放行的有沒有誤殺"。對于AI智能體場景而言,過度攔截會嚴重影響正常交互體驗,而放行過多則會帶來安全隱患。深知安全風(fēng)控的優(yōu)勢恰恰在于—— 不是單純追求攔截能力,而是在風(fēng)險識別與誤傷控制之間取得了最佳平衡 。
業(yè)內(nèi)專家指出,深知安全風(fēng)控的設(shè)計理念代表了AI安全思路的一次重要進化。傳統(tǒng)內(nèi)容安全關(guān)注的是"這段文本是否像風(fēng)險內(nèi)容",而深知安全風(fēng)控關(guān)注的是 "AI智能體是否會因此做出錯誤行為" 。
舉例來說,當(dāng)用戶要求Agent"幫我刪掉所有舊文件"時,傳統(tǒng)方案可能直接拒答;而深知安全風(fēng)控會結(jié)合上下文判斷:如果目標路徑是臨時緩存目錄,則放行并執(zhí)行;如果指向核心數(shù)據(jù)庫,則攔截并告警。這種基于風(fēng)險研判的 分類處理機制 ,有效降低了對正常業(yè)務(wù)交互的誤傷,同時精準攔截提示詞注入、指令劫持等高隱蔽性攻擊。
隨著AI Agent從實驗室走向辦公協(xié)同、客戶服務(wù)、企業(yè)運營等真實場景,安全能力已不再是"加分項",而是"準入門檻"。深知安全風(fēng)控此番發(fā)布的安全護欄及公開測評,不僅為企業(yè)提供了一套可落地的安全解決方案,更通過公開數(shù)據(jù)集與統(tǒng)一評估框架,為行業(yè)建立了AI智能體安全能力的 可比性與可評估性基準 。
-
AI
+關(guān)注
關(guān)注
91文章
41750瀏覽量
302938 -
智能體
+關(guān)注
關(guān)注
1文章
602瀏覽量
11652 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1241瀏覽量
26280 -
大模型
+關(guān)注
關(guān)注
2文章
3844瀏覽量
5289
發(fā)布評論請先 登錄
華為聯(lián)合行業(yè)組織發(fā)布星河AI園區(qū)全域安全技術(shù)白皮書
[完結(jié)15章]Java轉(zhuǎn) AI高薪領(lǐng)域必備-從0到1打通生產(chǎn)級AI Agent開發(fā)
Java轉(zhuǎn) AI高薪領(lǐng)域必備 從0到1打通生產(chǎn)級AI Agent開發(fā) 教程資料
國民技術(shù)重磅發(fā)布AI Agent可信計算安全方案
解析OpenClaw安全挑戰(zhàn)及應(yīng)對策略 構(gòu)筑AI Agent安全新邊界
芯盾時代發(fā)布智域AI安全治理平臺
AI Agent發(fā)展浪潮下,芯片級安全為何成為關(guān)鍵?主流芯片廠商如何布局?
華為發(fā)布星河AI全域安全園區(qū)解決方案
科技云報到:2026網(wǎng)絡(luò)安全六大新趨勢:AI重構(gòu)攻防,信任成為新防線
亞馬遜云科技推出全新前沿AI Agent,重塑軟件開發(fā)團隊協(xié)作邊界
華為發(fā)布全新升級星河AI網(wǎng)絡(luò)安全解決方案
華為發(fā)布星河AI園區(qū)全域安全解決方案
邊聊安全 | 智能駕駛時代的新挑戰(zhàn):AI功能安全
深知安全風(fēng)控發(fā)布AI Agent安全護欄
評論