作者 / 產(chǎn)品副總裁、Android 開發(fā)者 Matthew McCullough
我們希望幫助您更快速、更輕松地構(gòu)建高質(zhì)量的 Android 應(yīng)用,而提升生產(chǎn)力的方式之一,就是讓 AI 觸手可及。我們知道您希望 AI 真正理解 Android 平臺的細(xì)微差異,因此我們一直在評估 LLM 在 Android 開發(fā)任務(wù)中的表現(xiàn)?,F(xiàn)在,我們發(fā)布了Android Bench的首個版本,這是 Google 官方專門針對 Android 開發(fā)打造的 LLM 排行榜。
我們的目標(biāo)是為模型開發(fā)者提供一個基準(zhǔn),用于評估 LLM 在 Android 開發(fā)方面的能力。通過為高質(zhì)量的 Android 開發(fā)建立清晰、可靠的基準(zhǔn),我們致力于幫助模型開發(fā)者識別能力差距并加速改進(jìn)。這將使開發(fā)者能夠更高效地工作,并在更多優(yōu)質(zhì)模型中選擇適合的 AI 輔助工具,最終推動 Android 生態(tài)系統(tǒng)的應(yīng)用質(zhì)量全面提升。
以現(xiàn)實(shí)世界的Android 開發(fā)任務(wù)為設(shè)計基礎(chǔ)
我們通過整理一系列涵蓋常見 Android 開發(fā)領(lǐng)域的任務(wù)來創(chuàng)建基準(zhǔn)測試。該基準(zhǔn)由不同難度的實(shí)際挑戰(zhàn)組成,任務(wù)來源于公開的 GitHub Android 庫。測試場景包括: 解決 Android 版本升級帶來的破壞性更改、處理可穿戴設(shè)備上的網(wǎng)絡(luò)連接等特定領(lǐng)域任務(wù),以及遷移到最新版本的 Jetpack Compose 等。
在每次評估中,我們都會引導(dǎo) LLM 嘗試修復(fù)任務(wù)中報告的問題,并通過單元測試或插樁測試進(jìn)行驗(yàn)證。這種與模型無關(guān)的方法,使我們能夠衡量模型在復(fù)雜代碼庫中導(dǎo)航、理解依賴關(guān)系,以及解決開發(fā)者日常遇到的各類實(shí)際問題的能力。
我們已與多家 LLM 研發(fā)廠商 (包括 JetBrains) 共同驗(yàn)證了這一方法論。
JetBrains AI 集成負(fù)責(zé)人 Kirill Smelov:“衡量 AI 對 Android 的影響是一項(xiàng)巨大的挑戰(zhàn),因此很高興看到這樣一個完善且實(shí)用的框架。雖然我們自身也在積極進(jìn)行基準(zhǔn)測試,但 Android Bench 這一獨(dú)特的且備受期待的補(bǔ)充方案確實(shí)很有意義。這種方法正是當(dāng)前 Android 開發(fā)者所需要的嚴(yán)謹(jǐn)評估體系?!?/p>
首批 Android Bench 測試結(jié)果
在本次初始發(fā)布中,我們旨在純粹評估模型性能,并未側(cè)重智能體能力或工具的使用。結(jié)果顯示,各模型任務(wù)完成率在 16% 至 72% 之間。這一較大的差距表明,部分 LLM 已經(jīng)具備較強(qiáng)的 Android 開發(fā)基礎(chǔ)能力,而另一些模型仍有較大的提升空間。無論當(dāng)前表現(xiàn)如何,我們都期待 LLM 開發(fā)者持續(xù)優(yōu)化其模型以更好地支持 Android 開發(fā),并在此過程中不斷地提升性能。
在本次首發(fā)評測中,平均得分最高的 LLM 是 Gemini 3.1 Pro,緊隨其后的是 Claude Opus 4.6。您可以在最新穩(wěn)定版本的Android Studio中配置 API 密鑰,體驗(yàn)我們評測的所有模型,為您的 Android 項(xiàng)目提供 AI 輔助支持。

為開發(fā)者與 LLM 研發(fā)廠商提供信息透明度
我們秉持開放與透明的原則,因此我們的評測方法、數(shù)據(jù)集以及自動化測試框架已經(jīng)在 GitHub 上公開。
任何公開基準(zhǔn)都會面臨一個挑戰(zhàn)——數(shù)據(jù)污染的風(fēng)險,即模型可能在訓(xùn)練過程中已經(jīng)接觸過評測任務(wù)。為確保評測結(jié)果反映的是真實(shí)推理能力,而非記憶或猜測,我們采取了多項(xiàng)措施,包括對智能體軌跡進(jìn)行嚴(yán)格的人工審查,以及引入 Canary 字符串以勸阻模型對測試數(shù)據(jù)的訓(xùn)練學(xué)習(xí)。
展望未來,我們將持續(xù)優(yōu)化評測方法,以維護(hù)數(shù)據(jù)集的完整性,同時不斷改進(jìn)基準(zhǔn)的后續(xù)版本,例如增加任務(wù)數(shù)量和復(fù)雜度。
我們期待Android Bench在長遠(yuǎn)角度提升 AI 輔助開發(fā)能力;我們的愿景是縮小創(chuàng)意與高質(zhì)量代碼之間的差距,為未來奠定基礎(chǔ)——助力您在 Android 上輕松構(gòu)建出您心中所想。也歡迎您關(guān)注 "谷歌開發(fā)者" 微信公眾號,及時了解更多開發(fā)技術(shù)和產(chǎn)品更新等資訊動態(tài)!
-
Android
+關(guān)注
關(guān)注
12文章
4035瀏覽量
134547 -
Google
+關(guān)注
關(guān)注
5文章
1816瀏覽量
60647 -
LLM
+關(guān)注
關(guān)注
1文章
350瀏覽量
1397
原文標(biāo)題:Android Bench 正式發(fā)布 | 專為 Android 開發(fā)打造的 LLM 評測基準(zhǔn)
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
AT32 Work Bench介紹和使用指南
昆侖天工Skywork與Google Cloud深度合作發(fā)布桌面級Agent
谷歌Android Studio Otter 3功能更新發(fā)布
探索MOTIX? Motor Bench:電機(jī)控制評估的得力助手
nordic NRF54藍(lán)牙設(shè)備在Google Pixel 10上“聽診”藍(lán)牙信道示例
JoyCode:SWE-bench Verified打榜技術(shù)報告
NVIDIA TensorRT LLM 1.0推理框架正式上線
廣和通發(fā)布端側(cè)情感對話大模型FiboEmo-LLM
谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用
Android 16更新亮點(diǎn)介紹
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
Google Fast Pair服務(wù)簡介
使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?
使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐
LM Studio使用NVIDIA技術(shù)加速LLM性能
Google正式發(fā)布LLM評測基準(zhǔn)Android Bench
評論