據(jù)悉,Apple近期發(fā)表了有關于Ferret-UI AI系統(tǒng)的研究論文,這款新型AI系統(tǒng)可理解應用程序屏幕上的內(nèi)容。
目前圍繞人工智能(AI)技術,出現(xiàn)了如ChatGPT這樣的大語言模型(LLMs),這些模型擅長處理文本資料。然而,對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容,就需要擴大AI模型的適用范圍,相應地,多模態(tài)大語言模型(MLLMs)也就應運而生。
盡管MLLMs已表現(xiàn)出對移動應用程序的理解不足,具體表現(xiàn)在以下幾點:
首先,智能手機屏幕的寬高比和大多數(shù)訓練視覺模型所使用的比例不同;其次,MLLMs需要識別出較小的圖標和按鈕。
針對以上問題,Apple提出了名為“Ferret-UI”的MLLM系統(tǒng),以應對這些挑戰(zhàn)。系統(tǒng)通過引入WMDR(任意分辨率),提升模型在處理用戶界面任務時的辨識度,使其能更好地識別和理解小圖標、文字等元素。
此外,我們專門采集了大量與初級用戶界面任務相關的樣本,包括圖標識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進行設計,以便于精確解釋和實用化。
為了提高模型的認知水平,我們進一步定制了高級任務數(shù)據(jù)集,含括詳細描寫、感官/互交互對話及功能推理等方面。
該項研究表明,與現(xiàn)行的GPT-4V以及其他MLLMs模型相比,F(xiàn)erret-UI AI模型具有顯著優(yōu)勢。
審核編輯 黃宇
-
人工智能
+關注
關注
1821文章
50396瀏覽量
267194 -
語言模型
+關注
關注
0文章
575瀏覽量
11349 -
ChatGPT
+關注
關注
31文章
1604瀏覽量
10404
發(fā)布評論請先 登錄
意法半導體為超大規(guī)模AI數(shù)據(jù)中心破解供電難題
潤和軟件AI質(zhì)檢平臺以智能化手段破解圖文比對難題
GSMA聯(lián)合華為等產(chǎn)業(yè)伙伴發(fā)布大上行網(wǎng)絡倡議
軟通動力攜手中國誠通破解多業(yè)態(tài)財務風險管理難題
Transformer 入門:從零理解 AI 大模型的核心原理
華為發(fā)布并開源創(chuàng)新AI容器技術Flex:ai
GMate發(fā)布《2025全球AI內(nèi)容營銷趨勢報告》
海瑞思科技如何破解AI眼鏡密封檢測難題
實時監(jiān)測技術如何破解高溫巡檢難題
蘋果發(fā)布研究論文:揭示Ferret-UI AI系統(tǒng),破解MLLMs移動應用理解難題
評論