最新午夜综合福利视频,思热视频久久

前段時間Google推出Gemini多模態(tài)大模型，展示了不凡的對話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

本文對Gemini報告進行分析，總的來說Gemini模型在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸，能夠適用于從復雜推理任務到設備內存受限用例的各種應用。

不像OpenAI接入多模態(tài)能力需要利用多個不同的模型，Google直接在預訓練階段直接接受多模態(tài)的輸入是Gemini的特點之一，它能夠直接處理多模態(tài)的數(shù)據(jù)，并且各項指標都還不錯。另外可以看出具備圖文理解等能力后，再結合大模型的對話能力，能夠帶來更驚艷的效果體驗。

一、概述

1Motivation

發(fā)布Google的能與GPT4競爭的大模型，同時兼具多模態(tài)能力，包括文字、圖像、視頻、音頻識別與理解能力。

2Methods

1 Gemini模型支持4種格式輸入，2種格式輸出

特點：同時支持text文本，image圖像，video視頻和audio音頻輸入，支持文本和圖片的輸出。可以直接處理音頻文件，不需要將音頻轉為文字等。

猜測的訓練方法：

多模態(tài)訓練方法：Gemini是幾種模態(tài)一起聯(lián)合從頭訓練的，包括文本、圖片、音頻、視頻等。這與目前通常的多模態(tài)做法不太一樣，目前的多模態(tài)模型一般是使用現(xiàn)成的語言大模型或者經過預訓練過的圖片模型（比如CLIP的圖片編碼部分），然后利用多模態(tài)訓練數(shù)據(jù)在此基礎上加上新的網絡層訓練；如果是幾個模態(tài)從頭開始一起訓練，那么按理說應該都遵循next token prediction的模式，就應該是LVM的那個路子，其它模態(tài)的數(shù)據(jù)打成token，然后圖片、視頻等平面數(shù)據(jù)先轉換成比如16*16=256個token，然后搞成一維線性輸入，讓模型預測next token，這樣就把不同模態(tài)在訓練階段統(tǒng)一起來。

解碼結構：Decoder only的模型結構，針對結構和優(yōu)化目標做了優(yōu)化，優(yōu)化目的是大規(guī)模訓練的時候的訓練和推理的穩(wěn)定性，所以大結構應該是類似GPT的Decoder-only預測next token prediction的模式。目前支持32K上下文。

命令理解方面：和GPT一樣，采用多模態(tài)instruct數(shù)據(jù)進行SFT+RM+RLHF三階段，這里的RM部分在訓練打分模型的時候，采用了加權的多目標優(yōu)化，三個目標helpfulness factuality和 safety，猜測應該是對于某個prompt，模型生成的結果，按照三個指標各自給了一個排序結果。

模型大小：從硬件描述部分來看，意思是動用了前所未有的TPU集群，所以推測Gemini Ultra的模型規(guī)模應該相當大，猜測如果是MOE大概要對標到GPT 4到1.8T的模型容量，如果是Dense模型估計要大于200B參數(shù)?？紤]到引入視頻音頻（當然是來自于Youtube了，難道會來自TikTok么）多模態(tài)數(shù)據(jù)，所以總數(shù)據(jù)量*模型參數(shù)，會是非常巨大的算力要求，技術報告說可以一周或者兩周做一次訓練。

訓練細節(jié)：可能分成多個階段，最后階段提高了領域數(shù)據(jù)的混合配比，猜測應該指的是邏輯和數(shù)學類的訓練數(shù)據(jù)增加了配比，目前貌似很多這么做的，對于提升模型邏輯能力有直接幫助。

代碼能力：AlphaCode2是在Gemini pro基礎上，使用編程競賽的數(shù)據(jù)fine-tune出來的，效果提升很明顯，在編程競賽上排名超過85%的人類選手，之前的AlphaCode1超過50%的人類選手；

2 Gemini模型有多個版本，最小有1.8B

特點：其中Nano首先從大模型蒸餾，然后4bit量化。Gemini Nano包含兩個版本：1.8B面向低端手機，3.25B面向高端手機。

3 Conclusion

1 文本理解：Ultra性能超過了GPT4

Ultra比gpt4效果好，pro比gpt3.5效果好，MMNLU第一次超過人類專家水平。

Gemini Ultra 在六個不同數(shù)據(jù)集上都是最佳。Gemini Pro是Gemini系列中的第二大模型，效率更高的同時也頗具競爭力。

2 圖像理解：zero-shot效果超過很多微調后的模型

3 視頻理解：超過之前的few-shot SoTA模型

也是取得了SoTA，特別是英語視頻字幕數(shù)據(jù)集（VATEXT、YouCook2）上提升比較大，其他感覺提升沒那么大。相關評估指標如下：視頻字幕 -> CIDER，NextQA -> WUPS，Perception Test -> top-1 accuracy，ActivityNet-QA -> ActivityNet-QA。

4 不同版Genmini模型的性能

“事實性” ：涵蓋開放/閉卷檢索和問題回答任務；

“長文本” ：涵蓋長篇摘要、檢索和問題回答任務；

“數(shù)學/科學” ：包括數(shù)學問題解決、定理證明和科學考試等任務；

“推理” ：需要算術、科學和常識推理的任務；

“多語言” ：用于多語言翻譯、摘要和推理的任務。

Nano2模型很多超過了Pro版本的50%，部分達到90的水平，效果還不錯。

5 多語種翻譯：性能超過GPT4

翻譯能力也是比GPT-4好，WMT23指標中4個有3個超過GPT4的表現(xiàn)。

6 圖像理解數(shù)據(jù)集：MMMU數(shù)據(jù)集表現(xiàn)

MMMU（Yue et al., 2023）：是最近發(fā)布的評估基準，由6個學科的圖像問題組成，每個學科內有多個主題，需要大學水平的知識來解決這些問題。

Gemini Ultra將最先進的結果提高了 5 個百分點以上，6個學科中有5個學科中超越了之前的最佳成績，展示了其多模態(tài)推理能力。

二、詳細內容

1 多模態(tài)推理能力：識別手寫答案，對物理問題進行解答

特點：識別書寫結果，這個和OpenAI之前演示的根據(jù)草圖寫前端代碼是一樣的，不過識別的準確率是存疑的。

2 多模態(tài)推理能力：重新組織子圖順序

Gemini的多模態(tài)推理能力可生成用于重新排列子圖的matplotlib代碼。

Prompt：識別當前子圖的結果，重新組織子圖的順序并解釋。

解決此任務需要模型具備以下能力：

(1) 識別圖中描繪的函數(shù)；

(2) 逆向圖形來推斷生成子圖的代碼；

(3) 按照指令將子圖放置在所需的位置；

(4) 抽象推理，推斷指數(shù)圖必須留在原來的位置，因為正弦圖必須為 3 維圖移動。

3 圖像生成能力：多模態(tài)理解+圖像生成

要具備上面的功能需要以下能力：

（1）識別圖像中的顏色。這個難度不大。

（2）生成文字+圖片結果。這個難度好像也沒有那么大，可能有two-stage的實現(xiàn)方法或者end-to-end的實現(xiàn)方法。不太確定google用的哪種方法。

4 語音理解能力：具備語音識別和語音翻譯能力

對比的是OpenAI的Whisper，看著Gemini就是把多個SoTA模型包裝起來了。

5 多模態(tài)理解：支持圖片+音頻輸入

這個gptv+加個語音轉文字的模型可以做，這里的特點可能是直接用一個模型就可以解決？

三、多模態(tài)能力展示

1 幾何推理能力：求平行四邊形的高

2 視覺多模態(tài)推理能力：根據(jù)圖片確定地點

3 多語言常識推理：識別中文關系圖

4 視頻理解能力：分析視頻中的人如何提升足球技術

四、總結

直接支持多模態(tài)的能力是Gemini的特點，Google從預訓練階段就統(tǒng)一了多模態(tài)大模型的訓練，該策略也可能是后續(xù)大模型的發(fā)展趨勢，但是其具體實現(xiàn)方法、帶來的增益、以及cost還未知。OpenAI多模態(tài)的能力是引入（支持語音）其他模型或者通過插件（支持圖像）來實現(xiàn)。

Gemini的多模態(tài)能力比GPT4-V要強，科學推理能力可能稍微弱于GPT4。

圖文理解+視頻理解等多模態(tài)能力與最新的大模型強強組合確實能帶來驚艷的效果，但是其穩(wěn)定性，是否真實能落地還有待進一步觀察。例如結合圖像信息求平行四邊行的高，在教育領域相對于純文本可能會更有價值，但是OCR等技術還面臨魯棒性偏差的問題，Google的模型段時間應該還是沒辦法解決這些問題。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴