日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI又打出王炸!一句話生成60秒視頻,馬斯克:人類認輸吧

Hobby觀察 ? 來源:電子發(fā)燒友網 ? 作者:梁浩斌 ? 2024-02-19 09:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網報道(文/梁浩斌)在大年初七,春節(jié)假期的尾聲,OpenAI突然發(fā)布的AI文字生成視頻模型Sora被全網刷屏,馬斯克甚至感嘆“gg Humans”(gg是good game的縮寫,在競技游戲中原意為稱贊對方打得不錯,但目前主流的含義是代表認輸退出)。

文字生成視頻的AI模型其實之前也有不少,比如去年11月美國AI初創(chuàng)公司Pika Labs發(fā)布的Pika 1.0;去年Runway推出了文生視頻模型Gen-1,并完成了兩次迭代;還有谷歌團隊發(fā)布的視頻生成模型VideoPoet。但問題在于,此前市面上的文生視頻模型只能生成數(shù)秒,最高十多秒的視頻。而Sora一上來就是60秒的視頻長度,且生成視頻的細節(jié)、質量幾乎“秒殺”其他文生視頻模型,這足以顛覆目前的視頻生成模型初創(chuàng)公司的格局。

視頻生成質量炸裂,好萊塢時代要結束了?

Sora生成的視頻效果有多強?下面是OpenAI在官網展示的第一個視頻,也是最能夠表現(xiàn)Sora實力的視頻。


這個視頻的提示詞為“一位時尚女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和動畫城市標志。她穿著黑色皮夾克、紅色長裙和黑色靴子,拿著一個黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了五顏六色燈光的鏡面效果。許多行人四處走動?!?br />
從視頻中,無論是運鏡還是人物、地面、背景的細節(jié),還有拉進鏡頭后人物面部上的皺紋、毛發(fā)、墨鏡上的反光,都幾乎可以以假亂真,畫面穩(wěn)定不錯位。在長達60秒的視頻里,畫面隨鏡頭的大幅度運動并沒有出現(xiàn)錯位的情況,整體風格保持了驚人的一致性。

在復雜場景方面,另一個演示視頻同樣展現(xiàn)了Sora的炸裂效果。下面這個視頻使用的提示詞為:“一段美麗的自制視頻展示了2056年尼日利亞拉各斯的人們。用手機相機拍攝。”

同樣是運鏡幅度巨大的場景,同時背景有大量的人物。在以往的文生圖模型中,類似這種背景有人群的圖片都會產生很多錯位,很容易看出AI的痕跡,而在Sora生成的這個視頻里,背景人群不仔細看很難發(fā)現(xiàn)有錯誤,特別是在動態(tài)的視頻當中。另一方面在視頻后半段的人物近景里,大幅度運動的鏡頭同樣沒有對人物造成影響,畫面細節(jié)極為穩(wěn)定。

Sora生成視頻的穩(wěn)定,不止于單鏡頭的運動,即使是多鏡頭的畫面切換中,依然能夠保持色彩、畫面風格的一致

除了真實場景之外,Sora還能以動畫風格生成視頻。比如使用提示詞:“動畫場景特寫了一個跪在融化的紅燭旁的毛茸茸的小怪物。藝術風格是3D和現(xiàn)實主義的,重點是照明和紋理。這幅畫的基調是驚奇和好奇,因為怪物睜大眼睛張著嘴凝視著火焰。它的姿勢和表情傳達出一種天真和頑皮的感覺,就好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了圖像的舒適氛圍?!?br />

生成出的動畫形象與皮克斯電影幾乎不相上下,此前在動畫電影中大費周章渲染出的毛發(fā),如今AI直接一鍵生成!難怪會有網友表示“好萊塢的時代要結束了”。

有博主將Sora跟Pika、Runway、Stable Video等幾個模型進行對比,對其輸入同樣的提示詞:“美麗、多雪的東京城熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個享受美麗的下雪天氣和在附近攤位購物的人。絢麗的櫻花花瓣隨著雪花隨風飛舞?!?br />
結果Sora生成的視頻無論是時間長度、還是運鏡、畫面細節(jié),都完勝其他幾個模型生成出的視頻。比如Pika和Runway生成的視頻在短短幾秒時間里都只有固定鏡頭畫面,Stable Video有鏡頭移動的變化,但時長太短。

Sora還未完美,OpenAI揭秘背后技術

目前Sora還未對大眾開放,OpenAI表示Sora正在面向部分用戶開放,以評估關鍵領域的潛在危害或風險。同時,OpenAI也邀請了一批視覺藝術家、設計師和電影制作人加入以推動模型的發(fā)展。

當然,在驚艷的演示視頻外,Sora的視頻生成也并非完美。OpenAI也表示,目前的模型可能難以準確模擬復雜場景的物理特性,也可能不理解因果關系的具體實例,比如一個人咬了一口餅干,餅干上可能沒有咬痕。Sora生成的視頻還可能混淆提示詞中關于空間的細節(jié)(比如左右),并且難以準確描述隨時間發(fā)生的事件,比如跟隨特定的鏡頭軌跡等。


比如上面動圖中所使用的提示詞為“五只灰狼崽在一條偏僻的碎石路上嬉戲追逐,周圍都是草地。小狗們奔跑跳躍,相互追逐,相互撕咬,嬉戲玩?!?,但實際畫面中灰狼數(shù)量出錯,并且部分是憑空出現(xiàn)又憑空消失,出現(xiàn)身體互相重疊等現(xiàn)象。

對于Sora背后使用的技術,OpenAI在官網上發(fā)布了一篇報告進行了介紹,但只提到了方便大模型進行訓練的數(shù)據(jù)處理方式和對Sora局限性的評價,沒有太多技術細節(jié)。

根據(jù)介紹,Sora是一種diffusion模型,它從一個看起來像靜態(tài)噪聲的視頻開始生成視頻,并通過多個步驟去除噪聲來逐漸轉換視頻。與GPT相似,Sora算法層面也采用了transformer,以釋放出強大的擴展性能。

OpenAI表示,Sora是以過于公司對DALL·E和GPT模型的研究作為基礎,使用了DALL·E 3中的重新標注技術。通過用一個能夠生成詳細描述的標注模型,為訓練集中的所有視頻生成詳細的文字說明,這能夠提高文字準確性的同時,還能提升視頻的整體質量。

與DALL·E 3類似,OpenAI也使用了GPT將簡短的用戶提示詞轉換為更詳細的文本,所以Sora能夠準確理解用戶提示,并生成對應視頻。

另外,OpenAI還透露了Sora的其他能力,包括接受圖像和文本說明輸出視頻、能夠以時間線向前或向后擴展視頻、生成圖像、改變視頻風格和環(huán)境、無縫連接兩個不同視頻等等。

業(yè)界大佬評價:“真的非常?!薄爸忻繟I差距進一步拉大”

Sora的“刷屏”,引起了多位業(yè)內大佬的關注。前阿里技術副總裁賈揚清也感嘆“Sora真的非常?!?,并認為對標OpenAI的公司有一波被其他大廠因為害怕錯過AI而收購相關公司的機會。對于其他算法小廠,賈揚清建議“要不就算法上媲美OpenAI,要不就垂直領域深耕應用,要不就開源”,最后他預言AI infra(AI基礎設施)的需求會繼續(xù)猛增。

360董事長周鴻祎則回應了如何看待Sora的問題,他認為科技競爭最終比拼的是讓人才密度和深厚積累,“很多人說 Sora的效果吊打Pika和Runway。這很正常,和創(chuàng)業(yè)者團隊比,OpenAl 這種有核心技術的公司實力還是非常強勁的。有人認為有了AI以后創(chuàng)業(yè)公司只需要做個體戶就行,實際今天再次證明這種想法是非常可笑的?!?br />
周鴻祎還表示,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。關于國內外的AI大模型差距,周鴻祎認為國內大模型發(fā)展距離GPT-4.0還有一年半的差距,并且相信OpenAl手里應該還藏著一些秘密武器。“奧特曼是個營銷大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大?!?br />
關于大模型本身,周鴻祎對Sora理解為OpenAl利用它的大語言模型優(yōu)勢,把LLM和 Diffusion結合起來訓練,讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界。而得益于大量視頻的訓練,周鴻祎認為AI對世界的理解將遠超文字學習,可能未來一到兩年就能實現(xiàn)AGI(通用人工智能)。

而作為去年年底爆火的AI視頻生成初創(chuàng)公司Pika創(chuàng)始人,郭文景將Sora的發(fā)布視為動力,表示“我們覺得這是一個很振奮人心的消息,我們已經在籌備直接沖,將直接對標 Sora。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41305

    瀏覽量

    302685
  • 算力
    +關注

    關注

    2

    文章

    1697

    瀏覽量

    16838
  • OpenAI
    +關注

    關注

    9

    文章

    1252

    瀏覽量

    10292
  • 大模型
    +關注

    關注

    2

    文章

    3796

    瀏覽量

    5276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    告別手忙腳亂!蜀瑞創(chuàng)新語音鍵順控,一句話搞定開關柜

    語音鍵順控,不是簡單加個語音功能,而是可視化 + 語音 + 五防 + 自動順控的體化升級 —— 讓開關柜 “聽得懂、做得準、看得見”,把電力運維從 “繁瑣人工” 推向 “智能語音” 時代。一句話,搞定倒閘;
    的頭像 發(fā)表于 04-24 09:16 ?299次閱讀
    告別手忙腳亂!蜀瑞創(chuàng)新語音<b class='flag-5'>一</b>鍵順控,<b class='flag-5'>一句話</b>搞定開關柜

    一句話讓大模型控制硬件:手把手教你給 EmbedClaw 添加自己的 Tool!

    很多人第次看到EmbedClaw會有種錯覺:然而事實是:不能直接操作,但可以通過Tool去操作。這也是EmbedClaw很有意思的點。它不是把大模型硬塞進ESP32里當聊天機器人,而是把LLM
    的頭像 發(fā)表于 04-01 18:32 ?156次閱讀
    <b class='flag-5'>一句話</b>讓大模型控制硬件:手把手教你給 EmbedClaw 添加自己的 Tool!

    逆天了!把OpenClaw裝入ESP32-S3上是種什么體驗

    最近小龍蝦OpenClaw實在是太火了,相信你或多或少都刷到過。如果一句話解釋什么是OpenClaw:款可以運行在任何系統(tǒng)上的A
    的頭像 發(fā)表于 03-22 10:05 ?954次閱讀
    逆天了!把OpenClaw裝入ESP32-S3上是<b class='flag-5'>一</b>種什么體驗

    馬斯克的預言:AI使人類邊緣化

    當?shù)貢r間3月11日,在“Abundance Summit”科技峰會上,馬斯克談及AI進展時表示,AI已經進入自我改進階段,在超高量級AI面前,人類終將走向邊緣化。以下是對這預言的相關分析: 預言
    發(fā)表于 03-14 05:27

    當光伏飛向太空:霍爾電流傳感器如何守護馬斯克的100GW“天基電網”?

    100座中型核電站。什么是“太空光伏”?“太空光伏”般是指在地球軌道或更高的軌道部署太陽光伏組件,利用太空中全天候、強輻照的太陽光產生電力。馬斯克之所以有這個太
    的頭像 發(fā)表于 01-12 15:14 ?3068次閱讀
    當光伏飛向太空:霍爾電流傳感器如何守護<b class='flag-5'>馬斯克</b>的100GW“天基電網”?

    2026年,人類文明重構的元年 | 馬斯克的預言

    2026年元旦的鐘聲尚未消散,埃隆·馬斯克在社交平臺X的篇跨年博文已引爆全球科技圈:"HappyNewYear!2026willbeabanger.""2026將會
    的頭像 發(fā)表于 01-04 07:42 ?4582次閱讀
    2026年,<b class='flag-5'>人類</b>文明重構的元年 | <b class='flag-5'>馬斯克</b>的預言

    EMMI-InGaAs 與 OBIRCH:分鐘教你看懂兩款失效定位設備原理與應用

    一句話區(qū)別總結 EMMI 看光 → 漏電、擊穿這類“會發(fā)光的異?!? OBIRCH 看熱 → 金屬短路、高阻這類“無光但致命的問題”
    的頭像 發(fā)表于 12-05 16:21 ?1401次閱讀
    EMMI-InGaAs 與 OBIRCH:<b class='flag-5'>一</b>分鐘教你看懂兩款失效定位設備原理與應用

    一句話,多個命令同時執(zhí)行,AI語音模組也能多任務處理?

    、 Ai-WV02-32S ? 將語音識別、喚醒、語義理解等核心功能, 濃縮在顆小小的模組中。 安信可AI語音模組支持 MCP 協(xié)議(Multi Command Processing,多命令并行處理) ,讓語音交互從“單線程”進化為真正的“多任務協(xié)同”! 一句話喚醒“
    的頭像 發(fā)表于 10-31 14:45 ?697次閱讀
    <b class='flag-5'>一句話</b>,多個命令同時執(zhí)行,AI語音模組也能多任務處理?

    真正免費的AI生成PPT工具盤點:告別收費陷阱

    的戰(zhàn)斗機",其他9款工具也各有絕活,保證讓你告別收費陷阱,輕松做出專業(yè)級PPT! 、AiPPT:一句話生成PPT的"時間管理大師" 一句話生成
    的頭像 發(fā)表于 10-30 15:43 ?6961次閱讀
    真正免費的AI<b class='flag-5'>生成</b>PPT工具盤點:告別收費陷阱

    智多晶SA5T-200 FPGA開發(fā)板重磅發(fā)布

    在科技飛速發(fā)展的今天,硬件與軟件的融合正不斷重塑我們的世界。而在芯片領域,流傳著這樣一句話:“軟件定義世界,F(xiàn)PGA定義未來”。
    的頭像 發(fā)表于 10-11 11:45 ?1186次閱讀

    一句話了解21種計算模式

    、智能化趨勢、安全與可持續(xù)四個維度,梳理了21種計算模式,并盡量用通俗易懂的一句話向您介紹每種模式的定義。架構與資源維度并行計算:把大任務拆成多個小任務,讓多顆處理器
    的頭像 發(fā)表于 08-06 14:31 ?873次閱讀
    <b class='flag-5'>一句話</b>了解21種計算模式

    2025 AI主戰(zhàn)場,連鎖門店“變形記”

    讓業(yè)務駕馭AI,當大模型的價值通過“取漢堡更快”“一句話點咖啡”來實現(xiàn),這場技術變革才算真正落地
    的頭像 發(fā)表于 07-24 12:41 ?1406次閱讀
    2025 AI主戰(zhàn)場,連鎖門店“變形記”

    一句話出PPT“的榮耀YOYO,AI生產力有多強?

    釋放AI生產力,榮耀讓智能體告別發(fā)布會炫技
    的頭像 發(fā)表于 07-14 14:15 ?2844次閱讀
    “<b class='flag-5'>一句話</b><b class='flag-5'>秒</b>出PPT“的榮耀YOYO,AI生產力有多強?

    馬斯克的“星鏈”衛(wèi)星,大批墜落

    電子發(fā)燒友網綜合報道 據(jù)俄羅斯《共青團真理報》6月8日報道,埃隆·馬斯克的太空探索技術公司發(fā)射的“星鏈”衛(wèi)星接連墜落。由美國國家航空航天局(NASA)戈達德航天中心的物理學家丹尼·奧利維拉領導的研究
    的頭像 發(fā)表于 06-11 00:07 ?1.1w次閱讀

    馬斯克回歸“7×24硬核模式”,F(xiàn)SD與Optimus雙線狂飆

    這場 "馬斯克式狂飆" 能否沖破技術瓶頸與市場質疑?2025 年的得州街頭,或許會給出第個答案。
    的頭像 發(fā)表于 05-27 16:18 ?782次閱讀
    确山县| 潜江市| 隆德县| 志丹县| 镇原县| 八宿县| 康保县| 依兰县| 湛江市| 砀山县| 华容县| 梧州市| 兴宁市| 襄樊市| 安义县| 晋中市| 即墨市| 随州市| 沐川县| 剑阁县| 左云县| 江阴市| 澄迈县| 宜州市| 江川县| 库车县| 平南县| 崇礼县| 博兴县| 广饶县| 孝义市| 辛集市| 上栗县| 喜德县| 新泰市| 乐都县| 青浦区| 屏东市| 万全县| 双牌县| 安丘市|