日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

寫給小白的大模型入門科普

穎脈Imgtec ? 2024-11-23 01:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是大模型?

大模型,英文名叫Large Model,大型模型。早期的時候,也叫Foundation Model,基礎(chǔ)模型。


大模型是一個簡稱。完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練,是一項技術(shù),我們后面再解釋。

我們現(xiàn)在口頭上常說的大模型,實際上特指大模型的其中一類,也是用得最多的一類——語言大模型(LargeLanguage Model,也叫大語言模型,簡稱LLM)。

除了語言大模型之外,還有視覺大模型、多模態(tài)大模型等?,F(xiàn)在,包括所有類別在內(nèi)的大模型合集,被稱為廣義的大模型。而語言大模型,被稱為狹義的大模型。

241da10c-a8f4-11ef-8084-92fbcf53809c.png

從本質(zhì)來說,大模型,是包含超大規(guī)模參數(shù)(通常在十億個以上)的神經(jīng)網(wǎng)絡(luò)模型。

之前給大家科普人工智能(鏈接)的時候,小棗君介紹過,神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域目前最基礎(chǔ)的計算模型。它通過模擬大腦中神經(jīng)元的連接方式,能夠從輸入數(shù)據(jù)中學(xué)習(xí)并生成有用的輸出。

2425f866-a8f4-11ef-8084-92fbcf53809c.png

這是一個全連接神經(jīng)網(wǎng)絡(luò)(每層神經(jīng)元與下一層的所有神經(jīng)元都有連接),包括1個輸入層,N個隱藏層,1個輸出層。


大名鼎鼎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)以及transformer架構(gòu),都屬于神經(jīng)網(wǎng)絡(luò)模型。

目前,業(yè)界大部分的大模型,都采用了transformer架構(gòu)。


剛才提到,大模型包含了超大規(guī)模參數(shù)。實際上,大模型的“大”,不僅是參數(shù)規(guī)模大,還包括:架構(gòu)規(guī)模大、訓(xùn)練數(shù)據(jù)大、算力需求大。


以O(shè)penAI公司的GPT-3為例。這個大模型的隱藏層一共有96層,每層的神經(jīng)元數(shù)量達(dá)到2048個。


整個架構(gòu)的規(guī)模就很大(我可畫不出來),神經(jīng)元節(jié)點數(shù)量很多。


大模型的參數(shù)數(shù)量和神經(jīng)元節(jié)點數(shù)有一定的關(guān)系。簡單來說,神經(jīng)元節(jié)點數(shù)越多,參數(shù)也就越多。例如,GPT-3的參數(shù)數(shù)量,大約是1750億。


大模型的訓(xùn)練數(shù)據(jù),也是非常龐大的。


同樣以GPT-3為例,采用了45TB的文本數(shù)據(jù)進(jìn)行訓(xùn)練。即便是清洗之后,也有570GB。具體來說,包括CC數(shù)據(jù)集(4千億詞)+WebText2(190億詞)+BookCorpus(670億詞)+維基百科(30億詞),絕對堪稱海量。


最后是算力需求。


這個大家應(yīng)該都聽說過,訓(xùn)練大模型,需要大量的GPU算卡資源。而且,每次訓(xùn)練,都需要很長的時間。


根據(jù)公開的數(shù)據(jù)顯示,訓(xùn)練GPT-3大約需要3640PFLOP·天(PetaFLOP·Days)。如果采用512張英偉達(dá)的A100 GPU(單卡算力195 TFLOPS),大約需要1個月的時間。訓(xùn)練過程中,有時候還會出現(xiàn)中斷,實際時間會更長。


總而言之,大模型就是一個虛擬的龐然大物,架構(gòu)復(fù)雜、參數(shù)龐大、依賴海量數(shù)據(jù),且非常燒錢。

相比之下,參數(shù)較少(百萬級以下)、層數(shù)較淺的模型,是小模型。小模型具有輕量級、高效率、易于部署等優(yōu)點,適用于數(shù)據(jù)量較小、計算資源有限的垂直領(lǐng)域場景。



大模型是如何訓(xùn)練出來的?

接下來,我們了解一下大模型的訓(xùn)練過程。

大家都知道,大模型可以通過對海量數(shù)據(jù)的學(xué)習(xí),吸收數(shù)據(jù)里面的“知識”。然后,再對知識進(jìn)行運(yùn)用,例如回答問題、創(chuàng)造內(nèi)容等。

學(xué)習(xí)的過程,我們稱之為訓(xùn)練。運(yùn)用的過程,則稱之為推理。

242faef6-a8f4-11ef-8084-92fbcf53809c.jpg

訓(xùn)練,又分為預(yù)訓(xùn)練(Pre-trained)和微調(diào)(Fine tuning)兩個環(huán)節(jié)。

  • 預(yù)訓(xùn)練

在預(yù)訓(xùn)練時,我們首先要選擇一個大模型框架,例如transformer。然后,通過“投喂”前面說的海量數(shù)據(jù),讓大模型學(xué)習(xí)到通用的特征表示。

那么,為什么大模型能夠具有這么強(qiáng)大的學(xué)習(xí)能力?為什么說它的參數(shù)越多,學(xué)習(xí)能力就越強(qiáng)?

我們可以參考MIT(麻省理工)公開課的一張圖:

243713c6-a8f4-11ef-8084-92fbcf53809c.jpg

這張圖是深度學(xué)習(xí)模型中一個神經(jīng)元的結(jié)構(gòu)圖。

神經(jīng)元的處理過程,其實就是一個函數(shù)計算過程。算式中,x是輸入,y是輸出。預(yù)訓(xùn)練,就是通過x和y,求解W。W是算式中的“權(quán)重(weights)”。

權(quán)重決定了輸入特征對模型輸出的影響程度。通過反復(fù)訓(xùn)練來獲得權(quán)重,這就是訓(xùn)練的意義。


權(quán)重是最主要的參數(shù)類別之一。除了權(quán)重之外,還有另一個重要的參數(shù)類別——偏置(biases)。


243b4b26-a8f4-11ef-8084-92fbcf53809c.png

參數(shù)有很多種類


權(quán)重決定了輸入信號對神經(jīng)元的影響程度,而偏置則可以理解為神經(jīng)元的“容忍度”,即神經(jīng)元對輸入信號的敏感程度。


簡單來說,預(yù)訓(xùn)練的過程,就是通過對數(shù)據(jù)的輸入和輸出,去反復(fù)“推算”最合理的權(quán)重和偏置(也就是參數(shù))。訓(xùn)練完成后,這些參數(shù)會被保存,以便模型的后續(xù)使用或部署。


參數(shù)越多,模型通常能夠?qū)W習(xí)到更復(fù)雜的模式和特征,從而在各種任務(wù)上表現(xiàn)出更強(qiáng)的性能。


我們通常會說大模型具有兩個特征能力——涌現(xiàn)能力泛化能力


當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大,直到達(dá)到一定的臨界規(guī)模后,會表現(xiàn)出一些未能預(yù)測的、更復(fù)雜的能力和特性。模型能夠從原始訓(xùn)練數(shù)據(jù)中,自動學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式。這種能力,被稱為“涌現(xiàn)能力”。


“涌現(xiàn)能力”,可以理解為大模型的腦子突然“開竅”了,不再僅僅是復(fù)述知識,而是能夠理解知識,并且能夠發(fā)散思維。


泛化能力,是指大模型通過“投喂”海量數(shù)據(jù),可以學(xué)習(xí)復(fù)雜的模式和特征,可以對未見過的數(shù)據(jù)做出準(zhǔn)確的預(yù)測。


簡單來說,就像董宇輝一樣,書讀得多了,有些書雖然沒讀過,他也能瞎掰幾句。


參數(shù)規(guī)模越來越大,雖然能讓大模型變得更強(qiáng),但是也會帶來更龐大的資源消耗,甚至可能增加“過擬合”的風(fēng)險。


過擬合,是指模型對訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過于精確,以至于它開始捕捉并反映訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是數(shù)據(jù)的總體趨勢或規(guī)律。說白了,就是大模型變成了“書呆子”,只會死記硬背,不愿意融會貫通。


預(yù)訓(xùn)練所使用的數(shù)據(jù),我們也需要再說明一下。

預(yù)訓(xùn)練使用的數(shù)據(jù),是海量的未標(biāo)注數(shù)據(jù)(幾十TB)。

之所以使用未標(biāo)注數(shù)據(jù),是因為互聯(lián)網(wǎng)上存在大量的此類數(shù)據(jù),很容易獲取。而標(biāo)注數(shù)據(jù)(基本上靠人肉標(biāo)注)需要消耗大量的時間和金錢,成本太高。

預(yù)訓(xùn)練模型,可以通過無監(jiān)督學(xué)習(xí)方法(如自編碼器、生成對抗網(wǎng)絡(luò)、掩碼語言建模、對比學(xué)習(xí)等,大家可以另行了解),從未標(biāo)注數(shù)據(jù)中,學(xué)習(xí)到數(shù)據(jù)的通用特征和表示。

這些數(shù)據(jù),也不是隨便網(wǎng)上下載得來的。整個數(shù)據(jù)需要經(jīng)過收集、清洗、脫敏和分類等過程。這樣可以去除異常數(shù)據(jù)和錯誤數(shù)據(jù),還能刪除隱私數(shù)據(jù),讓數(shù)據(jù)更加標(biāo)準(zhǔn)化,有利于后面的訓(xùn)練過程。

獲取數(shù)據(jù)的方式,也是多樣化的。


如果是個人和學(xué)術(shù)研究,可以通過一些官方論壇、開源數(shù)據(jù)庫或者研究機(jī)構(gòu)獲取。如果是企業(yè),既可以自行收集和處理,也可以直接通過外部渠道(市場上有專門的數(shù)據(jù)提供商)購買。


  • 微調(diào)


預(yù)訓(xùn)練學(xué)習(xí)之后,我們就得到了一個通用大模型。這種模型一般不能直接拿來用,因為它在完成特定任務(wù)時往往表現(xiàn)不佳。


這時,我們需要對模型進(jìn)行微調(diào)。


微調(diào),是給大模型提供特定領(lǐng)域的標(biāo)注數(shù)據(jù)集,對預(yù)訓(xùn)練的模型參數(shù)進(jìn)行微小的調(diào)整,讓模型更好的完成特定任務(wù)。


243f6468-a8f4-11ef-8084-92fbcf53809c.png

行業(yè)數(shù)據(jù)類別

微調(diào)之后的大模型,可以稱之為行業(yè)大模型。例如,通過基于金融證券數(shù)據(jù)集的微調(diào),可以得到一個金融證券大模型。


如果再基于更細(xì)分的專業(yè)領(lǐng)域進(jìn)行微調(diào),就是專業(yè)大模型(也叫垂直大模型)。


我們可以把通用大模型理解為中小學(xué)生,行業(yè)大模型是大學(xué)本科生,專業(yè)大模型是研究生。


244b08e0-a8f4-11ef-8084-92fbcf53809c.png

微調(diào)階段,由于數(shù)據(jù)量遠(yuǎn)小于預(yù)訓(xùn)練階段,所以對算力需求小很多。


大家注意,對于大部分大模型廠商來說,他們一般只做預(yù)訓(xùn)練,不做微調(diào)。而對于行業(yè)客戶來說,他們一般只做微調(diào),不做預(yù)訓(xùn)練。


“預(yù)訓(xùn)練+微調(diào)”這種分階段的大模型訓(xùn)練方式,可以避免重復(fù)的投入,節(jié)省大量的計算資源,顯著提升大模型的訓(xùn)練效率和效果。


預(yù)訓(xùn)練和微調(diào)都完成之后,需要對這個大模型進(jìn)行評估。通過采用實際數(shù)據(jù)或模擬場景對大模型進(jìn)行評估驗證,確認(rèn)大模型的性能、穩(wěn)定性和準(zhǔn)確性?等是否符合設(shè)計要求。

等評估和驗證也完成,大模型基本上算是打造成功了。接下來,我們可以部署這個大模型,將它用于推理任務(wù)。


換句話說,這時候的大模型已經(jīng)“定型”,參數(shù)不再變化,可以真正開始干活了。


大模型的推理過程,就是我們使用它的過程。通過提問、提供提示詞(Prompt),可以讓大模型回答我們的問題,或者按要求進(jìn)行內(nèi)容生成。


最后,畫一張完整的流程圖:


244f312c-a8f4-11ef-8084-92fbcf53809c.png


大模型究竟有什么作用?

根據(jù)訓(xùn)練的數(shù)據(jù)類型和應(yīng)用方向,我們通常會將大模型分為語言大模型(以文本數(shù)據(jù)進(jìn)行訓(xùn)練)、音頻大模型(以音頻數(shù)據(jù)進(jìn)行訓(xùn)練)、視覺大模型(以圖像數(shù)據(jù)進(jìn)行訓(xùn)練),以及多模態(tài)大模型(文本和圖像都有)。

語言大模型,擅長自然語言處理(NLP)領(lǐng)域,能夠理解、生成和處理人類語言,常用于文本內(nèi)容創(chuàng)作(生成文章、詩歌、代碼)、文獻(xiàn)分析、摘要匯總、機(jī)器翻譯等場景。大家熟悉的ChatGPT,就屬于此類模型。

音頻大模型,可以識別和生產(chǎn)語音內(nèi)容,常用于語音助手、語音客服、智能家居語音控制等場景。

視覺大模型,擅長計算機(jī)視覺(CV)領(lǐng)域,可以識別、生成甚至修復(fù)圖像,常用于安防監(jiān)控、自動駕駛、醫(yī)學(xué)以及天文圖像分析等場景。

多模態(tài)大模型,結(jié)合了NLP和CV的能力,通過整合并處理來自不同模態(tài)的信息(文本、圖像、音頻和視頻等),可以處理跨領(lǐng)域的任務(wù),例如文生圖,文生視頻、跨媒體搜索(通過上傳圖,搜索和圖有關(guān)的文字描述)等。

今年以來,多模態(tài)大模型的崛起勢頭非常明顯,已經(jīng)成為行業(yè)關(guān)注的焦點。


如果按照應(yīng)用場景進(jìn)行分類,那么類別就更多了,例如金融大模型、醫(yī)療大模型、法律大模型、教育大模型、代碼大模型、能源大模型、政務(wù)大模型、通信大模型,等等。

例如金融大模型,可以用于風(fēng)險管理、信用評估、交易監(jiān)控、市場預(yù)測、合同審查、客戶服務(wù)等。功能和作用很多很多,不再贅述。



大模型的發(fā)展趨勢?

截至2024年3月25日,中國10億參數(shù)規(guī)模以上的大模型數(shù)量已經(jīng)超過100個,號稱“百模大戰(zhàn)”。


這些大模型的應(yīng)用領(lǐng)域、參數(shù)規(guī)模各有不同,但是,背后都是白花花的銀子。


根據(jù)行業(yè)估測的數(shù)據(jù),訓(xùn)練一個大模型,成本可能在幾百萬美元到上億美元之間。例如,GPT-3訓(xùn)練一次的成本,約為140萬美元。Claude 3模型的訓(xùn)練費(fèi)用,高達(dá)約1億美元。


如此多的企業(yè)推出大模型,實際上也是一種資源的浪費(fèi)。


而且,大模型也分為開源大模型和閉源大模型。行業(yè)里有能力做閉源大模型的企業(yè),并不是很多。大部分的大模型,都是基于開源大模型框架和技術(shù)打造的,實際上是為了迎合資本市場的需求,或者為了蹭熱度。
行業(yè)里,目前仍有部分頭部企業(yè)在死磕參數(shù)規(guī)模更大的超大模型(擁有數(shù)萬億到數(shù)千萬億個參數(shù)),例如OpenAI、xAI等。馬斯克之前就在X平臺宣布,xAI團(tuán)隊已經(jīng)成功啟動了世界上最強(qiáng)大的AI訓(xùn)練集群。該集群由10萬塊H100組成,主要用于Grok 2和Grok3的訓(xùn)練和開發(fā)。
對于大部分企業(yè)來說,萬卡和萬億參數(shù)其實已經(jīng)是個天花板了,再往上走的意愿不強(qiáng)烈,錢包也不允許。
隨著行業(yè)逐漸趨于理性,現(xiàn)在大家的關(guān)注焦點,逐漸從“打造大模型”,變成“使用大模型”。如何將大模型投入具體應(yīng)用,如何吸引更多用戶,如何通過大模型創(chuàng)造收入,成為各大廠商的頭等任務(wù)。

大模型落地,就涉及到能力“入”端(下沉到終端)。所以,AI手機(jī)、AI PC、具身智能的概念越來越火,成為新的發(fā)展熱點。
以AI手機(jī)為例,像高通聯(lián)發(fā)科等芯片廠商,都推出了具有更強(qiáng)AI算力的手機(jī)芯片。而OPPO、vivo等手機(jī)廠商,也在手機(jī)里內(nèi)置了大模型,并推出了很多原生AI應(yīng)用。
第三方AI應(yīng)用的數(shù)量,就更不用說了。截止目前,根據(jù)行業(yè)數(shù)據(jù)顯示,具有AI功能的APP數(shù)量已達(dá)到300多萬款。2024年6月,AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬,同比增長653%。


大模型入端,也帶來了輕量化的趨勢。為了在資源受限的設(shè)備上運(yùn)行,大模型將通過剪枝、量化、蒸餾等技術(shù)進(jìn)行輕量化,保持性能的同時減少計算資源需求。


大模型會帶來哪些挑戰(zhàn)?

大模型是一個好東西,能夠幫我們做很多事情,節(jié)約時間,提升效率。但是,大模型也是一把雙刃劍,會帶來一些新的挑戰(zhàn)。

首先,是影響失業(yè)率。大模型所掀起的AI人工智能浪潮,肯定會導(dǎo)致一些人類工作崗位被替代,進(jìn)而導(dǎo)致失業(yè)率上升。

其次,是版權(quán)問題。大模型基于已有數(shù)據(jù)進(jìn)行學(xué)習(xí)。大模型生成的內(nèi)容,尤其是用于文本、圖像、音樂和視頻創(chuàng)作,可能引發(fā)版權(quán)和知識產(chǎn)權(quán)問題。它雖然幫助了創(chuàng)作,但也“引用”了人類創(chuàng)作者的作品,界限難以區(qū)分。長此以往,可能打擊人類的原生創(chuàng)作熱情。


第三,大模型可能引發(fā)算法偏見和不公平。也就是說,訓(xùn)練數(shù)據(jù)中存在的偏差,會導(dǎo)致大模型學(xué)習(xí)到這些偏差,從而在預(yù)測和生成內(nèi)容時表現(xiàn)出不公平的行為。模型可能無意中強(qiáng)化社會上的刻板印象和偏見,例如性別、種族和宗教等方面的偏見。大模型生成的內(nèi)容也可能被用于政治宣傳和操縱,影響選舉和公共輿論。


第四,被用于犯罪。大模型可以生成逼真的文本、圖像、語音和視頻,這些內(nèi)容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。


第五,能耗問題。大模型的訓(xùn)練和推理需要大量的計算資源,這不僅增加了成本,還帶來了巨大的碳排放。很多企業(yè)為了服務(wù)于資本市場或跟風(fēng),盲目進(jìn)行大模型訓(xùn)練,消耗了大量的資源,也導(dǎo)致了無意義的碳排放。


總而言之,大模型在倫理、法律、社會和經(jīng)濟(jì)層面帶來的威脅和挑戰(zhàn)還是很多的,需要更多時間進(jìn)行探索和解決。
好啦,以上就是今天文章的全部內(nèi)容,希望對大家有所幫助!
文章來源于鮮棗課堂,作者小棗君

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267047
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3796

    瀏覽量

    5276
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智行者無人駕駛清潔車蝸小白入駐深圳北站

    近日,智行者旗下無人駕駛清潔車“蝸小白”進(jìn)駐深圳北站,為這一華南核心交通樞紐的站內(nèi)外環(huán)境提供智能化、高效率的清潔養(yǎng)護(hù)服務(wù)。此次成功落地,是“蝸小白”在大型高鐵站場景規(guī)模化應(yīng)用的又一例證,充分展現(xiàn)了智行者以創(chuàng)新科技推動公共服務(wù)智慧化升級的堅定實踐。
    的頭像 發(fā)表于 01-26 15:57 ?776次閱讀

    小白到大牛:Linux嵌入式系統(tǒng)開發(fā)的完整指南

    小白到大牛:Linux嵌入式系統(tǒng)開發(fā)的完整指南 一、小白入門:搭建 Linux 嵌入式開發(fā)的認(rèn)知地基? 對于零基礎(chǔ)學(xué)習(xí)者,首先要打破 “嵌入式開發(fā)高深莫測”的誤區(qū)。Linux 嵌入式開發(fā)的核心
    發(fā)表于 12-16 10:42

    智行者蝸小白亮相2025 ISSA北美清潔展

    近日,智行者蝸小白亮相2025 ISSA北美清潔展——在海外市場,它以“Viggo”之名,為全球?qū)I(yè)觀眾所熟知。
    的頭像 發(fā)表于 11-18 14:00 ?889次閱讀

    小白必看:模型靜態(tài)測試效率翻倍——MXAM詳解#simulink #Siumlink模型測試

    模型
    北匯信息POLELINK
    發(fā)布于 :2025年10月24日 18:03:11

    北京科技創(chuàng)新促進(jìn)中心文科與科普部李守勇部長一行蒞臨昱櫟技術(shù)科普基地實地踏勘

    10月14日,北京科技創(chuàng)新促進(jìn)中心文科與科普部部長李守勇一行蒞臨北京昱櫟技術(shù)有限公司(以下簡稱“昱櫟技術(shù)”),圍繞科普基地建設(shè)運(yùn)營開展實地踏勘與專題座談。昱櫟技術(shù)董事長栗旭錦全程陪同,通過“實景參觀
    的頭像 發(fā)表于 10-16 09:48 ?1018次閱讀
    北京科技創(chuàng)新促進(jìn)中心文科與<b class='flag-5'>科普</b>部李守勇部長一行蒞臨昱櫟技術(shù)<b class='flag-5'>科普</b>基地實地踏勘

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計算復(fù)雜度與序列長度(即文本長度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長的文本時(比如從幾千個詞到幾萬個詞),計算時間和所需的內(nèi)存會急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4976次閱讀
    <b class='flag-5'>小白</b>學(xué)大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    小白學(xué)大模型:國外主流大模型匯總

    )領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs和卷積神經(jīng)網(wǎng)絡(luò)CNNs)中常用的循環(huán)和卷積結(jié)構(gòu)
    的頭像 發(fā)表于 08-27 14:06 ?1188次閱讀
    <b class='flag-5'>小白</b>學(xué)大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    新思科技青少年芯片科普公開課武漢開講

    8月10日,由新思科技芯片設(shè)計行業(yè)頂尖專家團(tuán)隊與中學(xué)教師聯(lián)合開發(fā)的青少年芯片科普公開課,在武漢成功開講!
    的頭像 發(fā)表于 08-25 15:36 ?1001次閱讀

    寫給小白的“具身智能”入門科普

    最近具身智能這個概念很火。那么,究竟什么是具身智能?它包括哪些類別和關(guān)鍵技術(shù)?通過這篇文章,我們來深入了解一下。什么是具身智能“智能”,大家都懂,也就是AI。那么,什么是“具身”?“具身”是一個很小眾的名詞,通常都出現(xiàn)在哲學(xué)、認(rèn)知科學(xué)領(lǐng)域。它的英文叫Embodied,是embody的過去式和過去分詞。em-表示“進(jìn)入,使……”,-body表示“身體”。組合起
    的頭像 發(fā)表于 08-21 14:15 ?3041次閱讀
    <b class='flag-5'>寫給</b><b class='flag-5'>小白</b>的“具身智能”<b class='flag-5'>入門</b><b class='flag-5'>科普</b>

    科普|通信射頻接頭學(xué)習(xí)

    科普|通信射頻接頭學(xué)習(xí)
    的頭像 發(fā)表于 08-19 17:09 ?1062次閱讀
    <b class='flag-5'>科普</b>|通信射頻接頭學(xué)習(xí)

    智行者蝸小白重構(gòu)清潔行業(yè)效能革命

    在需要清潔的每一個角落,智行者蝸小白的身影已成為一種無聲而高效的存在。 它突破時間與空間的限制,以7×24小時全天候的精準(zhǔn)運(yùn)行,持續(xù)守護(hù)著環(huán)境的整潔——這不僅是智能科技的具象展現(xiàn),更是清潔行業(yè)邁向
    的頭像 發(fā)表于 08-11 10:02 ?1175次閱讀

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    在人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析

    的應(yīng)用,比如使用機(jī)器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應(yīng)該問什么大模型比較好,或者是看什么視頻能夠涉足這個行業(yè)
    發(fā)表于 06-24 15:10

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復(fù)用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和服務(wù)端兩部分。 FA
    發(fā)表于 06-04 07:53
    电白县| 临汾市| 昌都县| 特克斯县| 灵丘县| 新野县| 镇平县| 北票市| 天峻县| 湖南省| 红安县| 辽宁省| 苏尼特左旗| 霍州市| 江达县| 阆中市| 油尖旺区| 奇台县| 临泽县| 策勒县| 韩城市| 瑞丽市| 新津县| 北海市| 遵义市| 城口县| 将乐县| 宝清县| 堆龙德庆县| 汾阳市| 江安县| 华坪县| 敦化市| 和硕县| 中阳县| 德令哈市| 始兴县| 绥阳县| 湟中县| 姜堰市| 泗阳县|