日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

<big id="7tvmu"></big>

<big id="7tvmu"></big>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

瑞芯微(EASY EAI)RV1126B 模型轉(zhuǎn)換API說明

1. RKLLM 初始化

在這一部分，用戶需要先初始化 RKLLM 對象，這是整個工作流的第一步。在示例代碼中使用 RKLLM()構(gòu)造函數(shù)來初始化 RKLLM 對象。

2. 模型加載

在 RKLLM 初始化完成后，用戶需要調(diào)用 rkllm.load_huggingface()函數(shù)來傳入模型的具體路徑，RKLLM-Toolkit 即可根據(jù)對應(yīng)路徑順利加載 Hugging Face 或 GGUF 格式的大語言模型，從而順利完成后續(xù)的轉(zhuǎn)換、量化操作，具體的函數(shù)定義如下：

示例代碼如下：

ret = rkllm.load_huggingface( model = './huggingface_model_dir', model_lora = './huggingface_lora_model_dir' ) if ret != 0: print('Load model failed!')

示例代碼如下：

ret = rkllm.load_gguf(model = './model-Q4_0.gguf') if ret != 0: print('Load model failed!')

3. 模型構(gòu)建

用戶在通過rkllm.load_huggingface()函數(shù)完成原始模型的加載后，下一步就是通過rkllm.build()函數(shù)實現(xiàn)對 RKLLM 模型的構(gòu)建。構(gòu)建模型時，用戶可以選擇是否進行量化，量化有助于減小模型的大小和提高在 Rockchip NPU 上的推理性能。rkllm.build()函數(shù)的具體定義如下：

示例代碼如下：

ret = rkllm.build( do_quantization=True, optimization_level=1, quantized_dtype='w8a8', quantized_algorithm="normal", num_npu_core=3, extra_qparams=None, dataset="quant_data.json", hybrid_rate=0, target_platform='rk3588') if ret != 0: print('Build model failed!')

4. 模型導(dǎo)出

用戶在通過 rkllm.build()函數(shù)構(gòu)建了 RKLLM 模型后，可以通過 rkllm.export_rkllm()函數(shù)將RKNN 模型保存為一個.rkllm 文件，以便后續(xù)模型的部署。rkllm.export_rkllm()函數(shù)的具體參數(shù)定義如下：

示例代碼如下：

ret = rkllm.export_rkllm(export_path = './model.rkllm'） if ret != 0: print('Export model failed!')

5. GPTQ 模型轉(zhuǎn)換
用戶除了使用上述工具中提供的量化算法進行模型轉(zhuǎn)換，也可以先使用 AutoGPTQ 開源量化工具將浮點模型量化為 4bit/8bit 權(quán)重（需保存為 Hugging Face 格式），再轉(zhuǎn)換為RKLLM 模型。使用 AutoGPTQ 量化浮點模型時，需確保以下參數(shù)設(shè)置：

bits=4 sym=true group_size=32/64/128 desc_act=false bits=8 sym=true group_size=128/256/512 desc_act=false

Hugging Face 格式的 GPTQ 模型轉(zhuǎn)換為 rkllm 的示例代碼如下：

modelpath = '/path/to/Model-Instruct-GPTQ-Int4' llm = RKLLM() ret = llm.load_huggingface(model=modelpath, model_lora = None, device='cuda') if ret != 0: print('Load model failed!') exit(ret) # Build model dataset = None qparams = None target_platform = "RK3576" optimization_level = 1 quantized_dtype = "w4a16_g32" #w4a16_g64 or w4a16_g128 quantized_algorithm = "normal" num_npu_core = 2 ret = llm.build(do_quantization=True, optimization_level=optimization_level, quantized_dtype=quantized_dtype, quantized_algorithm=quantized_algorithm, target_platform=target_platform, num_npu_core=num_npu_core, extra_qparams=qparams, dataset=dataset) if ret != 0: print('Build model failed!') exit(ret) # Export rkllm model ret = llm.export_rkllm(f"./{os.path.basename(modelpath)}_{quantized_dtype}_{ target_platform}.rkllm") if ret != 0: print('Export model failed!') exit(ret)

6. 自定義模型轉(zhuǎn)換

用戶如果修改了模型結(jié)構(gòu)或者名稱，且修改后的整體架構(gòu)如下，則可以使用自定義功能轉(zhuǎn)換模型。

TOKEN_EMBD ↓ embd_scale(optional) ↓ ┌─ x │ ↓ │ ATTN_NORM │ ↓ │ attn │ ↓ │ ATTN_POST_NORM(optional) │ ↓ │ hidden_state_scale(optional) │ ↓ │ cross attn(optional) │ ↓ ┌─ └? + │ │ ↓ │ FFN_NORM │ ↓ │ MLP │ ↓ │ FFN_POST_NORM(optional) │ ↓ │ hidden_state_scale(optional) │ ↓ └───? + ...↓ OUTPUT_NORM ↓ lm_head_scale(optional) ↓ OUTPUT

以 Qwen 模型為例，將 Qwen 模型文件 modeling_qwen.py 中相應(yīng)的變量名稱填入自定義配置文件中，如下所示：

{ "BLOCKNAME": "QWenBlock", "TOKEN_EMBD": "wte", "ATTN_NORM": "ln_1", "ATTN_Q_NORM": "", "ATTN_K_NORM": "", "CROSS_ATTN_NORM": "", "CROSS_ATTN_Q": "", "ATTN_Q": "", "ATTN_K": "", "ATTN_V": "", "ATTN_QKV": "attn.c_attn", "ATTN_KV": "", "KV_CONTINUOUS": "true", "ATTN_OUT": "attn.c_proj", "CROSS_ATTN_OUT": "", "ATTN_POST_NORM": "", "FFN_NORM": "ln_2", "FFN_UP": "mlp.w1", "FFN_GATE": "mlp.w2", "ACT_TYPE": "silu", "FFN_DOWN": "mlp.c_proj", "FFN_POST_NORM": "", "OUTPUT_NORM": "ln_f", "OUTPUT": "lm_head" }

其中，ACT_TYPE 可選項為["silu", "gelu", "relu", "fatrelu", "squarerelu", "swiglu"]共六種，ATTN_NORM 和 FFN_NORM 只支持 RMSNorm；
如果使用了 ATTN_QKV 或者 ATTN_KV，則必須確認權(quán)重是否可以拆分為連續(xù)的 K|V，如果連續(xù)則 KV_CONTINUOUS 設(shè)置為 true，例如 Qwen 模型的 c_attn 權(quán)重是連續(xù)存儲，它可以按Q,K,V 大小進行順序切分，而 InternLM2 模型的 wqkv 權(quán)重是不連續(xù)存儲，它的 Q,K,V 是按head_dim 交錯排布。
Qwen 1.8B 模型的 modeling_qwen.py 文件定義如下：

class QWenLMHeadModel(QWenPreTrainedModel): def __init__(self, config): super().__init__(config) self.transformer = QWenModel(config) self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False) class QWenModel(QWenPreTrainedModel): _keys_to_ignore_on_load_missing = ["attn.masked_bias"] def __init__(self, config): super().__init__(config) self.wte = nn.Embedding(self.vocab_size, self.embed_dim) self.ln_f = RMSNorm( self.embed_dim, eps=config.layer_norm_epsilon, ) class QWenBlock(nn.Module): def __init__(self, config): super().__init__() hidden_size = config.hidden_size self.bf16 = config.bf16 self.ln_1 = RMSNorm( hidden_size, eps=config.layer_norm_epsilon, ) self.attn = QWenAttention(config) self.ln_2 = RMSNorm( hidden_size, eps=config.layer_norm_epsilon, ) self.mlp = QWenMLP(config) class QWenAttention(nn.Module): def __init__(self, config): super().__init__() self.c_attn = nn.Linear(config.hidden_size, 3 * self.projection_size) self.c_proj = nn.Linear( config.hidden_size, self.projection_size, bias=not config.no_bias ) class QWenMLP(nn.Module): def __init__(self, config): super().__init__() self.w1 = nn.Linear( config.hidden_size, config.intermediate_size // 2, bias=not config.no_bias) self.w2 = nn.Linear( config.hidden_size, config.intermediate_size // 2, bias=not config.no_bias) ff_dim_in = config.intermediate_size // 2 self.c_proj = nn.Linear(ff_dim_in, config.hidden_size, bias=not config.no_bias)

自定義模型的轉(zhuǎn)換，包括支持 cross attention 的模型，我們提供了一個 huggingface 模型結(jié)構(gòu)供參考，自定義的配置文件如下：

{ "BLOCKNAME": "CustomDecoderLayer", "TOKEN_EMBD": "embed_tokens", "ATTN_NORM": "input_layernorm", "ATTN_Q_NORM": "", "ATTN_K_NORM": "", "CROSS_ATTN_NORM": "cross_layernorm", "CROSS_ATTN_Q": "cross_attn.cross_q_proj", "ATTN_Q": "", "ATTN_K": "", "ATTN_V": "", "ATTN_QKV": "self_attn.qkv_proj", "ATTN_KV": "", "KV_CONTINUOUS": "true", "ATTN_OUT": "self_attn.o_proj", "CROSS_ATTN_OUT": "cross_attn.cross_o_proj", "ATTN_POST_NORM": "", "FFN_NORM": "post_attention_layernorm", "FFN_UP": "mlp.up_proj", "FFN_GATE": "mlp.gate_proj", "ACT_TYPE": "silu", "FFN_DOWN": "mlp.down_proj", "FFN_POST_NORM": "", "OUTPUT_NORM": "norm", "OUTPUT": "lm_head"

7. 舊版本模型更新

由于 1.0.2 版本與 1.1 及之后版本差異較大，因此提供了 rkllm.update_rkllm()函數(shù)將 1.0.2 版本模型更新為最新版本，更新模型時無需執(zhí)行上述模型加載和構(gòu)建步驟，直接調(diào)用此接口進行更新，更新后模型量化類型等參數(shù)均未改變。rkllm.update_rkllm()函數(shù)的具體參數(shù)定義如下：

示例代碼如下：

ret = llm.update_rkllm(model = "./model_1.0.2version.rkllm") if ret != 0: print('Load model failed!') exit(ret)

8. 仿真精度評估

用戶在通過 rkllm.build()函數(shù)構(gòu)建了 RKLLM 模型后，可以通過 rkllm.get_logits()函數(shù)在 PC端進行仿真精度評估，rkllm.get_logits()函數(shù)的具體參數(shù)定義如下：

使用此函數(shù)進行 wikitext 數(shù)據(jù)集 ppl 測試示例代碼如下：

def eval_wikitext(llm): seqlen = 512 tokenizer = AutoTokenizer.from_pretrained( modelpath, trust_remote_code=True ) #Dataset download link: #https://huggingface.co/datasets/Salesforce/wikitext/tree/main/wikitext-2-raw-v1 testenc = load_dataset("parquet", data_files='./wikitext/wikitext-2-raw-1/test-00000-of-00001.parquet', split='train') testenc = tokenizer( "\n\n".join(testenc['text']), return_tensors="pt").input_ids nsamples = testenc.numel() // seqlen nlls = [] for i in tqdm(range(nsamples), desc="eval_wikitext: "): batch = testenc[:, (i * seqlen): ((i + 1) * seqlen)] inputs = {"input_ids": batch} lm_logits = llm.get_logits(inputs) if lm_logits is None: print("get logits failed!") return shift_logits = lm_logits[:, :-1, :] shift_labels = batch[:, 1:].to(lm_logits.device) loss_fct = nn.CrossEntropyLoss().to(lm_logits.device) loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)) neg_log_likelihood = loss.float() * seqlen nlls.append(neg_log_likelihood) ppl = torch.exp(torch.stack(nlls).sum() / (nsamples * seqlen)) print(f'wikitext-2-raw-1-test ppl: {round(ppl.item(), 2)}')

9. 仿真模型推理

用戶在通過 rkllm.build()函數(shù)構(gòu)建了 RKLLM 模型后，可以通過 rkllm.chat_model()函數(shù)在 PC端進行仿真推理，rkllm.chat_model()函數(shù)的具體參數(shù)定義如下：

示例代碼如下：

args ={ "max_length":128, "top_k":1, "temperature":0.8, "do_sample":True, "repetition_penalty":1.1 } mesg = "Human: 今天天氣怎么樣？\nAssistant:" print(llm.chat_model(mesg, args))

以上的這些操作涵蓋了 RKLLM-Toolkit 模型轉(zhuǎn)換、量化的全部步驟，根據(jù)不同的需求和應(yīng)用場景，用戶可以選擇不同的配置選項和量化方式進行自定義設(shè)置，方便后續(xù)進行部署。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50453

瀏覽量
267478
開發(fā)板

開發(fā)板

+關(guān)注

關(guān)注
26

文章
6476

瀏覽量
121275
瑞芯微

瑞芯微

+關(guān)注

關(guān)注
27

文章
888

瀏覽量
54712
EASY-EAI靈眸科技

EASY-EAI靈眸科技

+關(guān)注

關(guān)注
4

文章
126

瀏覽量
3747
RV1126B

RV1126B

+關(guān)注

關(guān)注
0

文章
116

瀏覽量
265

評論

廣州靈眸科技有限公司
企業(yè)號

163 內(nèi)容 47w+ 閱讀 254 粉絲

我要咨詢關(guān)注

Hot 瑞芯微參展深圳安博會，展出RV1126B等AI視覺方案
Hot 搶占先機！這波RV1126B芯片的紅利，手快的已經(jīng)吃上了
New 瑞芯微(EASY EAI)RV1126B RV1126B最小系統(tǒng)
New 瑞芯微(EASY EAI)RV1126B 模型部署API說明

精選推薦
更多

文章

資料

帖子

瑞芯微(EASY EAI)RV1126B RV1126B最小系統(tǒng)

ljx2016
56分鐘前

85 閱讀

工業(yè)運維救星！飛凌嵌入式 FCU1501 自帶物理復(fù)位鍵，IP 輸錯再也不用跑現(xiàn)場

飛凌嵌入式
7小時前

567 閱讀

晶華微SD82F46X芯片的WAVE_GEN波形發(fā)生器模塊的使用方法及程序配置流程

杭州晶華微
6小時前

480 閱讀

挑戰(zhàn)SpaceX！美國三大運營商建立合資公司，提供直連衛(wèi)星通信服務(wù)

章鷹觀察
8小時前

3647 閱讀

AI盡孝，收割年輕人

腦極體
18小時前

934 閱讀

常用電子設(shè)備開關(guān)電源檢修方法

427826
4895

免費

0下載

Roamit跨Windows和Android聯(lián)動傳輸工具

王飛云
2.90 MB

2積分

1下載

FakeV2EX基于Django的仿V2EX社區(qū)

Arvinhw
2.81 MB

2積分

1下載

MPMCQueue有界多生產(chǎn)者多用戶無鎖隊列

久醉不醒
0.05 MB

免費

0下載

開源分享帶LED的鑰匙扣大小游戲機

時見棲鴉
0.06 MB

免費

0下載

【飛凌嵌入式RV1126B開發(fā)板試用體驗】飛凌嵌入式RV1126B開發(fā)板遠程環(huán)境搭建

jf_67024233
18小時前

62 閱讀

【米爾TI AM62L開發(fā)板試用】MYD-YM62LX 開發(fā)板 FTDI USB 串口 (ttyUSB0) 加載指南

華仔stm32
18小時前

166 閱讀

【米爾TI AM62L開發(fā)板試用】創(chuàng)建開發(fā)環(huán)境

華仔stm32
1天前

371 閱讀

【米爾TI AM62L開發(fā)板試用】+雙通道數(shù)據(jù)采集及波形繪制

jinglixixi
1天前

364 閱讀

【瑞薩RA2L1入門學(xué)習(xí)】+ RA-Eco-RA2L1-V2.0開發(fā)板文本輸出 Hello World

jf_84491108
5天前

1475 閱讀

推薦企業(yè)號
更多

企業(yè)產(chǎn)品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設(shè)備

機器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設(shè)計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

機器人發(fā)燒友

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證：湘B2-20260003 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

渭南市| 阜新| 日喀则市| 阳朔县| 东莞市| 仁寿县| 桦南县| 榆林市| 景宁| 木兰县| 鄂尔多斯市| 横山县| 新疆| 绵竹市| 穆棱市| 大埔县| 新和县| 廉江市| 大名县| 榕江县| 仲巴县| 申扎县| 鄂托克旗| 乡城县| 清流县| 都安| 台山市| 石棉县| 周口市| 南投市| 双城市| 柳林县| 左权县| 繁昌县| 绥江县| 会同县| 洪泽县| 綦江县| 咸丰县| 太保市| 昌平区|