基于MLIR的FP8量化模擬與推理內(nèi)存優(yōu)化
計算機(jī)科學(xué)
頁數(shù): 9 2024-02-20
摘要: 隨著目標(biāo)檢測模型和語言大模型的迅速發(fā)展,網(wǎng)絡(luò)模型正變得越來越龐大。為了更好地在端側(cè)硬件上進(jìn)行模型部署,通常采用模型量化技術(shù)對模型進(jìn)行壓縮?,F(xiàn)有的模型量化策略主要基于FP16,BF16和INT8等類型實現(xiàn)。其中,8bit數(shù)據(jù)類型在降低推理內(nèi)存占用與部署開銷方面最為顯著,但I(xiàn)NT8類型依賴特定的校準(zhǔn)算法,未能很好地處理動態(tài)范圍大、離群點多的模型。FP8類型能夠更好地擬合神經(jīng)網(wǎng)絡(luò)中的... (共9頁)