可以给一个python使用fp8的例子吗?
#2
by
tarjintor
- opened
搜了下,看了github issue,也问了各路大模型,都没有跑成功
由于框架不同config配置不同,用huggingface跑需要修改config配置,可以参考这里https://github.com/Tencent/AngelSlim/blob/release/0.1/README.md , 把config里面的KeyName ignored_layers改为ignore
由于框架不同config配置不同,用huggingface跑需要修改config配置,可以参考这里https://github.com/Tencent/AngelSlim/blob/release/0.1/README.md , 把config里面的KeyName ignored_layers改为ignore
谢谢,解决了,给后面的人一些详细解释,就是这里说的改ignored_layers字段为ignore,是把key而不是value改了,即最后是从
"ignored_layers": [
"lm_head",
"model.embed_tokens"
],
改成
"ignore": [
"lm_head",
"model.embed_tokens"
],
顺便说些使用的资源,fp8可以单24g的4090跑,用18G多显存,速度快了很多
tarjintor
changed discussion status to
closed
tarjintor
changed discussion status to
open