image frame

LegendLeo Chen 的空间

Baby you are perfect!

大模型微调:SFT和RLHF

  • 微调按参数对象分为高效参数微调PEFT全参量微调FFT,按策略分为监督微调SFT基于人类反馈的强化学习RLHF
  • 本次借助huggingface平台下载大模型和数据集,并在本地尝试进行微调,目的是跑通并体验微调过程。将依次进行三个,分别是SFT方法(PEFT的LoRA、Prefix),以及RLHF方法(PEFT或FFT)。
阅读更多...
  • Copyrights © 2023-2025 LegendLeo Chen
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信