image frame

LegendLeo Chen 的空间

Baby you are perfect!

大模型微调:SFT和RLHF

  • 微调按参数对象分为高效参数微调PEFT全参量微调FFT,按策略分为监督微调SFT基于人类反馈的强化学习RLHF
  • 本次借助huggingface平台下载大模型和数据集,并在本地尝试进行微调,目的是跑通并体验微调过程。将依次进行三个,分别是SFT方法(PEFT的LoRA、Prefix),以及RLHF方法(PEFT或FFT)。
阅读更多...

基于DQN的机器人自动走迷宫(2)

github仓库
需要先阅读本文所基于的上一个工作:基于DQN的机器人自动走迷宫

  • 上次使用已有的库完成走迷宫任务的方案,需要通过获取全图视野来生成完美轨迹样本来进行训练,但是效果也是立竿见影。
  • 但是很多时候没有办法把获取这样的完美样本,需要智能体从起点开始完全自主摸索获取轨迹样本,然后训练,所以本文尝试不使用全图视野获取来训练。
阅读更多...
  • Copyrights © 2023-2025 LegendLeo Chen
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信