muzhi.al

现代人的生活呈现游离与漂浮的样态（慎用全称判断）。在造物的海洋里只有孤魂和野鬼。极致的社会分工和规训，及有浪漫化之嫌的进步主义和工具理性，让我们的器官得以前所未有地延伸。义体与真身的界限不再明晰，我们该如何笃信存在呢。《黑客帝国》中赛弗（Cypher...

2025-09-01 13:58:09

RLHF 算法流程回顾在介绍 verl 设计和理解源码前，先回顾一下 RLHF 算法。抑或直接跳至源码阅读部分。 PPO 算法PPO 使用梯度上升优化的目标函数为：上式中：，是 policy model 即对应 actor model；：...

2025-06-23 21:46:54

概述verl 强化学习框架依赖于分布式计算框架 Ray。Ray 相关的基础知识是理解 verl 代码的基础。本文是关于 Ray Actors 的一些基础操作说明。覆盖的内容：定义一个 Actors，其初始化一个 torch model； Act...

2025-06-17 00:48:27

无意义与反指向性，创造性(being) 我们知道，爱就是去不断地重新创造。——兰波《地狱一季》 What I can not create, I do not understand. 书写和记录是一种重新创造，也只有如此才算完成理解之旅的最后拼...

2025-05-28 18:18:03

说明：基于 vLLM v0.7.3，commit id: ed6e907 (tag: v0.7.3) vLLM 调度逻辑介绍具体的调度逻辑前，需要梳理一下 block manager 的实现。调度逻辑中，block manager 会作为具体的判...

2025-05-15 15:50:29

GRPO原理对每个问题 prompt ，GRPO 采样一组的回答输出。关于使用如下的无偏估计方式，并且保证了 > 0。优势函数的定义： code 根据 open-r1 代码库的 GRPO 实现进行说明。下面以如下超参数作为...

2025-05-10 17:25:58

说明：基于 vLLM v0.7.3，commit id: ed6e907 (tag: v0.7.3) PagedAttention 提出：解决 KV Cache 不连续导致的利用率不高问题。 KV Cache 利用率不高的问题：（可参考 pag...

2025-05-03 11:04:09

策略梯度算法定义与符号说明一条轨迹：。策略网络参数为，则某条轨迹的概率：。其中，代表环境，不被控制。奖励函数根据在某一个状态采取的某一个动作决定这个动作可以得到的分数。。对于策略网络，计算的期望：从分布采样一个轨迹，计...

2025-04-13 14:32:43

定义及符号马尔可夫性质（Markov property）：一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。马尔可夫性质也可以描述为给定当前状态时，将来的状态与过去状态是条件独立的。以离散过程为例，随机变量 ...

2025-04-09 12:36:08

五月看到「早见 Hayami」的一篇文章《请给我五月》，感慨良多。知道标题“请给我五月”是寺山修司的一句话。在关注的人里看到共同喜欢的导演、作家、音乐家，会心一笑。索性借用这个标题记录五月下旬到六月的散碎日常。明天音乐节5-24 到 5-26 如愿...

2024-06-19 23:40:11