• 语言的界与边

    无意义与反指向性,创造性(being) 我们知道,爱就是去不断地重新创造。——兰波《地狱一季》 What I can not create, I do not understand. 书写和记录是一种重新创造,也只有如此才算完成理解之旅的最后拼...
  • vLLM 源码阅读 - Block Manager 与核心调度逻辑 (part2)

    说明:基于 vLLM v0.7.3,commit id: ed6e9075d31e32c8548b480a47d1ffb77da1f54c (HEAD, tag: v0.7.3) vLLM 调度逻辑介绍具体的调度逻辑前,需要梳理一下 block ...
  • Basics of Reinforcement Learning - GRPO 及代码实现理解 (part 3)

    GRPO原理对每个问题 prompt ,GRPO 采样一组 的回答输出 。 关于 使用如下的无偏估计方式,并且保证了 > 0。 优势函数的定义: code 根据 open-r1 代码库的 GRPO 实现进行说明。 下面以如下超参数作为...
  • vLLM 源码阅读 - 整体执行流程概览 (part1)

    说明:基于 vLLM v0.7.3,commit id: ed6e9075d31e32c8548b480a47d1ffb77da1f54c (HEAD, tag: v0.7.3) PagedAttention 提出:解决 KV Cache 不连续...
  • Basics of Reinforcement Learning (part 2)

    策略梯度算法定义与符号说明 一条轨迹:。 策略网络参数为 ,则某条轨迹 的概率:。其中, 代表环境,不被控制。 奖励函数根据在某一个状态采取的某一个动作决定这个动作可以得到的分数。。 对于策略网络 ,计算 的期望: 从分布 采样一个轨迹 ,计...
  • Basics of Reinforcement Learning (part 1)

    定义及符号 马尔可夫性质(Markov property):一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。马尔可夫性质也可以描述为给定当前状态时,将来的状态与过去状态是条件独立的。以离散过程为例,随机变量 ...
  • 请给我五月

    五月看到「早见 Hayami」的一篇文章《请给我五月》,感慨良多。知道标题“请给我五月”是寺山修司的一句话。在关注的人里看到共同喜欢的导演、作家、音乐家,会心一笑。索性借用这个标题记录五月下旬到六月的散碎日常。 明天音乐节5-24 到 5-26 如愿...
  • 未完成的完成

    昨天偶然打开秀动 APP,看到票夹中竟有一场未看的演出。显示购票时间为 2022-8-10,演出信息为“【演出延期 开演时间待定】花西乐队…”。开始听这支乐队时,乐队还叫 pentatonic。那时耳机里面弥漫着后摇,任由情绪如麦浪般铺陈,直至整个人...
  • 时间/空间复杂度分析

    引入所谓时间复杂度粗略讲即是程序运行时间,然而运行时间受很多因素影响 (平台,硬件,操作系统等)。所以为了在数学上能统一定量分析,需要一些假定: 加(减),乘(除)等数值运算,比较等逻辑运算,赋值等表达式,return 语句的时间复杂度都为常数时间 ...
  • 言叶之庭影评

    一篇旧文,恍惚记得蜷缩在大学宿舍椅子上,看完后草就的。如今看来,文字做作、矫饰,不忍直视。依然保留着,是因为当时的心境却依稀如昨。 很典型的新海诚风格,细腻绵密,朦胧幽远的感情描写。所有的情愫好似蒙着薄纱,无论喜悦祥和,还是忧愁苦闷,都显得...