# 如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL

    前言 这是一篇来自刁诗哲(research scientist @ NVIDIA Research)的文案。 首发:https://mp.weixin.qq.com/s/o0a-swHZOplknnNxpqlsaA 正文 论文:ProRL: Prolonged Reinforcement L…

    # 香港大学博士生吴成岳:无需重新训练模型,直接提升扩散语言模型的推理效率的Fast-dLLM

    前言 这是一篇来自香港大学博士生吴成岳发在朋友圈的文案。 首发:https://mp.weixin.qq.com/s/o0a-swHZOplknnNxpqlsaA 正文 最近的Gemini Diffusion语言模型展现了惊人的throughput和效果,但是开源的扩散语言模型由于缺少kv …

    # 上海人工智能实验室青年科学家崔淦渠:在大模型推理强化学习中熵机制上的探索

    这是一篇来自上海人工智能实验室青年科学家崔淦渠发在朋友圈的文案。 在经过作者本人同意的情况下,将内容整理后,发布在青稞社区的渠道上,帮助宣传!以下为编辑后的内容: 在RL训练LLM的过程中,普遍存在模型entropy迅速下降/性能迅速饱和的现象。这导致模型过度自信,进而削弱其探索能力,最终限制了…

    # zola中增加上一页、下一页的功能

    html模版 {# 修改后的导航部分 #} {% set section_path = page.ancestors | last %} {% set section = get_section(path=section_path) %} {# 获取当前页面索引 #} {% set_global …

    # 微信公众号常读用户增长到19%

    青稞AI 公众号一直是以纯粹的技术分享为主,当然中间也会掺杂广告(青稞Talk的宣传),所以本身对公众号的体量没有太高的要求。 但是今天突然看到了长读用户的数据,突然觉得一切都是有价值的! 一直不太喜欢“流量运行”的逻辑,把所有来关注你的人当作一个数字,忽略了作为人的个性化。 继续加油吧,看看纯粹…

    # VSCode中使用DeepSeek R1

    DeepSeek R1最近很火,可以试试用来编程(前提是有VSCode) DeepSeek R1本地部署 可以通过ollama实现(ollama官网下载安装即可) 使用终端pull & 运行 r1。官网有不同参数版本的r1模型,量力选择! ollama run deepseek-r1:…

    # zola + github page,用 workflows 部署

    之前的Zola都是本地build之后,再push到github上,这种方式很明显的弊端就是只能在本地编辑,而不能通过github编辑,再pull到本地,缺乏了灵活性。因此将zola用workflows来部署。 主要就是增加workflows文件 完整的 .github/workflows/mai…

    # OpenWebui只支持Python 3.11版本

    pip安装open webui报错 报错信息 Defaulting to user installation because normal site-packages is not writeable Looking in indexes: https://mirrors.aliyun.com/…

    # 记录一下这“变换莫测”的2024

    变化太多,事情太多~ 4月份离职,离开了干了快五年的公司,这也是毕业后的第一份工作。同时开始重点运营🔥“青稞社区”。 4月底和女朋友,以及朋友们一起去青海旅游,翻过了凤凰传奇口中的祁连山⛰️,也是体验到了在夏天玩雪❄️的反差。 五一期间,父母自驾12个小时(顺便带父母去了天安门)去了女朋友家。我和…

    # 在zola博客里面增加搜索功能

    在zola主题博客中,引入搜索功能 html添加搜索按钮,并引入css,js文件 {% if config.build_search_index -%} <li> <span id="search-ico" class="ms-Icon…

    # 离职半年,体验到了生命的自由

    难以想象,已经离职6个月,在这期间也没有任何的收入~ 3月底离职,到现在9月底,中间已经过去了半年之久~ 在此期间: 和朋友们听着许嵩的蓝莲花,去青海旅游,翻过了祁连雪山,在北京最热的时候看到了大雪埋山,来了一场说走就走的旅行~ 和女朋友安排双方父母见面游玩,去了天安门,去了秦皇岛,也去…

    # Quivr + Ollama 本地部署知识库

    部署环境:Windows 安装 supabase向量数据库 安装Windows下的包管理器scoop set-executionpolicy remotesigned -scope currentuse iex (new-object net.webclient).downloadstring(…

    # 调用本地ollama api服务

    用程序调用api搭建自己的ollama ollama api /api/tags:罗列本地模型 /api/show:显示模型信息 /api/copy /api/delete /api/pull /api/push api/generate:生成 参数 model:(必填)模型名称…

    # 关于大模型的使用成本计算

    虽然日常用不了,但是可以简单了解下 预训练成本 $预训练成本 = ( 模型参数量 ✖️ 6 /A100 卡每秒的计算次数) ✖️ 显卡的租用成本 ✖️ 训练数据的 token 量$ 常量 A100 卡每秒的计算次数 = 312 TFLOPS/Watt (官方公布,每秒可以进行 312T 次浮点…

    # Prompt学习

    学习资料:提示工程指南 1、模型设置 Temperature:值越小,结果越准确;反之,更具有想象力。 Top_p:和Temperature一样的效果。 Max Length:大模型生成的Token数。(Token太长,容易冗余且成本高) Stop Sequences:阻止模型生成 token…