强化学习 – 我爱自然语言处理

周四. 12 月 18th, 2025

LLm 大模型预训练模型

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

2025年06月11号 52nlp

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码…

深入评价和推荐纽交所的“金融中的机器学习与强化学习”课程

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

深入探讨：Coursera上的强化学习课程评测及推荐

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

IBM机器学习课程评测与推荐

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

探索自我学习之旅：Unsupervised Learning, Recommenders, Reinforcement Learning 课程评测

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

强烈推荐：Google Cloud上的推荐系统课程评测

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

深度评测：预测与控制的函数逼近课程推荐

2024年10月16号课程图谱

课程主页: https://www.coursera.org…

《自主人工智能的机器教学》课程评测与推荐

2024年10月15号课程图谱

课程主页: https://www.coursera.org…

课程推荐：领导团队

2024年10月15号课程图谱

课程主页: https://www.coursera.org…

深入探讨《博弈论 II：高级应用》课程的魅力

2024年10月15号课程图谱

课程主页: https://www.coursera.org…

You missed

Qwen3-VL技术报告英中对照版.pdf

2025年11月29号 52nlp

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

2025年09月30号 52nlp

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

2025年09月1号 52nlp

LLm 预训练模型

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

2025年08月11号 52nlp