LLm 大模型 预训练模型 Mistral Magistral:纯强化学习炼就的推理引擎,颠覆LLM训练范式 2025年06月11号 52nlp 无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码…
LLm 大模型 预训练模型 深度解析DeepSeek-V3:硬件与模型协同设计如何突破LLM规模化瓶颈 2025年05月15号 52nlp 就在今天,梁文锋署名DeepSeek新论文的刚刚放出,以下是…
AINLP LLm 大模型 Seed-Thinking-v1.5:用强化学习推动语言模型的深度推理能力 2025年04月13号 52nlp 近日,字节跳动发布了新一代推理模型 Seed-Thinkin…