LLM – 我爱自然语言处理

周六. 3 月 21st, 2026

LLm 大模型预训练模型

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

2025年06月11号 52nlp

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码…

LLm 语言模型预训练模型

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

2025年05月30号 52nlp

近日，小米开源社区发布了MiMo-VL-7B视觉语言模型技术…

LLm 大模型预训练模型

深度解析DeepSeek-V3：硬件与模型协同设计如何突破LLM规模化瓶颈

2025年05月15号 52nlp

就在今天，梁文锋署名DeepSeek新论文的刚刚放出，以下是…

小米MiMo-7B技术报告深度解读：如何打造面向推理的高效大模型？

2025年04月30号 52nlp

近日，小米LLM-Core团队发布了MiMo-7B技术报告，…

AINLP LLm 大模型

Seed-Thinking-v1.5：用强化学习推动语言模型的深度推理能力

2025年04月13号 52nlp

近日，字节跳动发布了新一代推理模型 Seed-Thinkin…

Kimi-VL：开源多模态模型的新标杆——解读高效视觉语言混合专家模型

2025年04月10号 52nlp

引言随着人工智能技术的飞速发展，多模态模型正逐渐成为人机交…

LLm 自然语言处理

DeepSeek-V3解析及技术报告英中报告对照版

2025年03月4号 52nlp

在追求AGI的道路上，模型规模与训练成本的矛盾始终存在。De…

LLm 大模型预训练模型

深度解读：DeepSeek-R1——强化学习如何重塑语言模型的推理能力？

2025年01月22号 52nlp

前两天DeepSeek发布了DeepSeek R1的报告： …

探索大型语言模型的世界——Coursera课程推荐

2024年10月15号课程图谱

课程主页: https://www.coursera.org…

You missed

Qwen3-VL技术报告英中对照版.pdf

2025年11月29号 52nlp

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

2025年09月30号 52nlp

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

2025年09月1号 52nlp

LLm 预训练模型

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

2025年08月11号 52nlp