2025 年 6 月 – 我爱自然语言处理

周二. 3 月 24th, 2026

LLm 大模型预训练模型

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

2025年06月11号 52nlp

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码…

LLm 大模型预训练模型

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

2025年06月11号 52nlp

核心突破：极简激活的超级大脑三大技术支柱撑起SOTA表现 …

LLm 大模型预训练模型

Qwen3 Embedding 技术解析：多语言文本嵌入与重排序的新标杆

2025年06月6号 52nlp

阿里巴巴通义实验室发布的 Qwen3 Embedding 系…

You missed

Qwen3-VL技术报告英中对照版.pdf

2025年11月29号 52nlp

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

2025年09月30号 52nlp

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

2025年09月1号 52nlp

LLm 预训练模型

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

2025年08月11号 52nlp