DeepSeek-R1采用纯强化学习方法,成功实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能。