本站报道:

要点总结

  • Tether Data 的人工智能研究部门 QVAC 发布了 QVAC Genesis II,为目前最大的用于人工智能预训练的公共教育合成数据集增加了 1070 亿个代币。
  • 独立评估表明,基于 Genesis II 数据训练的模型比之前的合成数据集具有更高的推理准确性和更清晰的答案。

Tether Data 的 AI 部门 QVAC 已发布 Genesis II,该公司向其用于人工智能预训练的开源合成数据集新增了 1070 亿个代币。完整的数据集现在涵盖 19 个教育领域的 1480 亿个代币,使其成为同类数据集中规模最大的。

Genesis II 拓展至计算机科学、统计学和机器学习等新领域,同时引入了一种全新的“选项级推理”方法,该方法能够教会模型通过多项选择题进行推理。这建立在 QVAC 在 Genesis I 中提出的故障分析方法之上。

Tether 首席执行官 Paolo Ardoino 表示,该计划将人工智能从流畅性提升到结构化理解。该数据集以知识共享许可协议发布在 QVAC 的博客和 Hugging Face 网站上,支持在集中式人工智能平台之外开展开放研究和本地模型开发。