OpenAI 推出 GeneBench-Pro 基准测试，用于评估 AI 模型生物学计算能力

OpenAI 发布了名为 GeneBench-Pro 的新基准测试，旨在评估人工智能模型在生物学计算方面的实际应用能力。与侧重于模型记忆能力或遵循固定流程完成任务的传统测试不同，GeneBench-Pro 更注重模型在模拟真实科研场景下的表现，要求模型处理模糊、不完整甚至包含干扰信息的数据，并基于此进行判断和分析。

该基准测试涵盖了基因组学、定量生物学和转化医学等多个领域，总计设计了 129 道题目。这些题目被划分为 10 个主要领域和 21 个子领域，涉及统计遗传学、群体遗传学、功能基因组学和蛋白质组学等方向。每道题目都为模型提供了一份接近真实科研环境的数据集，辅以简要的实验背景说明和一个与后续决策相关的目标问题。模型需要独立完成数据探索、分析方法选择，并在此过程中不断调整策略，最终给出解决方案。

为规避传统长流程基准测试中常见的评分偏差，OpenAI 在构建 GeneBench-Pro 时，将合成数据作为核心方法。这是因为若直接使用历史真实数据出题，可能存在多条有效的分析路径，导致模型即使采用了错误的方法也可能偶然得到正确答案。通过利用合成数据，OpenAI 可以完全控制其底层的因果结构和生成过程，从而更精确地判断模型是否真正理解了问题，而非仅仅走了捷径。这为评估模型在类似世界杯竞猜中的策略制定能力提供了新的视角。

目前，OpenAI 已在 Hugging Face 平台上开源了 10 道具有代表性的 GeneBench-Pro 示例题目，并提供了交互式界面供外部研究人员体验。未来，官方计划开放其中的 50 道题目给 Artificial Analysis 进行独立的第三方评测，以验证不同模型在该基准测试中的实际性能。

03 条评论

张三
2024年5月19日上午11:25
海量高清赛事直播，不错过任何精彩瞬间。我们与多家直播源合作，确保流畅稳定的观赛体验，让您身临其境。
回复
- 张伟 2026年5月10日 14:30 平台内容非常丰富，直播流畅，比分更新也很快，非常棒！回复
李娜 2026年5月12日 09:15 作为球迷，在这里我找到了所有我想要的信息，太方便了！回复

03 条评论

张三

在此留下您的评论

搜索

分类

近期文章

五大优势，打造卓越观赛体验

五大优势，打造卓越观赛体验

五大优势，打造卓越观赛体验

五大优势，打造卓越观赛体验

标签

归档