Nature:OpenAI的Deep Research对科学家有多大用处?

钛度号
AI可以写出整篇综述论文吗?

文 | 学术头条

继谷歌去年 12 月发布 Gemini Deep Research 之后,ChatGPT 母公司 OpenAI 于日前推出了一款类似产品——“Deep Research”,该产品能够综合数百个网站的信息进而生成长达数页的引文报告,充当个人智能助手,在短短几十分钟内完成相当于数小时的工作。

许多试用过它的科学家都对它撰写文献综述或综述论文全文,甚至找出知识空白的能力印象深刻。不过,也有一些人的反馈并不那么积极。在一段在线视频评论中,来自莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 就评价道:“如果是人类写的,我会觉得,这还需要大量的改进”。

OpenAI 和谷歌将此类产品的推出视为迈向能够处理复杂任务的 AI 智能体的一步。观察人士也指出,Deep Research 之所以引人注目,是因为它将 o3 大语言模型(LLM)的改进推理能力与互联网搜索能力结合在了一起相比之下,谷歌的 Gemini Deep Research 目前基于 Gemini 1.5 Pro,而非其领先的推理模型 2.0 Flash Thinking。

综述撰写

对于 OpenAI 和谷歌的这两款产品,许多用户都表示印象深刻。来自初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 认为,谷歌的产品“真正发挥了谷歌在搜索和计算方面的优势”,能让用户快速了解某个主题,而 o3 的推理技能则为 OpenAI 的产品所撰写的报告增添了精确性和复杂性,拓展了深度

来自杰克逊实验室的免疫学家 Derya Unutmaz 表示,他曾通过 OpenAI 提供的 ChatGPT Pro 免费访问权限进行医学研究。他认为 OpenAI 的 Deep Research 所撰写的报告“非常令人印象深刻”并且“值得信赖”,“与已发表的综述论文不相上下,甚至更好”。他评价道:“我认为(人工)撰写综述正在变得过时”。

White 预计,此类 AI 产品未来可以用于更新人类撰写的综述。毕竟,“每 6 个月都由人工更新一次权威综述不太可行”。

诚然,有不少人警示到,所有基于 LLM 的产品仍然存在不准确或有误导性的问题。OpenAI 也在其官网指出,其产品“仍处于早期阶段,存在局限性”——它可能会弄错引文、混淆事实、无法区分权威信息和谣言,也无法准确表达其不确定性。OpenAI 预计,这些问题会随着使用量增加和时间推移而改善。谷歌为 Gemini Deep Research 出具的免责声明中也写道:“Gemini 可能会出错,请务必仔细检查”。

马克斯·普朗克光科学研究所人工科学家实验室负责人 Mario Krenn 指出,这些 AI 产品并不是在进行科学家通常意义上的“研究”。他表示,科学家们会花费数年时间深入研究单一主题,并逐步发展新的思想。“这种能力目前尚未在 AI 上得到验证”。Krenn 补充道:“也许很快就会实现,谁也无法预料这些天会发生什么”。

测试结果

OpenAI 对其产品进行了一系列测试。例如,在人类的最后考试(Humanity's Last Exam,HLE)中, Deep Research 表现出色。HLE 是一项 3000 道题的基准测试,涵盖了从语言学到科学等各个学科的专家级知识,其设计难度远高于现在人工智能所能胜任的其他常见测试(如 GPQA)。该测试涵盖了从语言学到科学等各个领域的专家级知识。在测试中,Deep Research 在 HLE 的纯文本问题上以 26.6% 的成绩名列第一

OpenAI 还针对 GAIA 基准进行了测试。GAIA 基准于 2023 年开发,用于测试能够进行多步推理和网页浏览来回答问题的人工智能。在公开的 GAIA 排行榜上,跨国公司 H2O.ai 的智能体位居榜首,该智能体由 Anthropic 的 Claude 3.5 Sonnet 提供支持,并在最高难度级别上得分 40.82%。而 OpenAI 的 Deep Research 得分为 58.03%。

相较于 OpenAI 的测试结果,谷歌则表示,该公司目前没有可分享的基准测试结果。然而,White 指出,OpenAI 选择的基准测试仅针对答案简短、可验证的问题,可能并不适用于测试生成长篇且没有固定回答的问题。“我认为这些基准测试最终会被功能性基准取代,”他说,例如通过人工评估文章的质量和实用性。White 之前曾参与一项研究,其中人类专家对 AI 生成和人类撰写的维基百科风格科学主题摘要进行了盲评,结果 AI 获胜。

这两款产品都有一些局限性。它们都无法提取付费信息其中包括许多科学论文。这“是一个非常、非常重大的问题,”支持开放科学的 Unutmaz 表示,“获取这些知识比以往任何时候都更加重要”。一些科学家在线论坛上提出,他们应该能够将自己的期刊密码输入 AI 工具,并推测可以利用 OpenAI 的新“operator”智能体来实现这一点。对此,OpenAI CEO Sam Altman 也在推特上回应道:“我们确实需要找到一个解决方案“。

本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2025-03-12 21:40

亚马逊、谷歌和Meta承诺支持“2050核电翻三倍”,呼吁核能扩张

2025-03-12 21:38

国家知识产权局:加快将专利成果应用到具体产业和产业链上,做大做强专利密集型产业

2025-03-12 21:37

中央网信办:深化网络综合治理,筑牢网络安全防线

2025-03-12 21:36

布伦特原油日内涨幅达1%

2025-03-12 21:34

美股高开高走,纳指涨幅扩大至超2%

2025-03-12 21:34

加拿大准备对价值300亿加元的美国商品征收报复性关税

2025-03-12 21:32

美股开盘:三大指数集体高开,纳指涨1.58%,特斯拉涨超7%

2025-03-12 21:27

恒工精密:公司在机器人减速机及人形机器人相关领域的主要产品收入占比较低

2025-03-12 21:25

平安健康扭亏为盈,2024年实现净利润1.58亿元

2025-03-12 21:25

天津大学研发出新型水凝胶为类风湿性关节炎治疗提供新方法

2025-03-12 21:20

美国商务部长:寻求在周四与加拿大官员的谈判中使贸易战局势降温

2025-03-12 21:19

紫天科技:存在无法在规定期限内完成整改的实质性风险

2025-03-12 21:18

7连板信隆健康:公司及实控人均不存在涉及各类机器人及小米机器人业务

2025-03-12 21:18

美国参议员宣布将重新提出《比特币战略储备法案》

2025-03-12 21:08

腾景科技:拟购买迅特通信100%股份,股票明日复牌

2025-03-12 21:07

欧佩克月报:二手资料显示,沙特2月原油产量增加1.8万桶/日

2025-03-12 21:03

波罗的海干散货运价指数涨8.57%

2025-03-12 21:03

欧佩克月报:2月份欧佩克+原油产量平均为4101万桶/日

2025-03-12 21:01

欧佩克月报:预计2025年全球原油需求增速预期为145万桶/日

2025-03-12 21:01

国内期货夜盘开盘多数上涨,沪银、沪铜涨超1%

扫描下载App