实测 Elicit 做文献调研：AI 到底是在帮我们提效，还是在制造幻觉？

在铺天盖地的 AI 科研神器宣传中，我们经常听到这样的神话：一键生成文献综述、五分钟读完百篇论文。作为一个在工业界做过研发、在学术界写过论文的务实研究员，我必须在文章开头抛出一个反常识的观点：AI 文献工具不仅不能帮你省去阅读文献的时间，反而可能因为它的幻觉，让你花更多时间去核对和纠错。如果抱着找代笔的心态去用 AI，你大概率会被它带进坑里。

既然如此，为什么我们还要讨论 Elicit 这样的工具？因为它的核心价值不在于代替你阅读，而在于提升你的认知带宽，帮你把文献筛选的漏斗口径开得更大、收得更准。本文将以完全真实的科研场景，深度评测 Elicit 那些备受赞誉的功能，看看它到底是真好用，还是智商税。

问：既然有了谷歌学术，我们为什么还需要 Elicit？

传统的文献检索是一场关键词的捉迷藏。如果你想研究大语言模型幻觉的缓解方法，你需要在谷歌学术里尝试各种关键词组合，比如 hallucination mitigation、factuality improvement、self-correction 等。很多时候，因为作者用了不同的学术词汇，你就会漏掉关键论文。

Elicit 解决的核心痛点是语义搜索与信息结构化。它允许你直接输入一个研究问题，比如：如何通过自一致性方法减少大语言模型的推理幻觉？它不仅能检索出语义相关的论文，还能直接把这些论文的核心要素，比如研究对象、实验方法、主要结论，以表格的形式平铺在你的面前。这就好比你雇佣了一个不知疲倦的实习生，他帮你把五十篇论文中最核心的那几句话摘抄出来，做成了一张对比表。你不需要点开每篇 PDF 去寻找答案，一眼扫过去就能判断哪几篇值得精读。

问：它的核心功能在实际科研中表现如何？

为了测试 Elicit 的真实实力，我使用了一个具体的科研场景：调研自一致性（Self-Consistency）在推理任务中的应用。在实测中，我重点体验了以下几个核心功能。

论文一览表的自定义列提取

这是 Elicit 最强大的功能。在搜索结果中，我可以任意添加自定义列，比如实验使用的基座模型、对比的 Baseline、以及研究的局限性。例如，针对论文 Self-Consistency Improves Chain of Thought Reasoning in Language Models，Elicit 准确地提取出了其核心方法是采用多数投票机制来替代传统的贪婪解码，并指出了该方法在数学推理任务上的显著提升。这种结构化的呈现方式，让多篇论文的横向对比变得极其高效。

论文一句话总结

Elicit 会为每篇论文生成一个单句总结。这个总结通常比摘要更精炼，因为它试图直接回答你的研究问题。实测发现，当检索经典的、引用量高的论文时，这个总结的准确度极高。但如果面对的是最近两周刚在 arXiv 上线的冷门论文，总结的质量就会有所下降，偶尔会出现套话和废话。

文献合成与多维度分析

当你选中多篇论文后，Elicit 可以为你生成一个综合性的 synthesize 报告。它会告诉你目前学界在这个问题上的主要共识是什么，存在哪些分歧。对于需要快速撰写论文 Related Work 部分的学者来说，这个功能可以提供很好的逻辑框架。当然，在繁忙的学术周期中，投稿时间管理是科研基本功，建议收藏会议截稿倒计时页面做长期规划，利用 Elicit 快速在 CVPR、NeurIPS 或 ACL 等会议截稿前梳理完相关工作，避免临近截稿时的手忙脚乱。

问：相比 Consensus 和 Connected Papers，Elicit 赢在哪里，输在哪里？

在 AI 科研工具的生态中，我们不能孤立地看一个工具。这里我们将 Elicit 与另外两款主流工具进行横向对比。

与 Consensus 的对比

Consensus 同样主打基于语义的科学文献问答。两者的区别在于，Consensus 更像是一个快速求证的机器人，它会给你一个非常明确的是非结论或共识百分比，非常适合临床医学、心理学等有明确实验结论的领域。而 Elicit 更像是一个深度的研究助手，它不急于给你一个简单的对错答案，而是把数据、方法、样本量等细节全部拆解出来供你分析。如果你需要写系统性综述，Elicit 的表格自定义功能完胜 Consensus。

与 Connected Papers 的对比

Connected Papers 的核心逻辑是引文网络可视化。它通过一篇种子论文，帮你绘制出一张学术关系网，让你看清谁引用了谁，谁是这个领域的开山之作。Connected Papers 擅长的是纵向的脉络梳理。而 Elicit 强在横向的信息提取。在实际科研流程中，我通常会先用 Connected Papers 找到关键的一批论文，然后把这批论文的 DOI 导入到 Elicit 中，让 Elicit 帮我提取具体的实验参数和局限性。两者配合使用，效果最佳。

问：Elicit 有什么让人难以忍受的缺点？

作为工具评测，我们必须揭露它不好用的一面。首先是幻觉问题。虽然 Elicit 声称其总结是基于 PDF 文本生成的，但在面对复杂的数学公式或非标准格式的图表时，它依然会胡言乱语。例如，在提取某些消融实验的数据时，它偶尔会把 Baseline 的结果误认为是新方法的结果，这种错误如果没有人工核对，写入论文将是灾难性的。

其次是对中文文献的支持较弱。如果你的研究领域高度依赖中文核心期刊，Elicit 的检索能力和翻译质量会打折扣，它的大脑依然是以英文学术世界为核心构建的。

另外就是成本问题。Elicit 目前采取了代币（Credits）制，免费额度非常有限。如果你每天进行高强度的文献调研，免费额度可能两三天就会耗尽。对于没有科研经费支持的个人研究者来说，订阅费用并不算便宜。

问：什么情况下值得用？给出你的明确结论。

基于以上实测，我给出的结论非常明确：

如果你处于新课题的开题阶段，或者需要跨领域进行快速的技术调研，Elicit 绝对值得你付费使用。它能帮你省去在海量 PDF 中用 Ctrl+F 寻找样本量、实验指标的繁琐过程，让你把精力集中在方法论的对比上。

相反，如果你已经在一个细分领域深耕多年，对该领域的关键学者和经典文献了如指掌，那么 Elicit 对你的边际效应会递减。因为在这个阶段，你需要的是极其敏锐的理论洞察和严谨的推导，这些是 AI 无法提供的，你依然需要老老实实地去精读每一篇原文。

总而言之，Elicit 是一个优秀的过滤器，而不是一个替代脑力劳动的思考器。用它来做漏斗的初筛，把精读和批判性思考留给自己，这才是 AI 时代科研人员的正确姿势。