AI自动化科研实战：利用Claude Code重塑旧研究项目的全过程分析

Q: 问题 3：智能体在实验中如何记录自己的思路？?

作者引入了一个名为`scratchpad.md`（草稿本）的文件。智能体将其作为工作记忆，详细记录其思考逻辑、实验假设以及过往的实验历史，从而保持研究过程的连贯性。

本文详细记录了一位开发者利用Karpathy提出的Autoresearch理念，结合Claude Code对旧科研项目eCLIP进行自动化优化的过程。通过构建包含假设、编辑、训练及评估的闭环系统，作者展示了AI智能体如何在受限环境下通过迭代改进模型性能，并分享了在沙盒安全、实验阶段划分及自动化流程构建方面的实战经验。

核心要点

核心机制：采用基于LLM智能体的受限优化循环，通过修改train.py并参考program.md指令来提升评估指标。
实验流程：构建了“假设→编辑→训练→评估→提交/回滚”的紧密闭环，单次实验控制在5分钟内以实现快速迭代。
阶段化探索：将研究分为超参数调优、架构微调及开放式探索（Moonshot）三个阶段，后期赋予智能体联网搜索论文的权限。
安全沙盒化：通过容器化训练环境并限制Claude Code的权限（禁止直接执行Python、安装包或联网），确保工作站安全。
新增辅助工具：引入scratchpad.md作为智能体的“草稿本”，用于记录思考过程和实验历史。

详细分析

自动化科研的闭环逻辑

作者实践的Autoresearch核心在于将科研过程抽象为一个受限的优化问题。在这个循环中，AI智能体充当了核心决策者。通过读取program.md中的结构化指令，智能体在train.py中实施修改。为了提高效率并防止过拟合，作者特意将单次运行时间限制在5分钟左右。这种高频迭代的模式允许智能体在短时间内测试大量假设，通过不断的“尝试-失败-回滚”或“尝试-成功-提交”过程，逐步逼近更优的模型表现。

实验阶段的层次化管理

为了引导AI进行更有意义的探索，作者将实验过程划分为不同的阶段。初期阶段侧重于显而易见的超参数调整，这是最容易获得收益的部分。随后进入小规模的架构变更阶段，测试模型结构的微调。在最后的“远景计划（Moonshot）”阶段，作者放宽了约束，允许智能体通过联网访问学术论文来寻找灵感。这种从受控到开放的策略，既保证了实验的基础稳定性，也保留了发现突破性改进的可能性。

安全性与沙盒环境构建

在让AI智能体运行任意代码时，安全性是首要考量。作者采取了严格的沙盒化措施：将整个训练循环封装在容器中，并切断了网络连接。通过run.sh脚本编排实验流，并限制Claude Code仅能编辑特定文件和运行启动脚本。这种权限最小化的配置防止了AI执行非授权的系统操作（如pip安装或Git推送），为自动化科研提供了必要的安全边界。

行业影响

该实践展示了AI智能体在科研自动化领域的巨大潜力。它证明了LLM不仅可以编写代码，还能在特定框架下承担起“初级研究员”的职责，处理繁琐的调参和基础实验工作。这种模式如果得到推广，将极大地加速科研迭代的速度，降低实验成本，使研究者能够从重复性的劳动中解放出来，专注于更高层次的理论创新和实验设计。同时，这也对AI实验的安全性管理提出了新的标准和参考范式。

常见问题

问题 1：Autoresearch是如何处理实验失败的？

系统采用“提交或回滚”的机制。如果智能体修改后的代码在训练和评估阶段未能提升预设的指标，系统会自动撤销更改（回滚），确保后续实验基于已知最优的状态继续进行。

问题 2：为什么要把单次实验时间限制在5分钟？

短时间的实验旨在鼓励快速迭代。通过限制单次运行的时钟时间，可以防止智能体在单一路径上耗费过多资源，同时减少模型对特定噪声的过拟合，确保改进具有一定的泛化性。

问题 3：智能体在实验中如何记录自己的思路？

作者引入了一个名为scratchpad.md（草稿本）的文件。智能体将其作为工作记忆，详细记录其思考逻辑、实验假设以及过往的实验历史，从而保持研究过程的连贯性。

基于Claude Code的自动化科研实践：重塑旧研究项目的AI智能迭代之路