Post content
举个实际的例子,最近在处理一个不同版本文件的对齐问题: 1. Claude Code 先写了一个最原始的版本,就是拿 regex 暴力匹配,速度很快,但是效果凑活; 2. 我意识到问题之后,问它要不要先建立一个 hierarchy tree,这样对齐效果可能会好不少?它说可以试试; 3. 刚好在 X 上看到 docetl 这个项目,验证了我的思路,不过他们用 LLM 来提取 hierarchy tree。我把论文和 repo 都丢给 Claude Code ,让它学习。 4. 它很快借助 docetl 写了一个新版本,然后提供了 benchmark:准确率提高了 10%,速度慢了100倍。主要慢在请求 llm API 上; 5. 我又问它,有没有可能把这几个方案结合起来,回到上面说的第二点?这样可以取得性能和效果的平衡? 6. Claude Code 又帮我实现了这个方案,但是基于 regex 的实现性能上还不是最优; 7. 最后我问 Claude Code 能不能在性能和效果上取得平衡,又尽可能避免 overfitting,要不要 vector similarity? 它说这方案可能速度上会有影响,但可以试试看。 8. 任劳任怨的 Claude Code 和我讨论了详细的开发和测试步骤,预估需要四周时间才能完成。 最后的测试结果出乎我和 Claude Code 的预估,只用了一个晚上时间就全部完成。看了下消耗的 token,差不多$10。而只有开始阶段我和它反复讨论,后面就是 planning + subagent,全程基本无干预。 如果要我自己纯手写四个算法 (三个库),再加上各种测试的话,恐怕没一周搞不定这些。 https://github.com/ucbepic/docetl