Post #540

@dps_build

DPS Build

Views298Post view count

PostedAug 1208/12/2025, 02:27 PM

Post content

举个实际的例子，最近在处理一个不同版本文件的对齐问题： 1. Claude Code 先写了一个最原始的版本，就是拿 regex 暴力匹配，速度很快，但是效果凑活； 2. 我意识到问题之后，问它要不要先建立一个 hierarchy tree，这样对齐效果可能会好不少？它说可以试试； 3. 刚好在 X 上看到 docetl 这个项目，验证了我的思路，不过他们用 LLM 来提取 hierarchy tree。我把论文和 repo 都丢给 Claude Code ，让它学习。 4. 它很快借助 docetl 写了一个新版本，然后提供了 benchmark：准确率提高了 10%，速度慢了100倍。主要慢在请求 llm API 上； 5. 我又问它，有没有可能把这几个方案结合起来，回到上面说的第二点？这样可以取得性能和效果的平衡？ 6. Claude Code 又帮我实现了这个方案，但是基于 regex 的实现性能上还不是最优； 7. 最后我问 Claude Code 能不能在性能和效果上取得平衡，又尽可能避免 overfitting，要不要 vector similarity？它说这方案可能速度上会有影响，但可以试试看。 8. 任劳任怨的 Claude Code 和我讨论了详细的开发和测试步骤，预估需要四周时间才能完成。最后的测试结果出乎我和 Claude Code 的预估，只用了一个晚上时间就全部完成。看了下消耗的 token，差不多$10。而只有开始阶段我和它反复讨论，后面就是 planning + subagent，全程基本无干预。如果要我自己纯手写四个算法（三个库），再加上各种测试的话，恐怕没一周搞不定这些。 https://github.com/ucbepic/docetl