TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
用 OpenAI 和 gemini 写代码,确实提升了不少效率,但还是需要一些基础。 从一个 PDF 提取文本信息,用 Gemini 迭代了十多次仍旧无法提取信息,改了各种 prompt 都没用。 再仔细看那些 PDF 文件,发现其中一部分内容是从文本生成的,另一部分是从图片直接压成的。两部分组合成一个 PDF 文件。要不是之前和这类数据打过交道,我都没有 OCR 的概念,也不可能在 prompt 调用 OCR。 最后调用 Tesseract 成功提取了这些图片里的文本数据 🤷