Post #1081

@Isaiahsystem

404 KIDS SEE GHOSTS (生产力之王版

Views4,180帖子阅读量

发布12月15日2023/12/15 03:34

Post content

帖子内容

GPT4V OCR 测试识别卢曼手写卡片最近关注到各种大模型的 OCR 能力，就用 GPT4V 深入处理了下卢曼的手写卡片笔记内容，发现 GPT4V 识图这方面仍然独一档。 Bard 这些模型对于普通的英文识别还行，像德语文本以及这些手写，OCR 基本残废，更不用说卢曼这种意识流笔记。我使用卢曼第二卡片盒系统的相关编号卡片 Niklas Luhmann-Archiv，以及图中的 9/8b2，基本是弱智回答，不知所云，识别能力完全为 0。然后我重新会话进行了如图的四张内容输入训练（9/8，9/8a，9/8b，9/8b1），以及德语原文对照。再给出图上 9/8b2 这张笔记来进行识别，效果如图，它给的准确度自评结果是可接近 50%，因为主要概念错误。但实际来看，这种识别确认输出已经非常惊人，而且概念幻觉完全是可训练的，目前 GPT4V 优势也在于会进行上下文 CoT，不同程度地补充这些概念，只是数据量的问题。训练后输出对照： 9/8b2 "Multiple storage" als Notwendigkeit der Speicherung von komplexen (komplex auszu-wertenden) Informationen. 9/8b2 "多重存储 "是存储复杂（评估复杂）信息的必要条件。 9/8b2 "multiple storage" als Voraussetzung für die Scheidung von Komplexen (Komplexe von-) Variablen von Variablen. 9/8b2 "多重存储 "是变量与变量复合体（复合体的）分离的先决条件。卢曼的学术遗产翻译和编辑项目现在还在进行，一直到 2030 年。按这种趋势，到 2024 年下半年开始，大模型成熟爆发，这项工作会和大多历史人文研究实例一样，可能提前下班。最近「第二大脑」书籍作者 Tiago Forte 就使用 GPT4V 处理他的手写笔记，他也对照了 Apple IOS/ Readwise 的 OCR 功能，效果差劲，GPT4V 则效果完美，GPT4 会在代码框中转录文本，它还会思考并根据上下文单词推断，这也是它优于其它 OCR 应用的地方。另外，X 友 @遁一子也测评了 GPT4V 的能力，结合 Google OCR 效果也非常好。读纸质书可以直接做笔记，扔 ChatGPT。在上述经验中，大模型 OCR 本来的能力是有限的，优势在于能够上下文推理，这意味着你使用「tell me every detail you see with your vision」比你直接要求进行 OCR 识别会好很多。 Reference AI（GPT4V）和人文科学的未来 #ai#academic