TGTGInsighttelegram intelligenceLIVE / telegram public index
← 404 KIDS SEE GHOSTS (生产力之王版
404 KIDS SEE GHOSTS (生产力之王版 avatar

TGINSIGHT POST

Post #1081

@Isaiahsystem

404 KIDS SEE GHOSTS (生产力之王版

Views4,180帖子阅读量
发布12月15日2023/12/15 03:34
Post content

帖子内容

GPT4V OCR 测试识别卢曼手写卡片 最近关注到各种大模型的 OCR 能力,就用 GPT4V 深入处理了下卢曼的手写卡片笔记内容,发现 GPT4V 识图这方面仍然独一档。 Bard 这些模型对于普通的英文识别还行,像德语文本以及这些手写,OCR 基本残废,更不用说卢曼这种意识流笔记 。 我使用卢曼第二卡片盒系统的相关编号卡片 Niklas Luhmann-Archiv,以及图中的 9/8b2,基本是弱智回答,不知所云,识别能力完全为 0。然后我重新会话进行了如图的四张内容输入训练(9/8,9/8a,9/8b,9/8b1),以及德语原文对照。再给出图上 9/8b2 这张笔记来进行识别,效果如图,它给的准确度自评结果是可接近 50%,因为主要概念错误。但实际来看,这种识别确认输出已经非常惊人,而且概念幻觉完全是可训练的,目前 GPT4V 优势也在于会进行上下文 CoT,不同程度地补充这些概念,只是数据量的问题。 训练后输出对照: 9/8b2 "Multiple storage" als Notwendigkeit der Speicherung von komplexen (komplex auszu-wertenden) Informationen. 9/8b2 "多重存储 "是存储复杂(评估复杂)信息的必要条件。 9/8b2 "multiple storage" als Voraussetzung für die Scheidung von Komplexen (Komplexe von-) Variablen von Variablen. 9/8b2 "多重存储 "是变量与变量复合体(复合体的)分离的先决条件。 卢曼的学术遗产翻译和编辑项目现在还在进行,一直到 2030 年。按这种趋势,到 2024 年下半年开始,大模型成熟爆发,这项工作会和大多历史人文研究实例一样,可能提前下班。 最近「第二大脑」书籍作者 Tiago Forte 就使用 GPT4V 处理他的手写笔记,他也对照了 Apple IOS/ Readwise 的 OCR 功能,效果差劲,GPT4V 则效果完美,GPT4 会在代码框中转录文本,它还会思考并根据上下文单词推断,这也是它优于其它 OCR 应用的地方。另外,X 友 @遁一子 也测评了 GPT4V 的能力,结合 Google OCR 效果也非常好。读纸质书可以直接做笔记,扔 ChatGPT。 在上述经验中,大模型 OCR 本来的能力是有限的,优势在于能够上下文推理,这意味着你使用「tell me every detail you see with your vision」比你直接要求进行 OCR 识别会好很多。 Reference AI(GPT4V)和人文科学的未来 #ai#academic