TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
微软出的 Markdown 转换工具,可以将以下格式转换成 markdown。 PDF (.pdf) PowerPoint (.pptx) Word (.docx) Excel (.xlsx) Images (EXIF metadata, and OCR) Audio (EXIF metadata, and speech transcription) HTML (special handling of Wikipedia, etc.) Various other text-based formats (csv, json, xml, etc.) 老实说,这工具也只有微软自己能开发。处理过 docx 的朋友也许会明白有多痛苦。这玩意其实就是 xml 文件,但是微软不知道出于什么目的,把这个自定义的 xml 文件搞得支离破碎,直接解析 html tag 的话,每个句子都会变得不可读的碎片。 稍微看了下,这个包并没有自己解析 docx 文件,而是调用了开源的 python-mammoth 来解析。 https://github.com/microsoft/markitdown https://github.com/mwilliamson/python-mammoth