Post #1724

@Seequeer

酷儿影视

Views909帖子阅读量

发布11月5日2023/11/05 02:13

Post content

帖子内容

全球质量最高，规模最大的中文语料库被安娜团队取得读秀知识库是由超星公司创建的大量扫描中文图书、报纸、报刊等中文文献数据库，大多数是中国大学图书馆的藏书，几乎所有新中国成立后出版的重要中文图书在此都有扫描版电子文件。读秀的图书长期以来一直在中国互联网上被盗版，通常使用网盘进行传播。影子图书馆安娜档案曾希望批量获取它，并为此进行了多个月的全职工作。近期，据安娜档案(Anna's Archive)称有位「不可思议、了不起、才华横溢的」志愿者联系了TA们，这位志愿者表示TA(们)已经完成了所有收集工作，并向安娜档案无偿分享了整个数据库，唯一的请求是安娜档案要长期保管这些文件。这个读秀数据库约有750万个文件（经过估算，图书种类数相当于2个北大图书馆总馆的馆藏）。这比 Library Genesis 的非虚构类图书(约530万)还要多。总文件大小约为350TB。安娜档案表示，愿意为训练大语言模型的公司提供一年的独家早期访问权限，以换取数据库内图书PDF图片高质量的OCR文本。详情请见安娜的博客频道评论：考虑到如今中文互联网中高质量文本的极度匮乏和环境的封闭，中文世界高质量的语料基本上都集中在正式出版物和期刊论文里。而中国中文出版物的扫描版大多数在读秀数据库里都有。可以说，这个数据库基本上承载了中国人目前积累的智慧成果。人工智能时代，数据为王。哪个公司能得到这个数据库，训练出来的语言模型在中文能力以及模型综合能力上肯定能获得质的提升。没有高质量语料库，没有公司能做出来一流的语言模型。 GPT等LLM都是在海量高质量语料库里训练出来的，其中有很多就是来自书籍、期刊、论文。可以说，没有高质量语料库，就没有语言模型的今天。由于训练语言模型前需要对图书的图片内容进行高精度的OCR以获取图书文本，安娜档案用PDF文件换OCR文本这一中间产物，LLM公司不会损失什么，但是获得了高质量语料库。安娜也节省了OCR图片的高额开销，属于双赢。接下来这些OCR文字可以用作PDF文件的内容检索，甚至直接打包进文件内作为图书资源分发。也可以直接作为语料资源后续转卖给其他公司。可以说，如果安娜档案的计划顺利，接下来两三年，你有可能会看到有一个或者少数几个语言模型的综合能力尤其是中文能力突飞猛进。安娜档案如果愿意开放这些文件和OCR文字的获取，未来网民寻找中文电子书资源将不再困难，有望实现人类知识（中文部分）的共产化。不知道接下来哪家公司能谈成这笔生意了，OpenAI、百度、Meta、谷歌？（不过对于国外公司来说有个难点就是这些语料里体现的价值观基本都是中国允许的，如何清洗数据以及对齐价值观怕是个难点）这可以算是中文人工智能届的一颗炸弹新闻（除非明天出来一个新闻：中国国家数据局牵头下，XX公司和知网/读秀/国家图书馆达成战略合作协议，共享中文语料资源）。太期待以后AI的发展了。说明：频道会发这条新闻，是因为我认为该事件将对未来中文世界尤其是文化产业产生较大影响，而酷儿影视是中文文化产业的一个部分（就举一个简单的例子，AI只要再强一点儿，或许再发展个两年，字幕翻译、本土配音就可以完全交给它了）。 #NEWS 🏳️‍🌈 酷儿影视频道 see.queers.top