TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #367 · 30.05

Поговорим про ML. Пару дней назад вышла новость о том, что в продажу поступила первая русскоязычная книга, половину текста в которой написала нейросеть ruGPT-3. А до этого вы все наверняка натыкались на очень яркие записи про Dalle и Imagen, где нейросеть по описанию рисует картинку, и получается очень любопытно. Такими темпами скоро нейросети превратятся в крипту: высокотехнологичную вещь, о которой, однако, в среде приличных технарей лучше не упоминать. Потому что то, каким образом это используется, и то, какой образ этому создают в массах, расходится не только с реальностью, но и с определённым уровнем вменяемости. Кстати, ML ещё и может ярко демонстрировать эффект Даннинга-Крюгера. Мем про "Ты чё, пёс, я математик!" нифига не шутка. Человек может считать себя крутым программистом, если научился комбинировать чужие библиотеки на питоне. Хотя на самом деле простейшую практическую задачу решить не способен -- я с такими сталкивался лично. ML-щики вообще пихают свои нейросети куда ни попадя, считая, что это волшебная таблетка и швейцарский нож для любых ситуаций. Мне рассказывали случай, когда на хакатоне по работе с данными выиграл человек, который просто аккуратно вручную подобрал нужные зависимости в Excel :) Глобально же нейросетями пытаются решать три вида задач: 1. Информации в вопросе много, а в ответе нужно мало. Например, распознавание образов и символов. Подбор значений каких-нибудь коэффициентов. Приложение "Хотдог или не хотдог" из сериала Кремниевая Долина. Обычно нейросети справляются с таким очень хорошо. Рукописный ввод распознают шикарно, по фото могут назвать породу собаки, математические формулы читают. Но важно понимать, что под капотом даже у такой нейросети не возникает никаких понятных вам символов. Например, при распознавании рукописного ввода случайный набор пикселей, не имеющий для человека смысла, может быть с той же степенью уверенности интерпретирован нейросетью, как совершенно чёткая буква А. Просто мы на такой случайный набор не попадаем почти всегда, и поэтому всё ок. 2. Информации в вопросе средне, и в ответе нужно средне. Как правило, это предсказание, восстановление недостающих данных, улучшение качества фото, раскрашивание ч/б. С такими задачами нейросети справляются уже средненько. Улучшенный нейросетью снимок сразу видно. Предсказание лишь ненамного точнее, чем случайный выбор. Польза в том, что в обращении такие сети просты, а результат всё-таки дают. Но не стоит их переоценивать. Например, сюда можно отнести задачу суммаризации текста (по большому объёму текстов тебе печатают выжимку). Мои товарищи в одном чате несколько дней игрались с ботом-суммаризатором, и в основном половина написанных им фраз это просто мусор и ерунда для ржача. Но в другой половине всё-таки какой-то совсем небольшой смысл проглядывался. Недостаточный для того, чтобы задалбывать этим ботом участников чата (привет, ребята :) ), но не абсолютный рандом. 3. Информации в вопросе мало, а в ответе нужно много. Это генерация данных: вот как раз написание текстов, составление рисунков, логотипов и так далее. Так вот, по моему скромному, но всё-таки хоть немного компетентному мнению, в таких вопросах нейросети выдают полную херню. И хвалёная логотипная нейросетка Лебедева — тоже полная херня. И распиаренная GPT ничего толкового не пишет. Когда читаешь примеры в новостях-анонсах, сразу думаешь: "Вау, как круто!". Но когда пробуешь сам: ruGPT-3 по уровню осмысленности где-то чуть ниже "Яндекс.Рефератов", если помните такой сервис и суть его работы. Я не знаю, будут ли сети по созданию изображений работать так круто (сейчас доступа к ним ни у кого нет), но книга в соавторстве с человеком стала возможна только по той причине, что в качестве человека взяли Павла Пепперштейна, который берёт случайные комбинации словосочетаний и выдаёт это за литературу. Поверьте: человечество пока что в безопасности касательно захвата машинами. #dev

Hashtags

Резултати

Намерени 4 подобни публикации

Търсене: #commandline

当前筛选 #commandline清除筛选
AppPie

@AppPie · Post #2386 · 07.04.2025 г., 04:04

#Apps OCRmyPDF: 为扫描 PDF 添加 OCR 文本层 🔗GitHub OCRmyPDF 是一个开源的命令行工具和库,它可以为扫描的 PDF 文件添加 OCR 文本层,使文件内容可被搜索和复制粘贴。该工具利用 Tesseract OCR 引擎识别 PDF 中图像里的文本,并将其准确地放置在原始图像下方,使得用户可以轻松地搜索和选择文档中的内容。 OCRmyPDF 的工作原理是分析 PDF 的每一页,确定所需的色彩空间和分辨率,然后使用 Ghostscript 将每页栅格化,接着通过 Tesseract 进行 OCR 处理,并将生成的 OCR 层集成回原始 PDF。与直接使用 ImageMagick 或 Ghostscript 处理图像然后通过 Tesseract OCR 不同,OCRmyPDF 能够生成变化最小的 PDF 输出,同时保留原始图像的精确分辨率。 主要特点 - 多语言支持:支持 Tesseract 的所有语言包,包括英语、法语、中文等 - 图像处理:自动旋转页面、去偏斜、清理背景和图像优化 - PDF/A 生成:默认生成符合 PDF/A 标准的存档文件,便于长期保存 - 批处理能力:支持多核处理,提高 OCR 速度 - 多平台支持:适用于 Linux、macOS、Windows 和 FreeBSD - Docker 支持:提供 Docker 镜像,方便快速部署 - JBIG2 优化:支持 JBIG2 编码,大幅减小黑白图像的文件大小 - 页面选择:允许只对 PDF 中的特定页面进行 OCR 处理 - 扩展性:支持插件系统,可自定义处理流程 部署选项 - 通过 pip 安装:`pip install ocrmypdf` - Docker 容器 - 系统包管理器:支持多种 Linux 发行版和 macOS 的 Homebrew - 从源代码构建 开源许可证 MPL-2.0。 #GitHub#OpenSource#PDF#OCR#CommandLine 📮 频道 @AppPie

GitHub Trends

@githubtrending · Post #15135 · 10.09.2025 г., 13:00

#javascript#ansi#ansi_escape_codes#chalk#cli#color#commandline#console#javascript#strip_ansi#terminal#terminal_emulators Chalk is a popular Node.js tool that lets you easily add colors and styles to text in the terminal, making your console output clearer and more attractive. It supports many colors, including 256 and truecolor (millions of colors), and allows you to combine and nest styles like bold, underline, and background colors. Chalk auto-detects if your terminal supports colors and works without adding dependencies or changing built-in string behavior. You can create custom themes and use template literals for dynamic, colorful logs. This helps you highlight important information in your terminal output, improving readability and debugging. Chalk is reliable, actively maintained, and widely used in many projects. https://github.com/chalk/chalk