Најди сличен содржај

Изворен канал @pythonotes · Post #239 · 3 мај

Один из самых удобных способов записать данные это использование готовых форматов, такие как JSON или YAML. Из плюсов такого подхода стоит отметить вот что: 🔸 готовый, повсеместно используемый и поддерживаемый формат 🔸 простой и понятный файл, удобочитаемый для человека 🔸 можно легко редактировать в любом текстовом редакторе без специальных программ и библиотек Но есть и минусы 🔹 затраты времени при записи файла (кодирование данных в нужный формат строки) 🔹 затраты времени при чтении файла (декодирование данных в Python объекты) 🔹 размер файла увеличивается из-за разметки данных (скобки, запятые, переносы, отступы...) 🔹 перед записью все данные должны быть помещены в память в полном объёме (не всегда) 🔹 при чтении необходимо считать весь файл в память и только потом декодировать данные Если нужно писать немного данных в несколько файлов, то затраты по времени не ощутимы. Обычно это файлы конфига или какие-либо метаданные. Это отличный вариант под такие задачи. Есть и другой поход к записи файлов - это бинарные файлы. Используется, когда данных достаточно много и никто их не собирается читать глазками😳. 🔸 очень быстрая запись 🔸 чтение значительно быстрей чем JSON, YAML итд 🔸 размер файла значительно меньше, так как нет разметки 🔸 можно записывать данные по мере поступления не загружая всё в память 🔸 можно извлечь любую часть данных независимо Из минусов 🔹 нужно определить свой формат записи данных (если не используете готовую спецификацию определённого формата) 🔹 не получится открыть файл и визуально понять что там записано, а для чтения файла потребуется знать его спецификацию. 🔹 не так-то просто создать такой файл без специальной библиотеки В таком виде удобно записывать большой массив любых однородных данных. Например, мониторинг валютной биржи или кэшированная анимация 3D геометрии. (Это не означает что нельзя записать данные разного типа, просто это будет не так удобно) Представьте себе JPG-картинку. По сути это немного мета-информации и большой массив пикселей. Тоже самое со звуком или видео файлом. Поэтому, если вы попробуете открыть картинку в текстовом редакторе вы увидите что-то вроде такого f15d cd29 a564 4578 ... 09e2 9bc4 a696 1253 ... 84e9 4de1 3b23 c24a ... 2534 5161 28e0 709d ... ... Это и есть записанные байтики. И для их чтения требуется определённый софт который знает что с ними делать. Под каждый тип файла. К чему это я? Читайте в следующем посте... #tricks#basic

Hashtags

#tricks #basic

Резултати

Пронајдени 4 слични објави

Пребарај: #commandline

当前筛选 #commandline清除筛选

Repositorio data science

@repo_science · Post #4190 · 20.08.2024 г., 11:13

Најди слично Погледај

#linux#softSkills#commandLine 📱 Linux: Master the Linux Command Line ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----

Hashtags

#linux #softskills #commandline

Repositorio data science

@repo_science · Post #3361 · 27.06.2023 г., 21:42

Најди слично Погледај

#softSkills#commandLine#cheatSheet Command Line Cheat Sheet ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----

Hashtags

#softskills #commandline #cheatsheet

AppPie

@AppPie · Post #2386 · 07.04.2025 г., 04:04

Најди слично Погледај

#Apps OCRmyPDF: 为扫描 PDF 添加 OCR 文本层 🔗GitHub OCRmyPDF 是一个开源的命令行工具和库，它可以为扫描的 PDF 文件添加 OCR 文本层，使文件内容可被搜索和复制粘贴。该工具利用 Tesseract OCR 引擎识别 PDF 中图像里的文本，并将其准确地放置在原始图像下方，使得用户可以轻松地搜索和选择文档中的内容。 OCRmyPDF 的工作原理是分析 PDF 的每一页，确定所需的色彩空间和分辨率，然后使用 Ghostscript 将每页栅格化，接着通过 Tesseract 进行 OCR 处理，并将生成的 OCR 层集成回原始 PDF。与直接使用 ImageMagick 或 Ghostscript 处理图像然后通过 Tesseract OCR 不同，OCRmyPDF 能够生成变化最小的 PDF 输出，同时保留原始图像的精确分辨率。主要特点 - 多语言支持：支持 Tesseract 的所有语言包，包括英语、法语、中文等 - 图像处理：自动旋转页面、去偏斜、清理背景和图像优化 - PDF/A 生成：默认生成符合 PDF/A 标准的存档文件，便于长期保存 - 批处理能力：支持多核处理，提高 OCR 速度 - 多平台支持：适用于 Linux、macOS、Windows 和 FreeBSD - Docker 支持：提供 Docker 镜像，方便快速部署 - JBIG2 优化：支持 JBIG2 编码，大幅减小黑白图像的文件大小 - 页面选择：允许只对 PDF 中的特定页面进行 OCR 处理 - 扩展性：支持插件系统，可自定义处理流程部署选项 - 通过 pip 安装：`pip install ocrmypdf` - Docker 容器 - 系统包管理器：支持多种 Linux 发行版和 macOS 的 Homebrew - 从源代码构建开源许可证 MPL-2.0。 #GitHub#OpenSource#PDF#OCR#CommandLine 📮 频道 @AppPie

Hashtags

#apps #github #opensource #pdf #ocr #commandline

GitHub Trends

@githubtrending · Post #15135 · 10.09.2025 г., 13:00

Најди слично Погледај

#javascript#ansi#ansi_escape_codes#chalk#cli#color#commandline#console#javascript#strip_ansi#terminal#terminal_emulators Chalk is a popular Node.js tool that lets you easily add colors and styles to text in the terminal, making your console output clearer and more attractive. It supports many colors, including 256 and truecolor (millions of colors), and allows you to combine and nest styles like bold, underline, and background colors. Chalk auto-detects if your terminal supports colors and works without adding dependencies or changing built-in string behavior. You can create custom themes and use template literals for dynamic, colorful logs. This helps you highlight important information in your terminal output, improving readability and debugging. Chalk is reliable, actively maintained, and widely used in many projects. https://github.com/chalk/chalk

Hashtags

#javascript #ansi #ansi_escape_codes #chalk #cli #color #commandline #console #strip_ansi #terminal #terminal_emulators