TGINSIGHT CHAT
Python Заметки
@pythonotes
EducationИнтересные заметки и обучающие материалы по Python Контакт: @paulwinex ⚠️ Рекламу на канале не делаю!⚠️ Хештеги для поиска: #tricks #libs #pep #basic #regex #qt #django #2to3 #source #offtop
Неодамнешни објави
Страница 13 од 32 · 384 објави
Објавено 2 јул.
🔖 Подводя итоги по прошлым постам плюс пара заметок: 🔸 Если требуется проверять идентичность содержимого архивов, лучше использовать ZIP и проверять только CRC. 🔸 Указанный способ может помочь проверить отдельные файлы в архиве с возможностью перекачать только новые а не весь архив 🔸 Для проверки хеш-суммы файла можно использовать утилиту md5sum (она не умеет проверять хеш внутри ахрхивов) # Linux: md5sum filename # Windows: python md5sum.py filename (находится в директории скриптов /Tools/scripts/md5sum.py) #libs#tricks
Објавено 30 јун.
На самом деле архивы TAR оказались менее удобными в нашей теме проверки идентичности. Давайте сделаем всё тоже самое для ZIP. Допустим, тестовые файлы мы уже создали используя код из прошлого поста. Теперь создадим архивы. import zipfile def create_zip(archive_path, files): with zipfile.ZipFile(archive_path, "w") as zf: for file in files: zf.write(file) create_zip('archive1.zip', files_to_archive) create_zip('archive2.zip', files_to_archive) Проверим хеш >>> hashlib.md5(open("archive1.zip", "rb").read()).hexdigest() 'd54670be5e01e483797ee4ae30089423' >>> hashlib.md5(open("archive2.zip", "rb").read()).hexdigest() 'd54670be5e01e483797ee4ae30089423' Отлично! ZIP создаёт одинаковые архивы и сразу выдаёт одинаковую хеш-сумму! Ну всё, на этом расходимся... Хотя подождите ка, часто ли вы проверяете один и тот же файл на идентичность? Давайте имитируем ситуацию когда файл был перезаписан или "модифицирован" но при этом фактически не изменился. То есть изменились только его атрибуты. Для этого можно использовать Linux-команду touch, которая обновляет время последнего доступа к файлу. touch example_file0.txt touch example_file1.txt ... Либо альтернативу на Python from pathlib import Path for f in files_to_archive: Path(f).touch() Содержимое файлов не изменилось! Но изменились атрибуты. Пересоздаём второй архив. create_zip('archive2.zip', files_to_archive) Проверяем >>> hashlib.md5(open("archive1.zip", "rb").read()).hexdigest() 'd54670be5e01e483797ee4ae30089423' >>> hashlib.md5(open("archive2.zip", "rb").read()).hexdigest() 'aa508dbba4e223abe45e16dba4ad6e1f' Вот это более правдивая ситуация. Давайте теперь сделаем функцию для проверки файлов внутри архивов, которая считывает непосредственно данные файлов в разжатом виде. def get_hash_zip(path): hash_md5 = hashlib.md5() with zipfile.ZipFile(path, "r") as z: for f_name in z.namelist(): with z.open(f_name) as f: hash_md5.update(f.read()) return hash_md5.hexdigest() Сравним теперь хеш-суммы архивов >>> get_hash_zip('archive1.zip') '0b27c443737b0a84381b827e1d9a913b' >>> get_hash_zip('archive2.zip') '0b27c443737b0a84381b827e1d9a913b' Всё чётко сработало! А что по времени? >>> timeit.timeit("get_hash_zip('archive1.zip')", number=100, globals=globals()) 10.8 Ну тоже неплохо. ⭐️ А теперь самая главная фишка ZIP - при создании архива он СРАЗУ записывает контрольную сумму файла в заголовки! А это значит что мы можем просто считать готовые хеш-суммы и сравнить их! Это называется CRC (cyclic redundancy check) def get_hash_zip2(path): h = hashlib.md5() for info in zipfile.ZipFile(path).infolist(): h.update(info.CRC.to_bytes(8, byteorder='big')) return h.hexdigest() >>> timeit.timeit("get_hash_zip2('archive1.zip')", number=100, globals=globals()) 0.008 То есть даже буфер никакой не считывается, только несколько байт из заголовков каждого файла. Выполняется моментально. В моем случае 100 итераций за 8 мс! 🌐 Полный листинг тестов в Jupyter (для экспериментов жмём Open in Colab) 📌 И просто в Gists #libs#tricks
Објавено 28 јун.
В прошлом примере мы добились совпадения хеш-суммы двух архивов. Но не даёт покоя тот факт, что делается это слишком долго. Давайте сравним скорость. >>> from timeit import timeit >>> timeit("hashlib.md5( open('archive1.tar.gz', 'rb').read() ).hexdigest()", number=100, globals=globals()) # 8.6 >>> timeit("get_hash_tar1('archive1.tar.gz')", number=100, globals=globals()) # 29.8 Разница больше чем в 3 раза! Видимо потому, что кроме простого чтения байтиков мы еще применяем алгоритм разжатия данных? Кажется что для 100 итераций это время нормальное, но представьте что архив будет размером не 50 Мб а 10Гб. Время возрастёт серьезно! Попробуем сократить разрыв. Давайте считать не все данные а только хеш файлов, который посчитает сам модуль tarfile. def get_hash_tar2(path): hsum = hashlib.md5() with tarfile.open(path) as tar: for file in tar.getmembers(): hsum.update(file.chksum.to_bytes(8, byteorder='big')) return hsum.hexdigest() >>> timeit.timeit("get_hash_tar2('archive1.tar.gz')", number=100, globals=globals()) 11.5 Прирост скорости x3! Уже неплохо, почти как просчет хеша для архива без разжатия. Почему так, можно почитать в комментарии. Если коротко, мы считываем только заголовки элементов архива. Но на сколько я понял, это не отменяет чтение всего буфера из архива. А можно быстрей? Можно... #libs#tricks
Објавено 25 јун.
Для проверки целостности или идентичности файлов всегда используется проверка контрольной суммы. Это работает в большинстве случаев, но не всегда. Давайте сделаем простой тест. Создадим несколько рандомных файлов import os # create random test files files_to_archive = [] for i in range(5): name = f'example_file{i}.txt' open(name, 'wb').write(os.urandom(10**7)) files_to_archive.append(name) Я создал 5 файлов с рандомными бинарными данными. Нам сейчас неважно что там находится, главное что это некоторые файлы по 10мб. Добавим их в архив два раза import tarfile def create_tar(archive_path, files): with tarfile.open(archive_path, 'w:gz') as tar: for file in files: tar.add(file) create_tar('archive1.tar.gz', files_to_archive) create_tar('archive2.tar.gz', files_to_archive) И проверим хеш сумму >>> hashlib.md5(open("archive1.tar.gz", "rb").read()).hexdigest() 'ded8771a6ba57281f52a0e0ec38c29b8' >>> hashlib.md5(open("archive2.tar.gz", "rb").read()).hexdigest() '2a70bd3137a174393197cf67cbe91a8d' Несмотря на то, что мы сделали два одинаковых архива, внутри он не очень-то и одинаковы! Причина тут в алгоритме сжатия, который может зависеть от некоего рандома, и в записываемых мета-данных, например время создания файла архива. Даже отличие в один байт делает хеш сумму совершенно другой, несмотря на то, что файлы внутри полностью идентичны. Чтобы решить проблему следует проверять хеш сумму самих файлов внутри архива. То есть разархивировать данные без сохранения на диск и посчитать хеш для них. def get_hash_tar(path): hsum = hashlib.md5() with tarfile.open(path) as tar: for file in tar.getmembers(): hsum.update(tar.extractfile(file).read()) return hsum.hexdigest() >>> get_hash_tar('archive1.tar.gz') '0b27c443737b0a84381b827e1d9a913b' >>> get_hash_tar('archive2.tar.gz') '0b27c443737b0a84381b827e1d9a913b' Таким образом мы обошли те байты архива которые отличаются и посчитали только фактические данные файлов. #libs#tricks
Објавено 23 јун.
Недавно писал тесты для модуля, который рисует на картинках текст и разные фигуры. Обычные ошибки в коде можно поймать простым исключением. Но как убедиться что нарисовано именно то что надо? Например цвет правильный или шрифт выбран верно. Для этого нужно визуально сравнивать правильный рендер и тест. Чтобы авто тесты оставались "авто", я использовал библиотеку imgcompare С помощью неё достаточно просто сравнить два изображения и получить процентное соотношение различий между картинками. Очень удобно проверять расхождения даже в мелочах. Например если что-то пошло не так и использовался шрифт по умолчанию. К тому же мелкие различия глазами не так уж просто заметить. Видите разницу в 1 процент на картинке к посту? Нет? А она есть🐹! ➡️https://github.com/datenhahn/imgcompare #libs#tricks
Објавено 18 јун.
Модуль ensurepip, стал стандартным начиная с версии 3.4 и портирован в 2.7 Это встроенная альтернатива файлу get-pip.py. Модуль позволяет установить или обновить pip. 🔸Установка pip: python -m ensurepip 🔸Обновление до актуальной версии python -m ensurepip --upgrade 🔸Установка в директорию юзера, если вас не устраивает системный или просто нет доступа для обновления (когда не используем venv, то есть ставим глобально) python -m ensurepip --user #libs#basic
Објавено 11 јун.
Тип строки в Python имеет очень много удобных методов. Сегодня пост про два таких метода которые чаще всего используются "однобоко". Это методы startswith() и endswith() Самый обычный сценарий использования — проверка, начинается ли строка с указанной подстроки? >>> "some_string".startswith("some") True И аналогичная ситуация с зеркальным вариантом этой функции, проверка совпадения с конца >>> "some_string".endswith("some") False Так они используются в большинстве случаев что я видел. Но у этих функций есть еще два варианта использования. 🔸Сравнение нескольких подстрок Для проверки нескольких подстрок в одной строке обычно вызывают эти функции несколько раз. Но на самом деле достаточно передать кортеж со всеми строками один раз. Если будет хоть одно совпадение то функция вернёт True. >>>"my_image.png".endswith(("jpg", "png", "exr")) True 🔸Диапазон поиска Вторым аргументом можно передать индекс символа с которого следует начать сравнение, а третий аргумент это индекс последнего символа. >>> ".filename.ext".startswith("file", 1) True >>> "file_###.ext".endswith('#', 0, -4) True Индексы можно указать отрицательными, что означает отсчёт с конца. #trics#basic
Објавено 9 јун.
Что-нибудь слышали про Лабораторию динамики флуоресценции? Если не интересуетесь конкретно этой наукой то здесь вам ловить нечего. Кроме одного момента! Сотрудник лаборатории Christoph Gohlke поддерживает неофициальную библиотеку бинарников для Python под Windows. Большая коллекция скомпиленных библиотек под разные версии Python. Именно здесь я долгое время качал старую версию PySide под Python2 и OpenImageIO, пока не потребовалось собрать её иначе. В общем, всем тем кто на Windows, советую страничку в закладки. Также будет полезно тем кто еще на Python2. Кстати, эта коллекция всё еще обновляется. #libs#2to3
Објавено 7 јун.
Библиотека pstray поможет легко создать иконку в системном трее максимально нативными средствами системы без тяжеловесного Qt и ему подобных. Здесь же есть средства создать меню, нотификации и даже radio button. #libs
Hashtags
Објавено 26 мај
Уже полтора года как Python2 отправился на пенсию. Как идёт процесс перехода на 3ю ветку? В вебе всё более менее нормально. Django начиная с 2.0 и недавно вышедший Flask 2.0 официально больше не поддерживают Python 2. На странице Qt for Python вторая ветка пропала из таблицы поддерживаемых версий. Теперь минимальная версия 3.8. Но меня больше интересует готовность CG-софта. Я предполагал, что период перехода займёт от 3 до 5 лет. При том что резко, как с web, перескочить не получится и какое-то время придётся поддерживать обе ветки (как это сделали с Houdini и Maya). А ведь переделывать там ой как много. Но, к счастью, процесс идёт достаточно бодро! Судя по этой статистике три четверти приложений уже на Ру3!😊 Остальные догоняют. Надеюсь план по переходу на 3й Python будет завершён к концу 2021 года. #2to3
Hashtags
Објавено 24 мај
Чем отличается тип bytes от bytearray? Всё просто, bytes неизменяемый тип, а bytearray изменяемый. Что это нам даёт? Как известно, строка это неизменяемый тип. Всякий раз когда вы делаете любые манипуляции со строкой вы создаёте новую строку. Если же её преобразовать в bytearray то все изменения будут происходить с оригинальным объектом без копирования. Создаём массив >>> arr = bytearray(struct.pack('=11s', b'Hello World')) bytearray(b'Hello World') Можем добавить элемент в массив >>> arr.append(0) bytearray(b'Hello World\x00') Или удалить лишний элемент по индексу >>> del arr[-1] bytearray(b'Hello World') Для добавления в строку используем extend >>> arr.extend(b'!') bytearray(b'Hello World!') С помощью pack_into() вставляем данные в имеющийся массив заменяя данные >> struct.pack_into("=6s", arr, 6, b'Python') bytearray(b'Hello Python') Достаём результат >>> struct.unpack("=12s", arr)[0] b'Hello Python' И всё это мы сделали не создавая новых объектов! Это и экономит память, и выполняется быстрей, так как мы работаем с одним и тем же объектом. #tricks#libs
Објавено 21 мај
Формат структуры поддерживает две удобные фишки ▫️ Вместо дублирования токена можно указать цифру и сразу после неё нужный токен (это вы уже знаете по прошлым постам). struct.pack('=10s', data) ▫️ Для визуального удобства токены можно разделять пробелами, но не каунтеры (цифры перед токеном) struct.pack('= 10s I I 100Q', *items) #libs#tricks