Скорее всего уже слышали, что складывать строки через + это плохая практика. Падение производительности, и всё такое. Без лишних слов, давайте измерять:
from timeit import timeit
def t1():
# складываем 10 строк через + из переменной
t = 'text'
for _ in range(1000):
s = t + t + t + t + t + t + t + t + t
def t2():
# склеиваем список строк через метод join
arr = ['text'] * 10
for _ in range(1000):
s = ''.join(arr)
def t3():
# складываем через + но не из переменной а непосредственно инлайн объекты
for _ in range(1000):
s = 'text' + 'text' + 'text' + ... # всего 10 раз
Теперь каждую строку склейки запустим по 10М раз
>>> timeit(t1, number=10000)
0.21951690399964718
>>> timeit(t2, number=10000)
1.4978306379998685
>>> timeit(t3, number=10000)
0.2213820789993406
Хм, а нам говорили что через "+" это плохо и медленно ))) 😁
Тут стоит учитывать, что речь идёт о склейке множества длинных строк.
Давайте изменим условия:
def t4():
t = 'text'*100
for _ in range(1000):
s = t + t + t + t + t + t + t + t + t
def t5():
arr = ['text'*100] * 10
for _ in range(1000):
s = ''.join(arr)
def t6():
for _ in range(1000):
s = 'text'*100 + 'text'*100 + ... # всего 10 раз
>>> timeit(t4, number=10000)
12.795130728000004
>>> timeit(t5, number=10000)
2.642637542999182
>>> timeit(t6, number=10000)
0.2184546610005782
Вот, уже другой разговор, сразу видна разница, в среднем в 6 раз. Но погодите, почему последний тест t6() по скорости такой же как и t3()? Ведь строки теперь в 100 раз длиннее!
Это вопросы оптимизации кода, какие простые изменения ускоряют или замедляют выполнение программы. Мы столкнулись с примером обхода обращения к переменной. Например, именно так работает директива #define в С++, во время компиляции подставляя значение переменной вместо ссылки на неё.
В Python это тоже работает, но часто ли вы сможете встретить такой способ работы со строками? К сожалению, способ почти только теоретический.
В целом, тесты показали то, что мы хотели. Делаем выводы самостоятельно.
Полный листинг 🌍
#tricks
🤖Rtutor.ai для работы с вашими данными с помощью запросов на естественном языке
Steven Ge написал приложение RTutor, которое позволяет генерировать и тестировать код на языке R, просто "общаясь" с ним. Например, на основе набора данных mpg можно задавать такие вопросы: "С помощью ggplot2 создай боксплот (boxplot) для зависимости hwy от класса. Цвет по классам. Добавь джиттер" (Use ggplot2 to create a boxplot of hwy vs. class. Color by class. Add jitter).
RTutor сгенерирует функциональный код для ответа на ваш вопрос, что упрощает проведение предварительного анализа и визуализации данных для тех, кто не имеет опыта работы с R. Тем же, кто имеет опыт работы с R, RTutor поможет сэкономить время, предоставляя код, который можно использовать в качестве отправной точки для своих проектов.
RTutor может быть запущен локально как пакет R. Он также генерирует код R в формате Markdown и html-отчеты.
#R#ggplot2#AI#chatGPT
«Основы визуализации данных» Клауса Уилке
Наконец-то вышел русскоязычный перевод книги Клауса Уилке «Основы визуализации данных» — это настоящая кладезь знаний для всех, кто хочет овладеть искусством и наукой визуализации данных. Автор, профессор интегративной биологии, обладает уникальной способностью объяснять сложные концепции простым и доступным языком, что делает книгу полезной как для новичков, так и для опытных специалистов.
С самого начала Уилке подчеркивает важность правильного отображения данных. Он отмечает, что визуализация данных — это не просто способ сделать отчеты более красивыми, но и мощный инструмент для анализа и коммуникации, способный существенно повлиять на интерпретацию информации. Автор проводит читателя через все этапы создания визуализации, от выбора правильного типа диаграммы до настройки осей и использования цветовых схем.
Одним из главных достоинств книги является ее структурированность и систематичность. Каждая глава посвящена отдельному аспекту визуализации, начиная с базовых принципов и заканчивая более сложными техниками. Например, глава, посвященная цветовым схемам, предоставляет исчерпывающие рекомендации по выбору и использованию цветов, учитывая как эстетические, так и функциональные аспекты. Уилке подробно объясняет, как различные цветовые схемы могут влиять на восприятие данных и как избежать распространенных ошибок, таких как чрезмерное использование цветов или недостаточное внимание к людям с дальтонизмом.
Большое внимание уделяется также выбору правильных типов диаграмм для различных типов данных. Автор приводит множество примеров, показывая, какие визуализации наиболее эффективны для представления количественных, категориальных или временных данных. Практические советы и примеры помогают читателю лучше понять, как применять теоретические знания на практике.
Все графики в книге подготовлены с помощью R и ggplot2, но вы не найдете ни строчки кода в книге. Можно отдельно посмотреть код самой книги, так и отдельных графиков.
Похвалы заслуживает глава, посвященная распространённым ошибкам в визуализации данных. Уилке подробно разбирает типичные ошибки, такие как избыточное использование трёхмерных графиков или отсутствие контекста, и предлагает практические решения для их избегания. Это делает книгу не только учебным пособием, но и ценным справочником, к которому можно обращаться в процессе работы.
В целом, «Основы визуализации данных» Клауса Уилке — это обязательное книга для всех, кто работает с данными и хочет научиться представлять их максимально эффективно и понятно. Книга сочетает в себе глубокие теоретические знания и практические советы, что делает её незаменимым инструментом для анализа и визуализации данных. Она помогает не только создавать красивые графики, но и делать ваши данные понятными и убедительными, что особенно важно в эпоху информационного перегруза.
#книги#dataviz#R#ggplot2#ВизуализацияДанных
🤖Краш-тест возможностей chatGPT-4 для создания визуализации данных в R с помощью ggplot2
GPT-4 можно использовать для улучшения визуализации данных в R (ggplot2), что делает его отличным инструментом как для начинающих, так и для продвинутых пользователей R. Мне понравилось, как автор видео общается с chatGPT-4. Хотя код на R иногда содержит ошибки и не работает, весь процесс выглядит очень захватывающим. От создания базовых графиков (смотрите с какой легкостью chatGPT пишет код для пайчарта 🙊 на зависть новичкам) до продвинутых техник использования ChatGPT для поиска данных, анализа и визуализации данных.
▶️ВидеоUsing GPT-4 for Data Viz (R/ggplot).
Мораль: Как мне кажется, с появлением AI люди НЕ потеряют способность к абстрактному мышлению, анализу, или креативность. Использование chatGPT только повысит производительность труда и качество работы человека.
#R#ggplot2#chatGPT4#визуализация_данных#dataviz#полезное