TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #83 · 11 мај

У строки в Python есть два очень похожих метода. На столько похожих что кажется они делают одно и тоже. Это метод isdigit() и isnumeric() Давайте посмотрим зачем нам два одинаковых метода? И так ли они одинаковы? Очевидно что isdigit() говорит нам, состоит ли строка только из чисел 0-9 >>> '12'.isdigit() True >>> '12x'.isdigit() False >>> '-12'.isdigit() False >>> '12.5'.isdigit() False Можно предположить что isnumeric() делает более глубокий анализ и распознаёт в строке float или отрицательное число. >>> '15'.isnumeric() True >>> '-15'.isnumeric() False >>> '15.2'.isnumeric() False Нет, всё так же как и с другим методом. В чем же тогда разница? Для начала посмотрим следующие примеры: >>> '5'.isdigit(), '5'.isnumeric() # Обычная цифра 5 # True, True >>> '꧕'.isdigit(), '꧕'.isnumeric() # Яванская 5 # True, True >>> '෩'.isdigit(), '෩'.isnumeric() # Синхала 3 # True, True >>> '৩'.isdigit(), '৩'.isnumeric() # Бенгальская 3 # True, True >>> '༣'.isdigit(), '༣'.isnumeric() # Тибетская 3 # True, True >>> '³'.isdigit(), '³'.isnumeric() # 3 верхний индекс (степень) # True, True >>> '𝟝'.isdigit(), '𝟝'.isnumeric() # Математическая двойная 5 # True, True >>> '๔'.isdigit(), '๔'.isnumeric() # Тайская 4 # True, True >>> '➑'.isdigit(), '➑'.isnumeric() # 8 в круге # True, True А теперь примеры в которых, по мнению Python, результаты не равны >>> '¾'.isdigit(), '¾'.isnumeric() # дробь три четверти # False, True >>> '⅕'.isdigit(), '⅕'.isnumeric() # дробь одна пятая # False, True >>> '𒐶'.isdigit(), '𒐶'.isnumeric() # клинопись 3 # False, True >>> '三'.isdigit(), '三'.isnumeric() # 3 из унифицированной идеограммы # False, True >>> '⑩'.isdigit(), '⑩'.isnumeric() # цифра 10 в круге # False, True >>> 'Ⅳ'.isdigit(), 'Ⅳ'.isnumeric() # Римская 4 # False, True >>> '𑇪'.isdigit(), '𑇪'.isnumeric() # Сенегальская архаическая 10 # False, True >>> '𐌢'.isdigit(), '𐌢'.isnumeric() # Этрусская цифра 10 # False, True >>> 'ↂ'.isdigit(), 'ↂ'.isnumeric() # Римская цифра 10000 # False, True >>> '〇'.isdigit(), '〇'.isnumeric() # Символ ККЯ ноль # False, True Получается, что isdigit() говорит нам, является ли символ десятичной цифрой или спецсимволом, имеющим цифирное значение после преобразования. В свою очередь isnumeric() включает все дополнительные символы юникода которые имеют отношения к числовым и цифровым представлениям. Ну и пара примеров в которых в обоих случаях символ не является числом, это эмодзи. >>> '🕙'.isdigit(), '🕙'.isnumeric() # эмодзи 10 часов # False, False >>> '7️⃣'.isdigit(), '7️⃣'.isnumeric() # эмодзи 7 # False, False Также есть еще один дополнительный и весьма полезный метод isdecimal(). Он нам сообщает, можно ли из указанного символа сделать простую десятичную цифру. То есть сработает ли метод int(x) >>> '෩'.isdecimal(), int('෩') # Синхала 3 # True, 3 >>> '➑'.isdecimal(), int('➑') # 8 в круге # False, ValueError Какие выводы? 🔸 При определении цифры в строке isdigit() подходит лучше чем isnumeric(), но оба не гарантируют успешную конвертацию в int 🔸 Для однозначного определения возможности преобразования строки в int лучше подходит метод isdecimal() 🔸 Для однозначного определения символов 0...9 лучше использовать regex Полный список символов юникода которые определяются как numeric #basic

Hashtags

Резултати

Пронајдени 3 слични објави

Пребарај: #nanochat

当前筛选 #nanochat清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8754 · 13.10.2025 г., 20:10

🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа: > • токенизатор (написан на Rust) > • pretraining > • SFT (supervised fine-tuning) > • RL (reinforcement learning) > • оценка модели (eval) Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей. 💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике. Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску. Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score). А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая: - 40+ на MMLU - 70+ на ARC-Easy - 20+ на GSM8K 🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать. 🟠GitHub:https://github.com/karpathy/nanochat 🟠Технические детали:https://github.com/karpathy/nanochat/discussions/1 @ai_machinelearning_big_data #LLM#nanochat#MachineLearning#DeepLearning#AI#GPT

Machinelearning

@ai_machinelearning_big_data · Post #8789 · 16.10.2025 г., 10:05

🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100). Результаты - удивительно хорошие для такой «крошки»: - 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26) - 🧮GSM8K: с 8% до 20% - 🚀 Рост виден на всех этапах - pretraining, SFT и RL Карпати пишет: > «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий. > Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.» 💡Факты: - Nanochat тренируется с нуля - Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3. - Обнолвенный скрипт run1000.sh уже доступен в репозитории 📎 Подробности и отчёт: https://github.com/karpathy/nanochat/discussions/8 Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер). Дальше -оптимизация и возможно, переход к следующему уровню масштабирования. #AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI

Machinelearning

@ai_machinelearning_big_data · Post #8851 · 24.10.2025 г., 22:00

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource