TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #309 · 2 фев.

Метод строки split() разделяет строку на несколько строк по указанному символу >>> "a_b_c".split('_') ['a', 'b', 'c'] Можно указать максимальное количество разделений >>> "a_b_c".split('_', 1) ['a', 'b_c'] Или резать с другой стороны с помощью rsplit() (right split) >>> "a_b_c".rsplit('_', 1) ['a_b', 'c'] А что будет если оставить аргументы пустыми? >>> "a_b_c".split() ['a_b_c'] Получаем список с одним элементом, потому что по умолчанию используется пробельный символ. >>> "a b c".split() ['a', 'b', 'c'] То есть это равнозначно такому вызову? >>> "a b c".split(" ") ['a', 'b', 'c'] Кажется да, но нет! Давайте попробуем добавить пробелов между буквами >>> "a b c".split(" ") ['a', '', '', 'b', '', '', 'c'] И вот картина уже не так предсказуема 😕 А вот что будет по умолчанию >>> "a b c".split() ['a', 'b', 'c'] Всё снова красиво! 🤩 По умолчанию в качестве разделителя используется любой пробельный символ, будь то табуляция или новая строка. Включая несколько таких символов идущих подряд. А также игнорируются пробельные символы по краям строки. >>> "a\t b\n c ".split() ['a', 'b', 'c'] Аналогичный способ можно собрать с помощью регулярного выражения. Но пробелы по краям строки придется обрабатывать дополнительно. >>> import re >>> re.split(r"\s+", ' a b c '.strip()) ['a', 'b', 'c'] Здесь тоже можно указать количество разделений >>> re.split(r"\s+", 'a b c', 1) ['a', 'b c'] А что если мы хотим написать красиво, то есть split() без аргументов, но при этом указать количество разделений? В этом случае первым аргументом передаём None >>> "a\n b c".split(None, 1) ['a', 'b c'] Данный метод не учитывает строки с пробелами, взятые в кавычки 'a "b c" '.split() ['a', '"b', 'c"'] Но для таких случаев есть другие способы. #tricks#basic

Резултати

Пронајдени 3 слични објави

Пребарај: #retrieval

当前筛选 #retrieval清除筛选
GitHub Trends

@githubtrending · Post #15265 · 03.11.2025 г., 12:00

#python#ai#llm#rag#reasoning#retrieval PageIndex is an advanced AI tool that helps you find the most relevant information in long professional documents by thinking and reasoning like a human expert, rather than just matching keywords. It organizes documents into a clear tree structure, similar to a table of contents, and searches through this structure to give precise, trustworthy answers with exact page references. This method avoids the common problems of traditional vector-based search, making it ideal for complex reports, legal texts, or financial filings. You can use it easily via cloud services or run it locally, improving your ability to analyze and understand large documents quickly and accurately. https://github.com/VectifyAI/PageIndex

Machinelearning

@ai_machinelearning_big_data · Post #8801 · 17.10.2025 г., 10:13

⚡️ Omni-Embed-Nemotron - новая единая модель от NVIDIA для поиска по тексту, изображениям, аудио и видео Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление. - Поддержка всех типов данных: текст, изображение, аудио, видео. - Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста). - Контекст - до 32 768 токенов, размер embedding — 2048. - Оптимизирована под GPU, поддерживает FlashAttention 2. Это делает её идеальной для: - кросс-модального поиска (поиск текста по видео или изображению); - улучшения RAG-проектов; - систем мультимодального понимания контента. Просто, быстро и эффективно - всё в одном открытом решении. 🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b @ai_machinelearning_big_data #crossmodal#retrieval#openAI#NVIDIA#OmniEmbed#multimodal#AIModels#OpenSource#Search#UnifiedEmbedding