AML

@MachineLearningResearch

Technologies

ALGORITHMS MACHINE LEARNING

Subscribers136Current channel subscribers

Tracked posts812Indexed post count

Recent reach2,755Sum of recent post views

Recent posts

Page 64 of 68 · 812 posts

Posted May 22

View

Новый методSoft Thinking, который позволяет ML рассуждать эффективнее — с меньшим количеством токенов при сохранении или даже улучшении точности Soft Thinking - вместо выбора одного токена модель сохраняет полное распределение вероятностей — создает "концептуальные токены" Это позволяет создать "суперпозицию путей рассуждения", где модель может исследовать множественные траектории параллельно Это направление может быть интересным для: • Финтех • EdTech • Аналитические платформы Бизнес-эффекты: - Снижение затрат на API-вызовы (меньше токенов = меньше платежей) - Ускорение работы приложений с вычислениями - Простота внедрения — не нужно переобучать модели Ключевые преимущества 1.Абстрактное мышление 2. Параллельное исследование 3. Training-free подход 4. Stop механизм Ограничения: - Улучшения не революционные - Протестировано только на математике и коде - Могут возникать проблемы стабильности при длинных рассуждениях - Пока исследовательская стадия

20 views

Posted May 22

View

Если книга Карра дала ему определенное направление в работе, то уж во всяком случае она не имела ничего общего с его методами, наиболее важные из которых абсолютно оригинальны Его интуиция опиралась на аналогии, часто весьма отдалённые, и, в необычайной мере, на эмпирическую индукцию, основанную на числовых примерах Не имея в своем распоряжении теоремы Коши, он, естественно, много работал с преобразованиями двойных интегралов и обращениями порядка интегрирования в них Но его наиболее важным орудием, по-видимому, являлась высоко развитая техника преобразований расходящихся рядов и интегралов (Хотя такие методы хорошо известны, не подлежит сомнению, что он открыл их совершенно самостоятельно) Он не располагал строгими доказательствами законности своих операций Он не интересовался строгостью, которая, кстати, в анализе за пределами студенческих работ не имеет первостепенного значения и может быть при наличии настоящей идеи всегда внесена любым компетентным профессионалом Возможно, что Рамануджан вообще не имел чёткого представления о том, что сейчас в математике понимается под доказательством Если существенное, хотя бы и небольшое, рассуждение в сочетании с эмпирическими данными и интуитивными догадками давало ему субъективную уверенность в правильности результата, то больше он ничем не интересовался Одним из второстепенных признаков его гения является тот факт, что он никогда не ощущал необходимости в чём-либо аналогичном теореме Коши С её помощью он дошел бы до некоторых своих результатов гораздо быстрее и проще Но его собственные методы позволяли ему обозревать весь круг вопросов с такой же полнотой и с такой же уверенностью воспоминания Дж. И. Литлвуда о С. Рамануджане («Математическая смесь)

24 views

Posted May 22

View

AML pinned «Google дропнули 68-страничный гайд по промптам Здесь можешь ознакомиться с ним подробнее А ниже выжимка всего самого важного, но переведённая на человеческий язык — 11 советов: 1. Используй качественные примеры (Few-shot prompting) Добавь 2–5 хороших примеров…»

— views

Posted May 21

View

Завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте Сначала самое жаркое: - Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня - Imagen 4 — опять же, лучше во всём своего предшественника Остаётся проверить, вдруг это новая SOTA? - Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи - AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги) Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay Сам AI мод уже должен быть доступен, но не весь его функционал Летом обещают завезти туда и Deep Search - Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ML-генератора изображений (на базе Imagen) Доступно в Labs с сегодняшнего дня - Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks" - Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана) Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App - Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска В целом, нейронке теперь будет известно о вас всё Как-то крипово даже. Обещают "скоро" Для технарей: - Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google - Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике 1479 токенов в секунду это не шутка - Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам (Видимо, побочный эффект Agent mode) - Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22 % эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash Можно заценить в ai.studio и пр. - API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом Уже доступно - Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц

40 views

Posted May 21

View

Google дропнули 68-страничный гайд по промптам Здесь можешь ознакомиться с ним подробнее А ниже выжимка всего самого важного, но переведённая на человеческий язык — 11 советов: 1. Используй качественные примеры (Few-shot prompting) Добавь 2–5 хороших примеров в промпт, и модель начнёт лучше понимать, какой тебе нужен стиль и формат Можно вставить даже нестандартные кейсы (edge cases) — это помогает, но не перебарщивай, иначе модель начнёт «запоминать» примеры слишком буквально (это называется оверфит, или переобучение) 2. Начни с простого Короткий, чёткий, глагольный промпт работает лучше Пример: “Сформулируй заголовок для поста” — лучше, чем “Мне бы хотелось, чтобы ты подумал, как можно было бы озаглавить этот текст...” 3. Заранее объясняй, что ты хочешь получить Укажи структуру, стиль и объём Например: “Сделай краткое резюме в 3 пунктах, каждый пункт — не больше одного предложения” Модель не должна догадываться — говори прямо 4. Формулируй позитивно Проси, что делать, а не что не делать Пример: “Ответь кратко” вместо “Не пиши длинный текст” 5. Используй переменные Если в промпте есть данные, которые будут меняться — выделяй их в фигурные скобки Пример: “Составь описание для товара {название} с учётом {аудитория}” Это поможет быстро масштабировать промпт под разные задачи 6. Играй с форматами входа Нейросети хорошо считывают списки, таблицы и даже JSON-структуры Это помогает сфокусировать модель на нужных частях запроса 7. Тестируй при каждой смене модели GPT-4о и GPT-4.1 реагируют по-разному даже на одинаковые промпты Не ленись перепроверить, особенно если заметил странные или нестабильные ответы 8. Запрашивай структурированный вывод Проси вывод в виде JSON или CSV (форматы, которые удобно парсить скриптами) 9. Сохраняй старые версии Если тестируешь промпты на регулярной основе — веди таблицу: какой промпт, какие настройки, какой результат Это сильно экономит время и помогает не наступать на одни и те же грабли 10. Chain-of-Thought (цепочка размышлений) Если задача требует логики — добавь в промпт: “Давай рассуждать шаг за шагом” Это помогает нейросети не скакать к ответу, а пройти путь осознанно Но не переусердствуй: для простых задач такой подход избыточен 11. Step-back промптинг (шаг назад) Для сложных вопросов попроси модель сначала рассмотреть более общую тему, а потом применить эти знания к конкретной задаче Например: "Прежде чем ответить на вопрос о криптовалютах, объясни основные принципы блокчейна" Это заставляет нейросеть сначала активировать свои базовые знания, а потом уже строить на них детальный ответ Отлично работает для узкоспециализированных тем и снижает число ошибок, но увеличивает размер ответа

766 views

Posted May 21

View

Google сегодня выпустит новую функцию - ИИ-аватаров Google создают полностью автоматизированную рабочую среду, где ИИ берет на себя все аспекты коммуникации, от письменной до визуальной Коммуникация становится симуляцией: - Ваши письма пишет ML в вашем стиле…

38 views

Posted May 21

View

31 views

Posted May 21

View

Google DeepMind представил Gemini Diffusion — новую языковую модель, которая в отличие от большинства современных ИИ-моделей (GPT, Claude, Llama), которые генерируют текст последовательно Gemini Diffusion применяет диффузионный метод, уже доказавший свою эффективность в генерации изображений и видео Саммари первого дня конференции тут Диффузионный процесс работает иначе: вместо последовательного предсказания токенов слева направо, модель начинает с шума и постепенно "очищает" его, формируя весь текст одновременно Этот подход позволяет итеративно улучшать решения, что особенно полезно для задач программирования и математики До сих пор считалось, что авторегрессивные модели всегда будут превосходить диффузионные по качеству текста Google DeepMind опровергла этот тезис, продемонстрировав не только сопоставимое качество, но и впечатляющую скорость — 10.095 токенов за 12 секунд Диффузионный подход может предложить: 1. Большую скорость генерации 2. Лучший контроль над выводом 3. Новые творческие возможности 4. Иные подходы к решению сложных задач

22 views

Posted May 21

View

Конференция Google I/O 2025 показала стратегию гиганта — поглотить функционал нишевых ML-решений в единую интегрированную рсистему Конец эры "чистого поиска" Новый AI Mode в поиске проводит глубокие исследования с сотнями запросов, строит визуализации, использует ваши данные из Gmail и Drive, а также агентно выполняет действия вместо вас Perplexity и подобные сервисы рискуют стать лишними, когда их преимущества становятся встроенными функциями Google Экосистема ML-агентов с протоколом Agent2Agent превращает Gemini в "операционную систему" цифрового мира ML перестаёт быть отдельным сервисом и становится средой Veo 3, Flow, Android XR и Google Beam — части единого пазла, где цифровой и физический миры сливаются в новый опыт "расширенного восприятия", где ML анализирует всё Ключевые анонсы: Gemini 2.5 Pro с режимом Deep Think — система рассуждений с параллельным мышлением Gemini Diffusion — новый подход к генерации текста через пошаговое "очищение" из шума AI Mode в Google Search с добавлением: • Personal Context — персонализированный поиск с Gmail • Deep Search — сотни поисков с созданием отчетов • Search Live — поиск через камеру в реальном времени • Визуализация данных для финансов и спорта Android XR для очков и гарнитур в партнерстве с Samsung, Gentle Monster и Warby Parker Project Moohan от Samsung — первое устройство в 2025 году Flow — инструмент для создания фильмов с ML, объединяющий Veo, Imagen и Gemini Veo 3 — генерация видео со звуком и диалогами Imagen 4 совершенствует создание изображений Новая электронная коммерция: Gemini в Chrome, Gemini Live с функцией шеринга камерой, Agent Mode и персонализированные ответы в Gmail Google Meet с переводом речи в реальном времени Google Beam — трансформация 2D видеосвязи в 3D опыт с отслеживанием головы до миллиметра Project Mariner выполняет до 10 задач одновременно с функцией Teach and Repeat Project Astra с улучшенным голосовым выводом и управлением компьютером

402 views

Posted May 20

View

NVIDIA представила технологию, позволяющую роботам "видеть сны" внутри генеративных видеомоделей Что это за технология и в чем стратегия NVIDIA? Новая технология называется DreamGen, которая использует видеомодели ИИ типа Sora для создания "снов" — фотореалистичных симуляций, в которых робот выполняет различные действия Статья тут Начиная с простой задачи "захвата и перемещения", гуманоидный робот научился 22 новым действиям: поливать, складывать, черпать — никогда не видя этих команд раньше В чем стратегия NVIDIA? Заэтим проектом стоит несколько целей: • Создание замкнутойэкосистемы железо-софт-данные GPU NVIDIA → обучение видеомоделей → генерация "снов" роботов → обучение роботов На каждом этапе нужно оборудование NVIDIA • Решает главную проблему робототехники - данные Сбор реальных данных для обучения роботов дорог и медленен NVIDIA предлагает альтернативу: бесконечный поток синтетических данных • Создание универсальной платформы для робототехники. NVIDIA становится не просто поставщиком оборудования, а владельцем платформы, определяющей будущее робототехники Монополия нового типа • Готовится к волне роботизации Представьте, любой робот может быстро научиться новым навыкам без многолетних разработок и тысяч часов тренировок. NVIDIA создаёт инфраструктуру для этого будущего уже сейчас • Стратегия "второго порядка" Не просто создание ИИ, а создание "ИИ, который обучает других ИИ" - это мультипликативный эффект, который позволяет NVIDIA контролировать не только текущее состояние рынка, но и его эволюцию NVIDIA готовится к грядущей роботизации многих отраслей и заранее создает технологический задел, который позволит им доминировать на этом рынке

614 views

Posted May 19

View

На встрече, организованной венчурным фондом Sequoia, Джефф Дин сказал следующее: В ближайшие 12 месяцев ИИ: - достигнет уровня младшего инженера-программиста - будет способность запускать тесты, отлаживать проблемы с производительностью и использовать инструменты разработки Следующие 1-2 года(до 2027 года): - Функциональные роботы смогут работать в сложных условиях - Начальная способность - выполнять 20 полезных задач на одного робота - Дорогие продукты, но с развитием технологий — до 1000+ задач и снижение затрат - Значительное улучшение инфраструктуры по сравнению с текущей сложностью TPU/CUDA В ближайшие несколько лет (до 2028–2030 годов): - Аппаратное обеспечение для вывода ИИ станет в 50.000 раз эффективнее - Продукты для управления командами из 50 виртуальных стажеров - Агенты станут более автономными, но всё ещё будут нуждаться в человеческом контроле - ИИ будет встроен в веб-браузеры для помощи в вычислениях - Оптическое распознавание текста на вкладках, доступ к необработанным данным, автоматизация задач

372 views

Posted May 19

View

История компьютерных технологий — это история компромиссов между сложностью, скоростью и энергоэффективностью В 1961 году физик Рольф Ландауэр совершил открытие, перевернувшее представление о фундаментальных пределах вычислений: он доказал, что стирание бита информации неизбежно приводит к выделению тепла Этот принцип, известный как принцип Ландауэра, показал, что классические компьютеры, основанные на необратимых операциях (например, логические элементы AND или OR), принципиально ограничены термодинамически Каждый удалённый (стёртый) бит информации — а в традиционных архитектурах это происходит постоянно — увеличивает энтропию системы, превращая вычисления в «горячий» и энергозатратный процесс Но что, если вычисления можно сделать обратимыми? Представьте себе вычислительное устройство, в котором каждая операция сохраняет достаточно информации, чтобы её можно было «отмотать» назад Такую возможность в 1973 году описал Чарльз Беннет, предложив концепцию обратимых вычислений В его модели логические элементы не уничтожают входные данные, а преобразуют их так, чтобы исходное состояние всегда можно было восстановить Это не просто теоретическая утопия — обратимость стала краеугольным камнем квантовых вычислений, в которых сохранение квантовой информации критически важно для подавления декогеренции Ключевая идея обратимости проста: для каждого выходного состояния должна существовать ровно одна комбинация входных данных В классических вычислениях это невозможно — например, зная результат операции 0 = AND(0, 0) и 0 = AND(0, 1), нельзя определить исходные биты Обратимые же элементы, такие как вентиль Тоффоли (управляемое управляемое НЕ), сохраняют все входные данные: зная выход, можно однозначно восстановить вход Именно такие элементы лежат в основе квантовых схем, в которых каждая операция — это унитарное преобразование, обратимое по определению Обратимые вычисления — не просто абстракция для квантовых технологий Они меняют сам подход к проектированию алгоритмов: вместо последовательного «сжигания» данных мы создаём преобразования, сохраняющие информацию Это открывает пути к компьютерам с нулевым тепловыделением (в идеальном случае) и принципиально новым архитектурам Уже сегодня обратимые методы используются в криптографии для создания верифицируемых вычислений и в оптимизации квантовых алгоритмов, в которых каждый «откат» операции экономит кубиты Возможно, через десятилетия именно обратимость станет главным принципом не только квантовых, но и классических систем, завершив цикл развития, начатый Рольфом Ландауэром Пока же это мост между использованием кремниевых транзисторов и квантовой суперпозиции — мост, на котором рождаются технологии завтрашнего дня

426 views

1 2•••5•••10•••15•••20•••25•••30•••35•••40•••45•••50•••55•••60•••62 636465 66 67 68

← PreviousPage 64 of 68Next →