TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #367 · 30.05

Поговорим про ML. Пару дней назад вышла новость о том, что в продажу поступила первая русскоязычная книга, половину текста в которой написала нейросеть ruGPT-3. А до этого вы все наверняка натыкались на очень яркие записи про Dalle и Imagen, где нейросеть по описанию рисует картинку, и получается очень любопытно. Такими темпами скоро нейросети превратятся в крипту: высокотехнологичную вещь, о которой, однако, в среде приличных технарей лучше не упоминать. Потому что то, каким образом это используется, и то, какой образ этому создают в массах, расходится не только с реальностью, но и с определённым уровнем вменяемости. Кстати, ML ещё и может ярко демонстрировать эффект Даннинга-Крюгера. Мем про "Ты чё, пёс, я математик!" нифига не шутка. Человек может считать себя крутым программистом, если научился комбинировать чужие библиотеки на питоне. Хотя на самом деле простейшую практическую задачу решить не способен -- я с такими сталкивался лично. ML-щики вообще пихают свои нейросети куда ни попадя, считая, что это волшебная таблетка и швейцарский нож для любых ситуаций. Мне рассказывали случай, когда на хакатоне по работе с данными выиграл человек, который просто аккуратно вручную подобрал нужные зависимости в Excel :) Глобально же нейросетями пытаются решать три вида задач: 1. Информации в вопросе много, а в ответе нужно мало. Например, распознавание образов и символов. Подбор значений каких-нибудь коэффициентов. Приложение "Хотдог или не хотдог" из сериала Кремниевая Долина. Обычно нейросети справляются с таким очень хорошо. Рукописный ввод распознают шикарно, по фото могут назвать породу собаки, математические формулы читают. Но важно понимать, что под капотом даже у такой нейросети не возникает никаких понятных вам символов. Например, при распознавании рукописного ввода случайный набор пикселей, не имеющий для человека смысла, может быть с той же степенью уверенности интерпретирован нейросетью, как совершенно чёткая буква А. Просто мы на такой случайный набор не попадаем почти всегда, и поэтому всё ок. 2. Информации в вопросе средне, и в ответе нужно средне. Как правило, это предсказание, восстановление недостающих данных, улучшение качества фото, раскрашивание ч/б. С такими задачами нейросети справляются уже средненько. Улучшенный нейросетью снимок сразу видно. Предсказание лишь ненамного точнее, чем случайный выбор. Польза в том, что в обращении такие сети просты, а результат всё-таки дают. Но не стоит их переоценивать. Например, сюда можно отнести задачу суммаризации текста (по большому объёму текстов тебе печатают выжимку). Мои товарищи в одном чате несколько дней игрались с ботом-суммаризатором, и в основном половина написанных им фраз это просто мусор и ерунда для ржача. Но в другой половине всё-таки какой-то совсем небольшой смысл проглядывался. Недостаточный для того, чтобы задалбывать этим ботом участников чата (привет, ребята :) ), но не абсолютный рандом. 3. Информации в вопросе мало, а в ответе нужно много. Это генерация данных: вот как раз написание текстов, составление рисунков, логотипов и так далее. Так вот, по моему скромному, но всё-таки хоть немного компетентному мнению, в таких вопросах нейросети выдают полную херню. И хвалёная логотипная нейросетка Лебедева — тоже полная херня. И распиаренная GPT ничего толкового не пишет. Когда читаешь примеры в новостях-анонсах, сразу думаешь: "Вау, как круто!". Но когда пробуешь сам: ruGPT-3 по уровню осмысленности где-то чуть ниже "Яндекс.Рефератов", если помните такой сервис и суть его работы. Я не знаю, будут ли сети по созданию изображений работать так круто (сейчас доступа к ним ни у кого нет), но книга в соавторстве с человеком стала возможна только по той причине, что в качестве человека взяли Павла Пепперштейна, который берёт случайные комбинации словосочетаний и выдаёт это за литературу. Поверьте: человечество пока что в безопасности касательно захвата машинами. #dev

Hashtags

Резултати

Намерени 4 подобни публикации

Търсене: #o3

当前筛选 #o3清除筛选

⚡️ OpenAI o3-mini — ya está disponible gratis en ChatGPT OpenAI ha lanzado al público general su modelo o3-mini, anunciado a finales del año pasado. Características clave: 🔜El modelo se presenta en dos versiones: o3-mini, con un rendimiento similar al de o1 pero a menor costo, y o3-mini-high, que supera a todos los modelos actuales de OpenAI. 🔜Puedes probar o3-mini de forma gratuita. Con la suscripción Plus tienes acceso a 150 solicitudes al día, y con la suscripción Pro, acceso ilimitado tanto a o3-mini como a o3-mini-high. 🔜o3-mini resuelve entre el 92% y el 93% de las tareas de entrevistas para el puesto de ingeniero investigador en OpenAI, mientras que o1 alcanza un máximo del 83% ⤴️ 🔜 o3-mini es más rápida que los modelos anteriores, especialmente en programación. Además, genera menos alucinaciones al hablar sobre personas y se comunica mucho mejor en otros idiomas además del inglés. 🔜 El modelo es más seguro, menos sesgado y está mejor protegido contra los "jailbreaks" que las versiones anteriores. "En otras palabras, es rápido, económico, inteligente y diseñado para aplastar a DeepSeek", escribe Wired sobre o3-mini. 🔴 OpenAI o3-mini ya está disponible en@GPT4Telegrambot. Incluido en el paquete "ChatGPT + DALL-E 3". #OpenAI#o3#ChatGPT@hiaimediaes

💻 OpenAI presentó una nueva generación de modelos de razonamiento: o3 El CEO de OpenAI, Sam Altman, anunció el nuevo modelo de razonamiento o3 y su versión más pequeña, o3-mini. Las principales ventajas de o3 son: ➡️ o3 escribe código casi al nivel de los desarrolladores de OpenAI. El modelo principal supera a o1 en programación en un factor de aproximadamente 1.5. ➡️ Resuelve tareas a nivel de doctorado un 10% mejor que o1. ➡️ En el benchmark de razonamiento ARC AGI, o3 obtiene una puntuación del 87.5%, superando a los humanos. El resultado de o3-mini es del 76%. La generación anterior, o1, apenas superaba el 30%, y las redes neuronales regulares alcanzaban alrededor del 5%. Más detalles en los gráficos⤴️ 💡 La versión ligera o3-mini estará disponible en tres variantes, que se diferencian en la profundidad del razonamiento. El o3-mini-low está aproximadamente entre el o1 y el o1-mini, mientras que el o3-mini-high supera al o1. "o3 es un modelo muy, muy inteligente, y o3-mini es un modelo increíblemente inteligente pero con un rendimiento y costo realmente buenos", según Altman. Los modelos aún no están disponibles para los usuarios. OpenAI está aceptando solicitudes para pruebas de seguridad. Este fue el último de los 12 regalos de "shipmas" de OpenAI. Lo más interesante: ➡️Versión completa de OpenAI o1 y suscripción Pro por $200 al mes ➡️Generador de videos Sora ➡️Modo video para ChatGPT ➡️Búsqueda web en ChatGPT ➡️ChatGPT en WhatsApp ¿Qué opinas del maratón? ❤️ — ¡Es genial, muchas novedades! 🎃 — Espera, ¿dónde está el GPT-4.5?!?! #noticias#OpenAI#ChatGPT#o3@hiaimediaes

Venture Village Wall 🦄

@venturevillagewall · Post #3607 · 20.12.2024 г., 19:00

o3 & o3-mini Break Benchmark Records The performance of o3 and o3-mini showcases state-of-the-art (SOTA) results across various benchmarks. Key insights include: - Frontier Math scores increased from 2% to 25%. - SWE-Bench achieved 71.7%, a significant leap for a startup that recently raised $200 million with 13.86% earlier this year. - ELO on Codeforces reached 2727, held by only 150 individuals globally. - ARC-AGI model scored 87.5%, breaking a five-year deadlock. - Noteworthy progress on GPQA and AIME benchmarks. Access to o3-mini is currently available to security researchers, while general public access is set for late January. Full access to o3 will follow later. #AI#SOTA#Benchmarks#o3#o3-mini #FrontierMath#SWE-Bench #Codeforces#ELO#ARC-AGI #GPQA#AIME#Funding#Progress#Research#Technology#Innovation

Venture Village Wall 🦄

@venturevillagewall · Post #3606 · 20.12.2024 г., 18:41

O3 and O3-Mini Benchmark Breakthroughs The O3 and O3-Mini models showcase state-of-the-art (SOTA) performance with significant leaps in various benchmarks. Results on Frontier Math have jumped from 2% to 25%. The SWE-Bench model achieved a score of 71.7%, while a startup has raised $200 million following results of 13.86%. ELO on Codeforces reached 2727, surpassing most peers globally. Notably, the ARC-AGI model scored 87.5%, breaking a five-year benchmark. Access for security researchers to O3-Mini starts today, with general access available in late January. #O3#O3Mini#SOTA#Benchmarks#AI#ML#Funding#Codeforces#ARC-AGI #FrontierMath#SWE-Bench #ELO#GPQA#AIME#SecurityResearch#TechUpdates#Innovations#Startups#Performance#AIModels