TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #367 · 30.05

Поговорим про ML. Пару дней назад вышла новость о том, что в продажу поступила первая русскоязычная книга, половину текста в которой написала нейросеть ruGPT-3. А до этого вы все наверняка натыкались на очень яркие записи про Dalle и Imagen, где нейросеть по описанию рисует картинку, и получается очень любопытно. Такими темпами скоро нейросети превратятся в крипту: высокотехнологичную вещь, о которой, однако, в среде приличных технарей лучше не упоминать. Потому что то, каким образом это используется, и то, какой образ этому создают в массах, расходится не только с реальностью, но и с определённым уровнем вменяемости. Кстати, ML ещё и может ярко демонстрировать эффект Даннинга-Крюгера. Мем про "Ты чё, пёс, я математик!" нифига не шутка. Человек может считать себя крутым программистом, если научился комбинировать чужие библиотеки на питоне. Хотя на самом деле простейшую практическую задачу решить не способен -- я с такими сталкивался лично. ML-щики вообще пихают свои нейросети куда ни попадя, считая, что это волшебная таблетка и швейцарский нож для любых ситуаций. Мне рассказывали случай, когда на хакатоне по работе с данными выиграл человек, который просто аккуратно вручную подобрал нужные зависимости в Excel :) Глобально же нейросетями пытаются решать три вида задач: 1. Информации в вопросе много, а в ответе нужно мало. Например, распознавание образов и символов. Подбор значений каких-нибудь коэффициентов. Приложение "Хотдог или не хотдог" из сериала Кремниевая Долина. Обычно нейросети справляются с таким очень хорошо. Рукописный ввод распознают шикарно, по фото могут назвать породу собаки, математические формулы читают. Но важно понимать, что под капотом даже у такой нейросети не возникает никаких понятных вам символов. Например, при распознавании рукописного ввода случайный набор пикселей, не имеющий для человека смысла, может быть с той же степенью уверенности интерпретирован нейросетью, как совершенно чёткая буква А. Просто мы на такой случайный набор не попадаем почти всегда, и поэтому всё ок. 2. Информации в вопросе средне, и в ответе нужно средне. Как правило, это предсказание, восстановление недостающих данных, улучшение качества фото, раскрашивание ч/б. С такими задачами нейросети справляются уже средненько. Улучшенный нейросетью снимок сразу видно. Предсказание лишь ненамного точнее, чем случайный выбор. Польза в том, что в обращении такие сети просты, а результат всё-таки дают. Но не стоит их переоценивать. Например, сюда можно отнести задачу суммаризации текста (по большому объёму текстов тебе печатают выжимку). Мои товарищи в одном чате несколько дней игрались с ботом-суммаризатором, и в основном половина написанных им фраз это просто мусор и ерунда для ржача. Но в другой половине всё-таки какой-то совсем небольшой смысл проглядывался. Недостаточный для того, чтобы задалбывать этим ботом участников чата (привет, ребята :) ), но не абсолютный рандом. 3. Информации в вопросе мало, а в ответе нужно много. Это генерация данных: вот как раз написание текстов, составление рисунков, логотипов и так далее. Так вот, по моему скромному, но всё-таки хоть немного компетентному мнению, в таких вопросах нейросети выдают полную херню. И хвалёная логотипная нейросетка Лебедева — тоже полная херня. И распиаренная GPT ничего толкового не пишет. Когда читаешь примеры в новостях-анонсах, сразу думаешь: "Вау, как круто!". Но когда пробуешь сам: ruGPT-3 по уровню осмысленности где-то чуть ниже "Яндекс.Рефератов", если помните такой сервис и суть его работы. Я не знаю, будут ли сети по созданию изображений работать так круто (сейчас доступа к ним ни у кого нет), но книга в соавторстве с человеком стала возможна только по той причине, что в качестве человека взяли Павла Пепперштейна, который берёт случайные комбинации словосочетаний и выдаёт это за литературу. Поверьте: человечество пока что в безопасности касательно захвата машинами. #dev

Hashtags

Резултати

Намерени 109 подобни публикации

Търсене: #nlp

当前筛选 #nlp清除筛选

🔎 Группа британских ученых создала ИИ-алгоритм для автоматической обработки и извлечения огромных объемов информации из различных документов. Система анализирует содержание и структуру счет-фактур, налоговых форм и других цифровых данных, а затем сортирует их по категориям. 🗣 По словам исследователей, технология упростит открытие банковских счетов, утверждение ипотечных кредитов, ответы на запросы клиентов и обработку страховых требований, ускорив проверку на мошенничество и извлечение сведений из удостоверяющих личность документов. #NLP

Hashtags

🗣 Компания Veritone запустила платформу Marvel.AI для клонирования голоса знаменитостей. По словам разработчиков, любой желающий может создать цифровую копию своего голоса и выставить ее на продажу. Затем образцы речи можно использовать для озвучивания новостей, рекламных роликов и другого контента. 💿 Также платформа может оцифровывать голоса умерших людей. Для этого ей необходимо предоставить их архивные голосовые записи. #NLP

Hashtags

DPS Build

@dps_build · Post #52 · 12.03.2023 г., 11:07

A team of ex-OpenAI fellows at Together have released a 20B chat-GPT model, fine-tuned for chat using EleutherAI's GPT-NeoX-20B, with over 43 million instructions under the Apache-2.0 license. https://github.com/togethercomputer/OpenChatKit https://www.together.xyz/blog/openchatkit #nlp

Hashtags

DPS Build

@dps_build · Post #51 · 12.03.2023 г., 03:50

Haystack • Ask questions in natural language and find granular answers in your documents. • Perform semantic search and retrieve documents according to meaning, not keywords. • Use off-the-shelf models or fine-tune them to your domain. • Use user feedback to evaluate, benchmark, and continuously improve your live models. • Leverage existing knowledge bases and better handle the long tail of queries that chatbots receive. • Automate processes by automatically applying a list of questions to new documents and using the extracted answers. https://github.com/deepset-ai/haystack #nlp

Hashtags

DPS Build

@dps_build · Post #49 · 11.03.2023 г., 23:33

为什么 ChatGPT API 是革命性的? 这几天读了读 ChatGPT API 的文档,太惊喜了: 1. 最新版的 API 是基于 gpt-turbo-3.5 的,这一版的 API 的交互是革命性的。得益于模型的强大,用户不需要提交各种参数,只要写 prompt 就行。也就是说 API 的 UX 被大大简化。用户不需要在请求里写参数,只要在 prompt 里写人话,模型自行能够明白用户的表达。 2. 更厉害的是,gpt 这类模型可以接受 chain of thoughts (COT) 的 prompt,如果用户觉得结果不满意,可以继续提交请求让模型生成更好的答案。在李宏毅的讲座里,他给出了一个例子就是,如果让模型直接解答一个复杂的数学题,效果可能不是很好,但是加上 let’s do it step by step 的 prompt 之后,模型给出了一步步的推导过程,结果大为改善。 3. 除了直接调用 ChatGPT API 的基础模型以外,OpenAI 还提供了让用户提交自己的 embedding 和 fine-tuning 等定制模型的方式,这两种都可以通过 API 来实现,不需要额外的步骤。不过,最新的 API 暂时不支持 fine-tuning 4. 以前随便开发一个 NLP 的模型,基本上开发周期是以月计算的,有了 ChatGPT API 之后,抛去准备数据的时间,开发周期可以以小时计算。我从零开始开始读文档,到写出一个 Q&A 生成的项目,只花了半天时间。放在以前,至少要花一两个月的时间吧。 #nlp

Hashtags

Repositorio data science

@repo_science · Post #3208 · 21.05.2023 г., 13:32

#python#NLP 🐍 Investment Analysis with Natural Language Processing NLP Rigorously Leverage Python, Data Science & NLP Techniques for Sentiment Analysis and Financial Analysis | Core Finance 🔗Link ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----

Hashtags

AI Happens

@aihappens · Post #21 · 26.02.2019 г., 06:30

#nlp#news Опасный ИИ –– OpenAI создала генератор текстов, который работает слишком хорошо Алгоритм GPT-2, натренированный на 40 гигабайтах текстов из интернета, научился писать осмысленные тексты. Он предсказывает каждое следующее слово, подходящее по стилю и содержанию. OpenAI решила не выкладывать в открытый доступ полноценный программный код, полагая, что алгоритм может быть опасным, что сильно расстроило сообщество, ведь компания создавалась именно на принципах полной открытости полученных результатов. Почему важно: В 2015 году лаборатория, основанная Илоном Маском, зарядилась альтруистической целью –– создавать ИИ на благо человечества. Но это было 4 года назад, а сейчас OpenAI побоялась выкладывать свою разработку в открытый доступ. Уж слишком высока вероятность, что ИИ быстро переманят на сторону зла и будут использовать для генерации фейковых новостей и спама. OpenAI создали мощного противника человечества в Dota 2, теперь –– идеального писателя, которому не нужно вдохновение. Эта новость –– отличный повод поговорить о NLP (направление ML по обработке текста) и его ключевых проблемах. Даже самые огромные бюджеты, которые компании тратят на попытки автоматизации службы поддержки и ответы в чатах пользователям, упираются в число 30%. Это средний объем автоматизации сообщений, выше которого прыгнуть сложно, даже внутри одного маленького домена тем. NLP ждет какого-то фундаментального открытия, которое позволит перейти от статистических методов к полноценному deep learning подходу. Возможно алгоритм GPT-2 поможет сдвинуть NLP с текущей мертвой точки.

Hashtags

🗣Googleподелилась прогрессом в создании Universal Speech Model (USM), поддерживающей 1000 различных языков. По данным разработчиков, модель имеет 2 млрд параметров. Ее обучили на 12 млн часов речи и 28 млрд предложений. 🌐 На сегодня USM поддерживает более 100 языков. Модель уже используют в YouTube для автоматического создания субтитров. #Google#NLP

Hashtags

🗣Googleразработала систему голосовой идентификации Speaker ID для колл-центров. При первом взаимодействии абонента с ИИ, сервис предложит ему зарегистрироваться и предоставить образец речи. Система не требует специального текста или пароля — после верификации она определит звонящего по трехсекундному фрагменту голоса. ⚙️ Speaker ID является частью платформы Contact Center AI. #Google#NLP

Hashtags

🗣 Китайские разработчики представили языковую модель WuDao 2.0. По их словам, она превосходит аналогичные технологии Google и OpenAI WuDao 2.0 использует 1,75 трлн параметров для имитации разговорной речи, написания текстов и понимания изображений. Она работает с китайским и английским языками благодаря изучению 4,9 терабайт различных данных. Разработчики заявили, что побили рекорд компании Google, которая в январе 2021 года представила Switch Transformer с 1,6 трлн параметров. До этого крупнейшей языковой моделью была OpenAI GPT-3 со 175 млрд параметров. 🤝 Исследователи также сообщили, что уже нашли 22 партнеров, в числе которых производитель смартфонов Xiaomi, служба доставки Meituan и платформа для обмена короткими видео Kuaishou. #Китай#NLP

💬Alexa AIпредставила многоязычную нейросеть-трансформер AlexaTM с 20 млрд параметров. Модель способна изучать новые задачи по нескольким примерам и переводить их без вмешательства человека. Алгоритм основан на архитектуре кодер-декодер. Для тренировки нейросети исследователи использовали комбинацию задач шумоподавления и каузально-языкового моделирования. ☝️ По данным разработчиков, AlexaTM превосходит аналоги в выполнении задач обобщения и машинного перевода, а углеродный след при ее тренировке составляет всего пятую часть от выбросов при обучении GPT-3. #Amazon#NLP

Hashtags

123•••910
ПредишнаСтр. 1 от 10Следваща