TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #851 · 2.08

Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе. У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи. Вот как это может выглядеть: 1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое. 2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое 3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое 4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98" ...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать. И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт: "Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки). Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы. Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый. #dev

Hashtags

Резултати

Намерени 44 подобни публикации

Търсене: #math

当前筛选 #math清除筛选
Am Neumarkt 😱

@amneumarkt · Post #608 · 01.08.2024 г., 16:35

#math ‘Sensational breakthrough’ marks step toward revealing hidden structure of prime numbers | Science | AAAS https://www.science.org/content/article/sensational-breakthrough-marks-step-toward-revealing-hidden-structure-prime-numbers

Hashtags

https://github.com/rossant/awesome-math/blob/master/README.md 今天分享一份 Github 上的数学资源库,十分详尽的关于学习数学的一切,书籍、杂志、工具等资源。还记得我之前推荐过一个关于数学、物理和哲学入门介绍的博客,Susan Rigetti. 这三门基础学科都可以看看,尤其在学校之外。 接触和学习一个新学科、技能或领域的好处是可以兴趣驱动,最好的方法是看一些相关的视频和书籍,补充相关的基本学科史和常识,这比学校学习有趣得多。#math

Hashtags

Tomoko RD

@tomoko_channel · Post #856 · 17.12.2024 г., 02:03

🔖 A visual proof that a^2 – b^2 = (a b)(a – b) | Hacker News #pinboard#math 代数可视化,让我想起了多年以前看的 3Blue1Brown 线性代数系列,那时候真的是震撼到我了。 https://news.ycombinator.com/item?id=42423409

Tomoko RD

@tomoko_channel · Post #498 · 23.06.2024 г., 11:55

🔖 汪诘:姜萍事件很快就会有结果,做点分析预测 #pinboard#math 如果选项是“姜萍完全不懂高数”和“姜萍具备参赛的水平”,我会押后者; 如果选项是“姜萍完全独立完成比赛”和“姜萍和她老师王闰秋在比赛期间有过探讨交流”,我会押后者; 如果选项是“官方取消姜萍初赛成绩”和“官方认可姜萍初赛成绩”,我会押后者; https://mp.weixin.qq.com/s/1pXy43_x_TtxvYqHAfNs6Q

Tomoko RD

@tomoko_channel · Post #487 · 20.06.2024 г., 08:37

🔖 S2E21. “凉宫春日的忧郁”有几种看法?-- 超级排列数问题_大老李聊数学(全集)_免费在线阅读收听下载 - 喜马拉雅 #pinboard#math 怎样以最快的速度看完“凉宫春日的忧郁”,并把所有可能的顺序都到? 当时就是听了这一期才去看的凉宫春日,现在想来只要是更倾向于单元剧的作品,稍微乱序一下看是没什么问题的。 https://www.ximalaya.com/sound/137462241

Data Science Jobs

@datasciencejobs · Post #2234 · 26.07.2024 г., 12:03

#вакансия#math#удаленно Программист-математик, алгоритмист Формат работы: удаленно с компанией, находящейся в США 🇱🇷 Занятость: полная Компания занимает лидирующие позиции в области распознавания образов. ✅ Задачи: - Разработка, настройка и оптимизация алгоритмов обработки (распознавания, интерпретации) изображений на основе существующего кода на С++ и С#. - Разработка новых алгоритмов. ✅Ожидаем от кандидата: - Математическая подготовка: численные методы, линейная алгебра, статистика, методы оптимизации. - Способность решать сложные задачи, которые не поддаются полной формализации. - Умение разрабатывать алгоритмы. - Опыт разработки С++/С#. - Умение разбираться в чужом тексте программ. - Желание развиваться в области ML/DL. ✅Будет преимуществом: - Опыт разработки алгоритмов Image Processing, Machine Learning, Deep Learning. - Знание современных методов классификации/регрессии/кластеризации. - Опыт работы на Python. - Знание английского языка. Для связи: @people_matters

推个今天看的电影:知无涯者(The Man Who Knew Infinity),拉马努金传记的同名纪录片。可以了解数学天才或者说来自未来的人——拉马努金的一生。神启式的天赋,遗留了很多发现的待证明数学公式,其中一些已经可以应用在黑洞研究和量子物理方面。如果数学领域有个 iceberg,那么拉马努金的数学成就毫无疑问是最黑暗和最神秘的。 《美丽心灵》,《模仿游戏》和《心灵捕手》类的天才传记,有个共同点,都处在边缘甚至脆弱中,我前面提过,正是这种边缘往往游离着神秘的震撼人心的力量和惊奇。#math#film https://movie.douban.com/subject/3269088/

Hashtags

ПредишнаСтр. 1 от 4Следваща