Намери подобно съдържание

Изходен канал @clockstackwheels · Post #851 · 2.08

Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе. У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи. Вот как это может выглядеть: 1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое. 2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое 3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое 4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98" ...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать. И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт: "Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки). Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы. Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый. #dev

Hashtags

#dev

Резултати

Намерени 4 подобни публикации

Търсене: #dae

当前筛选 #dae清除筛选

Data Science Jobs

@datasciencejobs · Post #2123 · 28.05.2024 г., 17:50

Намери подобни Прегледай

#DAE#Москва#офис Компания: ЦРТ (Центр речевых технологий), аккредитованная IT компания. 📈Более 33 лет создаём продукты и решения на основе разговорного искусственного интеллекта, машинного обучения и компьютерного зрения: от диктофона до системы безопасности национального масштаба. 🔝Приглашаем в команду Дата аналитика-инженера на масштабный проект с нашим Генеральным партнером. Направления работы команды: • Расследования по качеству данных – проверка и сопоставление разных частей базы и системы. • Описание и администрирование настроек таблиц и процессов • Построение витрин по всем каналам обращений клиента с Банком • Актуализирование кода вслед за изменением архитектурного ландшафта систем и процессов • Разработка алгоритма поиска аномалий в данных и мониторингов • Расчет KPI по сокращению жалоб клиентов 💯Для позиции нужны: • про-активный подход к решению задач и критическое восприятие результатов собственных исследований; • Высшее техническое образование; • SQL (Postgre SQL, Oracle, сложные запросы, join’ы, вложенные запросы, оконные функции и т.д.) • Python (numpy, pandas, scipy), умение работать в jupyther notebook. • Аналитический склад ума • Jira, Confluence 🔄 Став частью компании у тебя будет: - оформление по ТК РФ; - заработная плата в рынке, учитывая опыт работы; - гибкое начало рабочего дня; - отличный офис в Москве м. Кутузовская; - ДМС + страхование жизни при выезде за рубеж; - Сильные наставник и коллеги, возможность профессионального роста; - Выгодные условия на ипотеку и кредит; - Финансирование обучения; - Активная корпоративная жизнь; - Занятия спортом и другие активности. 🤝 Готова рассмотреть резюме и ответить на вопросы @misskatrinka

Hashtags

#dae #москва #офис

GitHub Trends

@githubtrending · Post #14774 · 01.06.2025 г., 12:00

Намери подобни Прегледай

#cplusplus#3mf#android#asset_pipeline#assets#assimp#c_plus_plus#collada#dae#fbx#fbx_exporter#game_development#gamedev_tool#gamedevelopment#gltf#gltf2#ifc#patreon#python#stl The Open Asset Import Library (Assimp) is a tool that helps load many different 3D file formats into a common format. It supports over 40 formats for importing and several for exporting. Assimp works on various platforms like Windows, macOS, Linux, Android, and iOS. It also provides tools to improve the 3D models, such as fixing errors and making them look better. This library is useful for developers because it simplifies working with different 3D file types, making it easier to create and manage 3D content across different systems. https://github.com/assimp/assimp

Hashtags

#cplusplus #3mf #android #asset_pipeline #assets #assimp #c_plus_plus #collada #dae #fbx #fbx_exporter #game_development #gamedev_tool #gamedevelopment #gltf #gltf2 #ifc #patreon #python #stl

𝚂𝚙𝚎𝚎𝚍𝙲𝚎𝚗𝚝𝚛𝚎

@SpeedCentre · Post #12776 · 09.10.2025 г., 00:21

Намери подобни Прегледай

《参数汇总：代理工具的协议支持 & Apps与通用核心的隶属》如两张图所示 VLESS 家族过于庞大，仅节选机场节点常用的特性/分支。待有统计数据后，会再补充一些信息…… To be announced…… 网页版地址: https://www.haitunt.org/cheatsheet.html ⚠️这不是一份测评，而是纯粹的协议参数汇总表 #app#协议#代理工具#代理核心#代理协议#mihomo#singbox#xray#v2ray#v2fly#dae#大鹅#surge#小火箭#loon#stash#qx#surfboard#vless#reality#encryption#hy2#anytls#windows#win#macos#linux#openwrt#路由器#华硕#小米#软路由#插件#内网穿透#参数#速查手册#cheatsheet

Clash爱好者

@clashios · Post #58 · 09.10.2025 г., 05:54

Намери подобни Прегледай