TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #851 · 2.08

Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе. У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи. Вот как это может выглядеть: 1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое. 2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое 3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое 4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98" ...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать. И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт: "Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки). Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы. Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый. #dev

Hashtags

Резултати

Намерени 3 подобни публикации

Търсене: #copy

当前筛选 #copy清除筛选

#Maintenance#copy 尊敬的客戶您好, Dear Valued Customer, 您收到此郵件是因為我們將對 LAX 區域服務器 進行下電維護,您的服務將會受到影響。 You are receiving this email because we will be performing a power-down maintenance on the LAX region servers, which will affect your services. 我們將於 香港時間 2025年9月14日 下午2點至下午4點 期間進行維護,約需 10分鐘的斷電升級操作。 The maintenance will take place on September 14, 2025, from 2:00 PM to 4:00 PM HKT, requiring approximately 10 minutes of downtime for upgrades. 對應的 洛杉磯當地時間為 2025年9月13日 晚上11點至 2025年9月14日 凌晨1點。 This corresponds to Los Angeles local time: September 13, 2025, 11:00 PM to September 14, 2025, 1:00 AM. 在此期間,您的服務將不可訪問,請提前做好業務備份與冗餘切換的準備。 During this time, your services will be unavailable. Please ensure proper backups and redundancy measures are in place. 我們對因此帶來的不便深感抱歉,並將在 Telegram 公告頻道 (https://t.me/backwaves) 中跟進維護進展。 We sincerely apologize for the inconvenience and will provide updates on the Telegram channel (https://t.me/backwaves). 郵件將不再另行通知,維護結束後,您的服務器會自動重新啟動。 No further email notification will be sent. After the maintenance, your server will automatically reboot. 如果您在維護結束後遇到任何問題,歡迎隨時通過網站工單聯繫我們,我們將盡快回覆並協助處理。 If you experience any issues after the maintenance, please feel free to contact us via support ticket on our website, and we will respond promptly. 感謝您的理解與支持。 Thank you for your understanding and continued support. Website: BackWaves.net Channel: @BackWaves Group: @BackWavesIdc