TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #851 · 2.08

Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе. У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи. Вот как это может выглядеть: 1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое. 2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое 3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое 4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98" ...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать. И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт: "Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки). Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы. Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый. #dev

Hashtags

Резултати

Намерени 9 подобни публикации

Търсене: #xml

当前筛选 #xml清除筛选
ALL About RSS

@AboutRss · Post #776 · 21.08.2020 г., 07:30

#教程 「Building a web scraping tool with Python」 6月发出第一篇的信息爬取系列教程终于在八月完结,其中第一篇讲如何用 #Python 解析 #XML 格式的 RSS feed。总共有三篇: 1️⃣Building an RSS feed scraper with Python 2️⃣Automated web scraping with Python and Celery 3️⃣Making a web scraping application with Python, Celery, and Django https://codeburst.io/building-an-rss-feed-scraper-with-python-73715ca06e1f 发现于 https://twitter.com/RSSCircus/status/1271810732225593346 题图来自 DataCamp。

Oneplus 13 Updates

@OnePlus13Series · Post #369 · 15.01.2026 г., 09:19

LM.CCD config adapted for OnePlus 13 ⬇️ Download Gcam App (pick aweme variant) What's Working : Main, Telephoto, Selfie, UW, Night Sight, Portrait, Videography (4k 60fps + Stabilization) Changelogs : • Based on LM.CCD_v3_Sabre config by LaoMa • Upscaling is enabled by default for Selfie Camera • Removed extra profiles (which i felt useless) • Miscellaneous small tweaks done by me. XML (.agc) Save Directory: /Download/AGC 9.2/configs All credit goes to the original creator of the config. #gcam#xml#agc 👤 Adapted by: @pulkittg 🔔 Updates: @OnePlus13Series 💬 Discussion: @OnePlus13SeriesChatRoom

djangoproject

@djangoproject · Post #408 · 10.08.2017 г., 10:42

https://docs.python.org/3/library/xmlrpc.html #XML-#RPC is a #Remote_Procedure_Call method that uses XML passed via #HTTP as a transport. With it, a #client can call methods with parameters on a remote server (the #server is named by a URI) and get back structured data. #xmlrpc is a package that collects server and client modules implementing XML-RPC. The modules are: xmlrpc.client xmlrpc.server

djangoproject

@djangoproject · Post #551 · 23.01.2018 г., 16:28

http://lxml.de/ #lxml is the most feature-rich and easy-to-use library for processing #XML and #HTML in the Python language. The lxml XML toolkit is a Pythonic binding for the #C libraries #libxml2 and #libxslt. It is unique in that it combines the speed and XML feature completeness of these libraries with the simplicity of a native Python #API, mostly compatible but superior to the well-known ElementTree API. The latest release works with all #CPython versions from 2.6 to 3.6. See the introduction for more information about background and goals of the lxml project. Some common questions are answered in the FAQ.