Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе.
У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи.
Вот как это может выглядеть:
1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое.
2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое
3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое
4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98"
...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать.
И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт:
"Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки).
Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы.
Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый.
#dev
#Italia#Comunali
L'ex avvocato di Andrea Sempio nel caso Garlasco, Massimo #Lovati lascia la professione forense e di candida a sindaco di Vigevano con #DSP|Sovranisti euroscettici.
@Osservatorioitaliano
#Turchia: la commissione parlamentare che studia il nuovo processo di pace decide di visitare #Ocalan nell'isola di #Imrali. Il principale partito d'opposizione, #CHP e i partiti minoritari #DP, #DSP e #HüdaPar, decidono di non aderire all'iniziativa.
Лизинг. Впервые это понятие пришло ко мне не из сферы автомобилей. Пришло из музыки. Это когда человек написал инструментал и даёт его погонять разным исполнителям. Русским, американским.
А если это делает сибиряк, то это Рома Cvpellv. Он открылся для меня в томской группе "Забытый полк". Затем появилось объединение Diamond Style Production (DSP). Оказалось, что наши продюсеры и битмейкеры могут делать музыку, которая одинаково хорошо звучит и с русскими, и с английскими куплетами поверх. Не важно, Kristina Si это или Freddie Gibbs.
Рома Capella — человек, который может сказать: "сидел я как-то со Снуп Догом на студии...", — и это будет не понтами, а обычной историей из жизни. Вообще интересно посмотреть за профессией битмейкер. Вот один из выпусков "По классике" с Ромой.
Рома уникум. Может органично звучать в рэпе, электронщине. Отдельное удовольствие то, как на его биты начинает звучать наша попса. Ну и лайвы на akai mpc, конечно, удивительно заходят даже мне, который всегда был за текстоцентричность.
#cvpellv#capella#биты#заполк#dsp#плейлист#электро#instrumental#внк
Вопросик на контроле
#Italia#Sondaggi
Sondaggio autoprodotto EMG Different:
"E PER QUALE PARTITO VOTEREBBE? Base: coloro che hanno intenzione di andare a votare"
Totale cdx: 45,2%
#FdI|ECR: 27%
#FI|EPP: 8,7%
#Lega|PfE: 8%
#NM|EPP: 1,5%
Totale csx: 44,9%
#PD|S&D: 22,7%
#M5S|LEFT: 12%
#AVS|G/EFA|LEFT: 6%
#IV|RE: 2,2%
#PiùE|RE 2%
Totale centro 3,9%
#Azione|RE 2,7%
#PLD|Centro: 1,2%
#FN|ESN: 3,6%
#DSP|Populisti euroscettici: 1,4%
Altra lista 1,0%
Rilevazione: 30-31 marzo
Intervistati: 1000
Margine d’errore: ±3,1%
@OsservatorioItaliano