Намери подобно съдържание

Изходен канал @clockstackwheels · Post #851 · 2.08

Впервые использовал нейросетку для реальной практической пользы в коммерческом заказе. У заказчика есть база данных, куда информация вносится кое-как. Представьте, что вы составляете каталог, например, книг, и в базе данных предусмотрены поля: "Автор книги", "Название книги", "Число страниц" и ещё десяток других полей с информацией. Но заполняют эту базу другие люди, которых вы не контролируете, поэтому информация может случайным образом лежать в любом произвольном поле, быть введена с ошибками, опечатками и так далее. В реальном заказе были не книги, я просто привожу пример такой же задачи. Вот как это может выглядеть: 1. В поле "Автор" написано "Лондон, Дж. Белый Клык", поле "Название" при этом пустое. 2. В поле "Название" написано "150-страничный сборник рецептов", поле "Число страниц" пустое 3. В поле "Название" написано "джеклондон мартин иден", поле с автором пустое 4. В поле "Автор" написано "150-стр.3изд,доп.перераб инструкция по пользованию подстанциями типа ТП-13, М.Васильев москва 98" ...и так далее. А нужно искать нормально по автору, названию, числу страниц, городу и году издания. Никакими прямыми алгоритмами это не берётся: регулярки, поиск по ключевым словам, морфология, нечёткая логика — всё это либо даёт много ложноположительных результатов, либо (если подкрутить пороговые значения) вообще перестаёт искать. И вот тут в какой-то момент мы решили попробовать запрашивать через API GPT. Нейросетке задаётся следующий промт: "Есть следующая информация: «150-страничный роман джеклондон мартин иден». Если здесь есть то, что похоже на имя автора книги, напиши мне его, иначе ответь null". И, надо сказать, даже 3.5 справляется с этой работой очень хорошо. Получилось сравнительно без ошибок разметить около 80% данных (остальные с ошибками даже после нейросетки). Но, важный нюанс. Сначала мы пытались поймать все данные одним запросом: "GPT, выведи мне JSON, в котором есть автор, название, число страниц...", но тесты показали, что значительно эффективнее будет отдельно спросить 5 раз про 5 разных типов данных. Да, это расходует больше токенов, но они и так сравнительно дёшевы. Кстати, API у OpenAI безбожно глючит даже на платном тарифе. Обещанных 3500 запросов в минуту нет даже приблизительно. По факту удаётся отправлять около 200-300 запросов в минуту, потом оно вываливается в таймауты или ошибку 429, нужно делать какие-то умные паузы, ждать итд. Над этим всем пришлось повозиться, зато результат вполне ощутимый. #dev

Hashtags

#dev

Резултати

Намерени 2 подобни публикации

Търсене: #postman

当前筛选 #postman清除筛选

AprilNEA's Notebook

@AprilNEALab · Post #90 · 03.11.2024 г., 07:20

Намери подобни Прегледай

#OpenSource@AprilNEALab#开源@AprilNEALab #APIClient#Postman#Scalar 又一个 API 请求器（所以这类玩意到底怎么称呼）一个 Watch Mode 足以让我抛开 Bruno/Yaak 来尝试这个 Scalar Client

Hashtags

#opensource #开源 #apiclient #postman #scalar

Data Science Jobs

@datasciencejobs · Post #2243 · 02.08.2024 г., 12:34

Намери подобни Прегледай

#вакансия#nlp#llm#senior Senior QA Automation (LLM, NLP) Требуемый опыт работы: 3–6 лет Полная занятость, полный рабочий день Мы — АТОМ. Разрабатываем электромобиль-гаджет и его версии для семьи, такси, каршеринга и службы доставки, а также собственный маркетплейс приложений и другие сервисы. Ищем Senior QA Automation в команду AI, LLM-Lab, которая работает над рядом проектов: Голосовой ассистент для заказа товаров и услуг, в котором используются передовые технологии распознавания и синтеза речи, понимания естественного языка на основе нейросетевых моделей. Разработка умных чат-ботов и других проектов в домене LLM/NLP. Ваши задачи: - налаживать процесс автоматизации тестирования; - проводить тестирование - регрессионное, интеграционное и функциональное; - тестировать ML-системы; - анализировать функциональные требования и результаты тестирования на соответствие этим требованиям; - исследовать проблемы, возникающих в работе сервисов; - анализировать проблемы и запросы пользователей, ставить задачи разработчикам; - вести тест-кейсы в системе управления тестами (Allure TestOps). Стек: Python, PostgreSQL, PyTorch, Ray/Triton Inference Server, k8s, redis Наши ожидания: - опыт построения систем автоматизированного тестирования; - умение читать и писать код на Python; - опыт работы/тестирования ML-систем (NLP/LLM-моделей); - опыт работы с CI/CD инструментами; - опыт работы с Allure TestOps; - Fiddler, Swagger, Postman; - опыт оценки задач на тестирование с учетом ресурсов и рисков; - знание английского языка на уровне, необходимом для чтения технической литературы. Будет плюсом: - опыт работы с системами оркестрации контейнеров - OS/K8s на уровне пользователя; - опыт работы с GraphQL; - опыт работы с брокерами сообщений Kafka/Rabbit; - опыт работы auto-QA в команде GigaChat, YaLM , YandexGPT; - опыт работы auto-QA в голосовых ассистентах Маруся, Алиса, Салют. Мы предлагаем: - высокотехнологичный, интересный продукт, возможность создавать новые процессы и влиять на развитие; - работа в команде высококвалифицированных профессионалов из России, Китая, Европы; - корпоративная культура, выстраиваемая в духе инноваций, открытые горизонтальные коммуникации; - конкурентная официальная белая заработная плата; - годовой бонус; - кафетерий льгот (“плюшки”) - ДМС со стоматологией, питание, транспорт, страхование жизни и имущества, фитнес, обучение и многое другое; - бесплатный доступ к платформе с обучающими курсами iSpring, корпоративное обучение китайскому языку, спортивные командные игры и другие приятные мелочи; корпоративное оборудование; - гибридный или удаленный формат работы; - трудоустройство в аккредитованной ИТ-компании. Пройди вместе с нами крутой кейс по созданию электромобиля с нуля! ✍️По всем вопросам, а также для отправки резюме/cv обращайтесь: @tanya_yuu #CI#CD#Allure#TestOps#SQL#Fiddler#Swagger#Postman#QA#Python#LLM#NLP#ML#DataScience#AutomationQA#NaturalLanguageProcessing

Hashtags

#вакансия #nlp #llm #senior #ci #cd #allure #testops #sql #fiddler #swagger #postman #qa #python #ml #datascience #automationqa #naturallanguageprocessing