TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #482 · 2.08

Я участвую в конкурсе разработчиков «Код Петербурга», проводимом совместно VK и городом. По условиям нужно сделать или VK-приложение или чат-бота для VK/Маруси с какой-то важной для жителя или гостя города функцией, и с использованием одного из предоставленных внешних API. Я попробовал воплотить свои давние мысли по семантическому поиску по текстам, в чем мне помог @wooferclaw. Что-то подобное мы пытались соорудить на хакатоне в Салехарде, но сейчас я пошёл дальше. Бот для Маруси, который ищет мероприятия в Петербурге с сайта KudaGo. При этом к боту подключён морфологический словарь и тезаурус, который умеет определять домены и ассоциативные связи между словами. Работает вроде неплохо. Во-первых, довольно точно ищет по прямым связям. Например, хорошо понимает, что слова «научный» и «наука» одинаковые, хотя в словаре словоформ они разные. Во-вторых, умеет находить связи по области: допустим, если попросить что-то про пришельцев, предлагает экспозицию о внеземных цивилизациях, хотя ни в описании, ни в ключевых словах этой экспозиции нет слова «пришелец» однокоренных с ним. Но этот поиск приводит и к забавным последствиям, которые лично я не считаю недостатком, а скорее щепоткой соли в работе алгоритма. Так, при запросе о пришельцах может выдать выставку о коммунальных квартирах (что действительно близко по смыслу, но человеку, который ищет пришельцев, скорее всего нужно не это). А ещё на слово «крокодилы» предлагает экскурсию по рекам и каналам, мне очень нравится :) Потестить можно, открыв Марусю (в приложении ВК или в отдельном) и сказав «Запусти навык Куда Пойти в Петербурге». А результаты конкурса будут в октябре. Там ещё второй этап, на него тоже что-нибудь подам. #dev

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #tuvanlanguage

当前筛选 #tuvanlanguage清除筛选

В 2023 мы с Айраной Монгуш и Давидом Дале сделали первый Тувинско-Русский ИИ переводчик — раньше Google и Яндекса. Опубликовали на конференции по машинному переводу WMT 2024. С тех пор я думал: а если без интернета? Прямо на телефоне? Взял Gemma3 1B, обучил на Colab, запустил на CPU. Вот скрин — живые переводы, ~500мс, без GPU. Модель пока сырая. Иногда галлюцинирует. Но когда попадает — попадает точно. Это работающая система. Дальше хочу добиться реального качества: — iOS через Core ML (моя основная среда) — 4-bit квантизация для мобильного — Правильно организовать "трубу" (пайплан) — основная проблема — Организовать более гибкий системный промпт (фью-шот промптинг) — Почистить датасет и обогатить синтетически — Сравнить несколько моделей — Выпустить офлайн-приложение для тувинцев 💬 Что сейчас работает для low-resource MT с ~300к парами? Интересно всё — архитектуры, трюки при обучении, способы улучшить качество на маленьком датасете. #NLP#Gemma3#iOS#CoreML#TuvanLanguage#EdgeAI#Google