Я всегда был уверен, что системы рекомендаций работают так плохо, потому что это слишком сложная задача. Владельцы площадок бьются с алгоритмами, машинным обучением, деревьями решений и взвешенными суммами, но получается всё равно херня, и человеку могут рекомендовать нерелевантный бред (и, что ещё хуже — не рекомендовать интересный для него контент).
Кажется, хорошо работают только рекомендации на Ютубе, но этому есть объяснение: контент на Ютубе более длительный и дорогой. Его сложнее производить, он выходит реже. Качественный ролик на Ютубе не будет говном практически независимо от темы, на которую он снят. А ещё меньшее число объёмных роликов проще кластеризовать и можно предлагать пользователю в небольших количествах.
Но если мы откроем YouTube Shorts (это очередной аналог тиктока с короткими вертикальными видео), то заметим, что качество рекомендаций упало сразу на два порядка: какие-то тупые попсовые шутки, "удивительные" факты из жизни, завлекающие отрывки из фильмов "код смотри в телеграм-канале", озвучка анекдотов и прочий мусор. Алгоритмы уже совсем не справляются с тем, чтобы предложить что-то годное, не говоря уже о релевантности конкретно мне, хотя история моих просмотров и вкусов Ютубу, очевидно, известна.
Тем не менее, иногда разработчики могут не только не уметь, но и не хотеть писать нормальные рекомендации. Вот ВК предложил мне BadComedian в блоке "Интересные авторы". Оставим в стороне, что Бэдкомендиан это ютубер, и у него в ВК в лучшем случае будут репосты ссылок на Ютуб. Но мне предлагают не паблик, а личную страницу.... на которой не было записей с сентября 2021 года. Нет совершенно никакого смысла быть подписанным на личную страницу Бэдкомедиана сейчас. Кажется, единственный критерий, на котором основывались эти рекомендации: общее число подписчиков.
Как должны работать рекомендации на самом деле? Алгоритмически я бы оценивал частоту постов (кстати, чрезмерно частые это тоже плохо, должно работать в минус), оценивал бы, является пост просто публикацией внешней ссылки на другой ресурс, является ли репостом паблика, и смотрел бы, сколько прошло времени с последней записи на странице автора. Наверное, в качестве коэффициента с небольшим весом можно добавить ещё объём контента в посте и активность людей (лайки + комментарии). Причём, делается это достаточно просто, никакой ML не нужен. Даже такая оценка, не берущая в расчёт тематику страницы, всё равно лучше, чем "Просто покажем людей, на которых когда-то подписалось куча народу, и им до сих пор лень отписаться после прекращения активности автора".
По крайней мере теперь меня не удивляет, что хвалёные Клипы постоянно подсовывают мне какой-то подростковый шлак вместо крутых видео с полётами на FPV-квадрокоптерах. YouTube Shorts по крайней мере пару раз такие вещи предлагал, а вот Клипы вообще ни разу (станицу Клипов я не открываю, разумеется, но в ленте новостей встречаются блоки с автовоспроизведением).
Кстати, на скрине есть второй автор — Стас "Ай как просто". Его банят на Ютубе за критику западной модели текущих событий, и он пишет: "Буду создавать каналы-однодневки, куда деваться". То есть у него даже мысли не возникает, что какая-то ещё площадка может служить его целям. Ну с таким отношением других площадок к рекомендациям — понятно.
#web
https://github.com/Miserlou/Zappa#about
Zappa makes it super easy to build and deploy all Python #WSGI applications on #AWS Lambda + #API Gateway. Think of it as "#serverless" #web hosting for your Python apps. That means infinite scaling, zero downtime, zero maintenance - and at a fraction of the cost of your current deployments!
If you've got a Python web app (including Django and Flask apps), it's as easy as:
$ pip install zappa
$ zappa init
$ zappa deploy
and now you're server-less! Wow!
What do you mean "serverless"?
Okay, so there still is a server - but it only has a 40 millisecond life cycle! Serverless in this case means "without any permanent infrastructure."
VK запустил активную рекламную кампанию против цифровой травли — #неткибербуллингу. Такую активную, что её нельзя не заметить: у художников, видеоблогеров, в рекламных вставках и так далее. Не слишком понимаю, кто заказчик мероприятия, и зачем это в принципе нужно. Если VK хочет начать восстанавливать репутацию, то зайти следовало совершенно с другой стороны, потому что тролли и токсики никогда особо не были проблемой там. Ну ладно, по меньшей мере прорекламировали свои алгоритмы скрытия комментариев. Которые я на деле почти не видел, потому мои комментаторы даже в случае несогласия со мной пишут вежливо.
Про кибербуллинг, кстати, на странице проекта даны адекватные советы, но они очевидны, и их на самом деле всего два:
1. Банить мудаков на всех своих площадках.
2. Не допускать попадания в публичное поле данных, позволяющих вас преследовать без простой блокировки: номера телефона, адреса, контактов семьи и друзей.
Первое очень просто, очевидно, и даже потихоньку полуавтоматизируется. А вот второе в современном интернете практически недостижимо: то какая-нибудь фирма ваши данные сольёт, то вы забудете убрать у фотки геотег, то кто-нибудь из друзей поведётся на разводку и сдаст ваш номер. Так что глобально на уровне инициатив со стороны общества и компаний проблема не имеет хороших решений.
Конкретно у цифровой агрессии есть важная особенность: простота анонимности агрессора. На сайте проекта советуют делать скриншоты переписки, но мы все знаем, что это не имеет смысла: никакая полиция не будет расследовать "дело", если вас где-то в комментах обматерит анонимный тролль. Так что вспоминаются только инициативы типа "в интернет по паспорту". Иронично: для борьбы с кибертравлей нужно одновременно увеличивать и уменьшать уровень анонимности людей в сети.
И второе наблюдение. С понятием травли я познакомился из американского кино про школьников. В моей школе травли не было (по крайней мере видимой), никто из моих сверстников ни о чём подобном никогда не рассказывал. А вот в американском кино про школу сюжет об унижаемых персонажах присутствовал практически всегда — подозреваю, что американцы проецировали таким образом проблемы, которые у них в обществе реально существуют или существовали, и на которые они хотели обратить внимание. Так вот, вдвойне поразительно, что именно западное общество в наше время внедрило в массы явление канселинга — по сути опосредованной травли. Некий человек помечается обществом, как прокажённый, и с этого момента о нём массово высказываются негативно, даже те люди, которые вообще не собирались как-либо высказываться об этом человеке.
#web
Попробовал Obsidian. Это такой заметочник. И в итоге буду переходить на него с Notion.
Вообще, с заметочниками дела плохи. Когда-то появился Evernote и занял лидирующее положение на рынке даже при всём своём неудобстве. Он кривой, кроссплатформенность реализована плохо (на части платформ то те, то другие функции недоступны), система организации урезана и приводит к беспорядку, а в клиентах много визуального мусора в UI. И тем не менее, это был один из первых облачных заметочников — важный шаг для рынка. Удивительно, как долго человечество шло к идее, что нужно сделать «Блокнот», но под все платформы, включая телефоны, и с синхронизацией через сеть.
Потом пришел Notion, который поначалу топтался на месте из-за сомнительной ценовой политики. Но в результате правильных реформ стал процветающим стартапом, использующимся сейчас в огромном количестве команд и проектов. Даже смог позволить себе сделать безлимитную бесплатную версию. По сравнению с Evernote это был глоток свежего воздуха: мусора в UI на порядки меньше, функциональность одинаковая на всех платформах, полноценная древовидная организация любой глубины, почти нормальная поддержка Markdown.
Впрочем, что-то не дало авторам пойти дальше и избавить свой сервис от серьёзных UX-косяков. Только ленивый не ругает Notion за ужасно низкую скорость работы. Он долго грузится, долго открывает файлы и относительно долго реагирует на ввод — для заметочника это критически важно. На всех платформах использовали гибридную разработку (HTML внутри контейнера как будто от нормального нативного приложения) со всеми худшими её чертами: проект тяжёлый и неповоротливый. Это не говоря уже о том, что и десктопное и мобильное приложение по сути окно в веб. Оно не будет работать без интернета, а сессия сбрасывается раз в несколько дней. В итоге вы хотите добавить заметку, открываете клиент, и он мало того что грузится долго, так ещё и показывает вам окно авторизации. Нужно переходить в браузер, ждать, пока авторизация пройдёт там, возвращаться в клиент... в общем, вы уже забудете, что за заметку хотели. После пары лет использования Notion я поймал себя на том, что на телефоне открываю встроенные системные заметки, а потом копирую текст оттуда в Telegram, чтобы он был доступен отовсюду. На компьютере же быстрее открыть Notepad++. Короче, Notion со своей задачей быть заметочником на каждый день не справляется.
И вот, Obsidian. По сути это продвинутый блокнот с поддержкой Markdown. Ладно, у него есть какая-то фишка с организацией заметок по методу Zettelkasten, но я пока туда не смотрел, да и сам метод требует определённого подхода, который я пока что не применяю. Так что это блокнот, умеющий выводить дерево и отображать Markdown-форматирование. Он очень быстрый, грузится не молниеносно, но адекватно, и сам интерфейс работает очень шустро. Не знаю, HTML там или нет (по виду кажется, что да), но авторы явно поработали над оптимизацией. Конечно же, есть приложения под телефоны, и они тоже весьма комфортны по скорости.
Что касается синхронизации, то это платная функция, и, на мой взгляд, необоснованно дорогая: $8 в месяц (сама программа бесплатная). Здесь бы разговор можно было закончить — при всех прелестях сервис без синхронизации между устройствами в 2022 году это как обувь на одну ногу. Но мне повезло: моё NAS-хранилище умеет создавать виртуальное облако. Да, возможно у какого-то из облаков на рынке тоже есть все нужные функции, но, например, Яндекс Диск на телефоне синхронизирует только видео и фотки, а произвольные папки не может. А вот Synology прям спасло.
Что ещё хорошего. Notion был перегружен лишними функциями. Но если они всё-таки нужны, у Obsidian отличная система плагинов, поддерживаемых независимыми разработчиками. Уже есть множество решений на любой вкус. Например, в Notion я мог пошарить другому человеку выбранную заметку. А здесь нашёл плагин, который трансформирует заметку в Github Gist. Удобно: Markdown там совместимый, Gist бесплатный и без рекламы.
Короче, пока нравится. Вот этот пост сейчас пишу в нём на компьютере, а начал на телефоне днём. То, что нужно.
#web#tools
Stract is an open source search engine where the user has the ability to see exactly what is going on and customize almost everything about their search results. It's a search engine made for hackers and tinkerers just like ourselves. No more searches where some of the terms in the query arent used, and the engine tries to guess what you really meant. You get what you search for.
https://stract.com
https://github.com/StractOrg/stract
#Web#Search#SearchEngine
#FLOSS
¿Que puede hacer este bot?
@apimaniaBot
Con éste bot puedes crear PDF a partir de páginas web, convertir texto a imágenes, convertir tablas HTML a json y mucho más
Idioma: español
(Visto en @botsgram_cu)
#pdf#web#texto#imágenes#hrml#json