В продолжение прошлого поста про цифры в мире строк.
Почему методы isdigit() и isnumeric() не определяют в строке float и отрицательные значения?
Дело в том, что эти методы работают с ЦИФРАМИ, то есть с единичным символом. А строка "-2" или "3.4" это уже ЧИСЛО. То есть не символ а значение, записанное несколькими символами.
Все озвученные методы проходятся по каждому символу строки и проверяют их индивидуально.
В юникоде есть символы цифр с точками "🄀⒈⒉⒊⒋⒌⒍⒎⒏⒐"
Каждая из них это ОДИН СИМВОЛ, поэтому он будет считаться цифрой
>>> '⒌'.isdigit(), '⒌'.isnumeric()
True, True
Но когда мы пишем это выражение в два символа ( 5+точка), то это не работает.
>>> '5.'.isdigit(), '5.'.isnumeric()
False, False
А еще есть такие символы
>>> '⑴⑵⑶⑷⑸'.isdigit()
True
>>> '🄁🄂🄃'.isdigit()
True
Но они не преобразуются в десятичные цифры
>>> '⒈'.isdecimal()
False
>>> '🄃'.isdecimal()
False
>>> '⑶'.isdecimal()
False
#basic
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.
💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.
Спасибо авторам: @your_petros@ilyaovodov@nagadit@hukenovs@karinakvanchiani
📝Жестовый язык: похожее в непохожем и наоборот
📖Logos as a Well-Tempered Pre-train for Sign Language Recognition
До встречи на конференции!
#research#rsl#emnlp
BORSch покорил наши сердца
Сегодня русскоязычное сообщество на EMNLP обсуждает работу BORSch, в которой авторы исследуют особенности знания мультимодальных моделей кухни постсоветского пространства. С этой целью они собрали мультимодальный датасет BORSch, включающий 1147 русскоязычных и 823 украиноязычных блюда, относящихся к странам постсоветского региона.
Например:
Откуда блюдо кывырма? + фото кывырмы
Gold answer: Gagauzia (🇲🇩 Moldova)
На примере BORSch авторы показывают, что даже передовые модели испытывают трудности при определении происхождения блюд из постсоветских стран — как в текстовой, так и в мультимодальной задаче Question Answering (QA): вместо правильного ответа они чаще отдают предпочтение стране, на языке которой был написан промпт.
Вывод (ИМХО): когда используете LLM для личных целей, не забывайте включать функцию Search (искать в сети). Не мучайте моделей кывырмой и эчпочмаками, Гугл — наше всё. Хотя, подозреваю, что с происхождением блюд на разных языках тоже может возникать диссонанс.
А работа и правда стоящая, особенно здорово, что с акцентом на постсовесткие языки.
@mashkka_ds
#llm#emnlp#новостисполей#трудовыебудни