TGTGInsighttelegram intelligenceLIVE / telegram public index
← Hypercube's Channel
Hypercube's Channel avatar

TGINSIGHT POST

Post #176

@SmartHypercube_channel

Hypercube's Channel

Views318帖子阅读量
发布12月8日2024/12/08 07:03
Post content

帖子内容

记录一下每日论文的关键词匹配功能的技术细节: - 使用 Unicode NFKD normalize,移除 U+0300 到 U+036F 的字符,再 NFC 拼回去,实现 á 和 a 互相匹配。 - 用 (s.match(/[a-zA-Z]+|[^a-zA-Z]/g) || []).filter(i => i !== ' ') 转为 token 序列,可以支持“1+n pattern”等带符号的关键词。 - 使用 Porter Stemmer V2 把每个词变成词干,实现 model 和 models 互相匹配。 - 对于用户提供的自定义 JS 函数,把 eval(s) 改成 new Function('return ('+s+')')() 对 minifier 比较友好。