TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
帖子内容
2023 年每个软件开发者都必须知道的关于 Unicode 的最基本的知识 让我们总结一下: - Unicode 已经赢了。 - UTF-8 是传输和储存数据时使用最广泛的编码。 - UTF-16 仍然有时被用作内存表示。 - 字符串的两个最重要的视图是字节(分配内存/复制/编码/解码)和扩展字位簇(所有语义操作)。 - 以码位为单位来迭代字符串是错误的。它们不是书写的基本单位。一个字位可能由多个码位组成。 - 要检测字位的边界,你需要表格。 对于所有 Unicode 相关的东西,甚至是像 strlen、indexOf 和 substring 这样的无聊的东西,都要使用 Unicode 库。 - Unicode 每年更新一次,规则有时会改变。 - Unicode 字符串在比较之前需要进行归一化。 - Unicode 在某些操作和渲染中依赖于区域设置。 - 即使是纯英文文本,这些都很重要。 总的来说,是的,Unicode 不完美,但 - 有一个能覆盖所有可能语言的编码、 - 全世界都同意使用它、 - 我们可以完全忘记编码和转换之类的东西 https://blog.xinshijiededa.men/unicode/