关于JavaScript字符串的一个小知识

 说起字符串,我们再熟悉不过了。接触编程的第一个经典任务就是输出字符串:Hello, world。但是你知道 JavaScript 字符串在计算机里是怎么表示的吗?

创新互联专注于马鞍山企业网站建设,响应式网站设计,成都做商城网站。马鞍山网站建设公司,为马鞍山等地区提供建站服务。全流程定制网站制作,专业设计,全程项目跟踪,创新互联专业和态度为您提供的服务

最简单直观但不太准确的的理解就是,字符串就是由英文字母、数字和标点符号等这些字符组成的序列。比如下面这个字符串就是由5个字母和一个感叹号组成的:

 
 
 
  1. const message = 'Hello!'; 

同时也可以看出该字符串的字符数是6:

 
 
 
  1. const message = 'Hello!'; 
  2. message.length; // => 6 

如果字符串是由这些可见字符(也就是 127 个 ASCII 字符) 组成的,这样理解没有问题。但是,一旦碰到不常见的符号,比如一些表情字符, , ,可能会得到意外的结果:

 
 
 
  1. const smile = ''; 
  2. smile.length; // => 2 

是不是很奇怪?明明只有一个字符,长度怎么会是 2 呢?这是因为,JavaScript 字符串实际上是由编码单元构成的,而不是可见字符序列。

ECMA 262 规范里是这么描述 JavaScript 字符串的:

String 类型是由零或多个 16 位无符号整数值组成的有序序列的集合。字符串类型通常用于表示运行中的 ECMAScript 程序中的文本数据,在这种情况下,字符串中的每个元素都被视为 UTF-16 编码单元值。

简单说,JavaScript 字符串就是 UTF-16 编码单元序列,一串数字而已。

一个编码单元就是位于 0x0000 和 0xFFFF 之间的一个数字,编码单元与字符之间有个对应关系。例如,编码单元 0x0048 对应了实际的字符 H:

 
 
 
  1. const letter = '\u0048'; 
  2. letter === 'H' // => true 

如果把一整个字符串'Hello!'用编码单元表示就是这样:

 
 
 
  1. const message = '\u0048\u0065\u006C\u006C\u006F\u0021'; 
  2. message === 'Hello!'; // => true 
  3. message.length;       // => 6 

可以看到,这个字符串有6个编码单元,每个编码单元对应一个字符。基本多文种平面 BMP(Basic Multilingual Plane)中的任意一个字符,都可以用一个 UTF-16 编码单元表示。但是,在这个范围以外的字符,就需要 2 个 UTF-16 编码单元来表示了。比如前面提到的笑脸符号,编码是\uD83D\uDE00:

 
 
 
  1. const smile = '\uD83D\uDE00'; 
  2. smile === ''; // => true 
  3. smile.length;  // => 2 

这两个编码单元是成对存在的,用于表示超出 0xFFFF 的字符。不能拆开,否则就变成无法识别的乱码了。另外,这里的.length是2,说明这个属性其实是字符串编码单元的个数,而不是字符数。在需要判断字符数量的时候就要注意了,根据.length得到的结果是不准确的。那要怎么解决呢?可以用这种办法:

 
 
 
  1. const message = 'Hello!'; 
  2. const smile = ''; 
  3.  
  4. [...message].length; // => 6 
  5. [...smile].length;   // => 1 

如果觉得这个关于 JavaScript 字符串的小知识对你有用,欢迎分享给你的小伙伴们!

网站名称:关于JavaScript字符串的一个小知识
网页URL:http://www.36103.cn/qtweb/news38/33088.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联