最适合网络开发者的网站
HTML 字符集。W3Schools 英文版。初学者课程

尿素

HTML 字符集


为了正确显示 HTML 页面,浏览器必须知道使用什么字符集(编码):

例子

<meta charset="UTF-8">

HTML 字符集

HTML5规范鼓励Web开发人员使用UTF-8字符集!

但情况并非总是如此。早期网络的字符编码是 ASCII。

后来,从HTML 2.0到HTML 4.01,ISO-8859-1被视为标准字符集。

随着XML和HTML5的出现,UTF-8终于问世,解决了许多字符编码问题。


开始:ASCII

计算机数据在电子设备中以二进制代码(01000101)的形式存储。

为了标准化文本的存储,创建了美国信息交换标准代码 (ASCII)。它为每个可存储字符定义了一个唯一的二进制数,以支持 0-9 的数字、大小写字母 (az、AZ) 以及特殊字符,例如 ! $ + - ( ) @ &lt; &gt; , 。

由于 ASCII 使用 7 位来表示字符,因此它只能表示 128 个不同的字符。

ASCII 的最大弱点是它排除了非英文字母。

ASCII 至今仍在使用,尤其是在大型计算机系统中。

如需进一步了解,请阅读我们的 完整的 ASCII 参考.


在 Windows 中:Windows-1252

Windows-1252 是 Windows 中的默认字符集,直到 Windows 95。

它是 ASCII 的扩展,添加了国际字符。

它使用一个完整的字节(8 位)来表示 256 个不同的字符。

由于 Windows-1252 已成为 Windows 中的默认设置,因此所有浏览器都支持它。

为了更深入地了解,请研究: 完整的 Windows-1252 参考.


在 HTML 4 中:ISO-8859-1

HTML 4 中最常用的字符集是 ISO-8859-1。

ISO-8859-1 是 ASCII 的扩展,添加了国际字符。

例子

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

在 HTML 4 中,可以在<meta>标签:

例子

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

所有 HTML 4 处理器也支持 UTF-8:

例子

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

当浏览器检测到 ISO-8859-1 时,它通常会默认为 Windows-1252,因为 Windows-1252 多出 32 个国际字符。

为了更深入地了解,请研究: 完整的 ISO-8859-1 参考


在 HTML5 中:Unicode UTF-8

HTML5规范鼓励Web开发人员使用UTF-8字符集。

例子

<meta charset="UTF-8">

可以在<meta>标签:

例子

<meta charset="ISO-8859-1">

由于 ISO-8859 字符集有限,并且不兼容多语言环境,因此 Unicode 联盟开发了 UTF-8 和 UTF-16 标准。

Unicode 标准涵盖了(几乎)世界上所有的字符、标点和符号。

所有 HTML5 和 XML 处理器都支持 UTF-8、UTF-16、Windows-1252 和 ISO-8859。

为了更深入地了解,请研究: 完整的 Unicode 参考.