博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Unicode Tips
阅读量:6821 次
发布时间:2019-06-26

本文共 663 字,大约阅读时间需要 2 分钟。

1、

2、关于java正则表达式的汉字写法。(参见)

1
String regex = 
"[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]"
;

3、Python3中str与bytes转换:

4、 (维基百科)

5、关于utf8的bom头。(Python3下)

1
2
3
4
5
6
7
8
9
>>> 
import 
codecs
>>> codecs.BOM_UTF8
b
'\xef\xbb\xbf'
>>> 
len
(b
'\xef\xbb\xbf'
)
3
>>> codecs.BOM_UTF8.decode(
'utf8'
)
'\ufeff'
>>> 
len
(
'\ufeff'
)
1

6、一些编码字符集的关系:

(1)、gb2312-1980 < gbk-1995 < gb18030-2000 < gb18030-2005

1
2
3
4
5
# 收录汉字个数
gb2312-1980:6763
gbk-1995:21003
gb18030-2000:27533
gb18030-2005:70244

(2)、ANSI = Windows 1252 = CP 1252 = Windows code page 1252 = Windows Latin-1()

相关阅读:

***  ***

本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1733872如需转载请自行联系原作者

RQSLT

你可能感兴趣的文章