本文共 663 字,大约阅读时间需要 2 分钟。
1、。
2、关于java正则表达式的汉字写法。(参见)
1 | String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]" ; |
3、Python3中str与bytes转换:
4、 (维基百科)
5、关于utf8的bom头。(Python3下)
1 2 3 4 5 6 7 8 9 | >>> import codecs >>> codecs.BOM_UTF8 b '\xef\xbb\xbf' >>> len (b '\xef\xbb\xbf' ) 3 >>> codecs.BOM_UTF8.decode( 'utf8' ) '\ufeff' >>> len ( '\ufeff' ) 1 |
6、一些编码字符集的关系:
(1)、gb2312-1980 < gbk-1995 < gb18030-2000 < gb18030-2005
1 2 3 4 5 | # 收录汉字个数 gb2312-1980:6763 gbk-1995:21003 gb18030-2000:27533 gb18030-2005:70244 |
(2)、ANSI = Windows 1252 = CP 1252 = Windows code page 1252 = Windows Latin-1()
相关阅读:
*** ***
本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1733872如需转载请自行联系原作者
RQSLT