paip.判断字符是否中文和同判读是否是汉字uapi python java php  
##看清中文的法则
留神:
中文和汉字CJKV 的界别。。日本,韩国,新加坡,古越南齐国家也因而汉字,但不是华语。。就像英文法文都利用拉丁字母,但拉丁语不顶英文。。
汉字Unicode区里4E00(19968)— 9FBF(40895)
,表意文字的间距,包括了差不多个国之字,这个不是咱们所用之。。
GB
汉语中的汉字又分为简体,繁体,3500时不时因此配,而与是纵横交错汉字,香港–澳门–台湾–海外等地方使用的方块字呢来一些区别。。同是简体汉字,中国陆地–马来西亚–新加坡–天涯等地方采取的凡发局部差异的。。
一般我们一味需要的是地地域3500常因此简体中文汉字(gb2312)。。
2312专业共收录6763个字,其中一级汉字3755单,二级汉字3008单;同时用了包拉丁字母、希腊字母、日文平假名及片假名字母、俄报西里尔字母在内的682个字符
3500时常因此文字以unicode编码中未是整连接的。无法用一个刚刚则来描写起这个距离。

GB2312

只好以map装载这个3500字映射,再指向输入文字进行配对判定。

GB 2312-80
,全称《信息交换用汉字编码字符集·基本集》,由中国国家标准总局发表,1981年5月1日执行。

作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com
来源: http://blog.csdn.net/attilax

GB2312共圈定6763单汉字,其中一级汉字3755只,二级汉字3008独;同时用了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄报西里尔字母在内的682独字符,也向下兼容
ASCII 字符码。

##看清汉字之法则
相对于判断中文,判断汉字就是好多了。
汉字Unicode区内部4E00(19968)— 9FBF(40895)
,表意文字的距离,包括了多只国的字
获得汉字之acii/unicode码
当认清大小走ok兰..

GB2312的产出,基本满足了字之电脑处理得,它所引用的汉字都罩中国新大陆99.75%之使用频率。对于人名、古汉语等地方出现的罕用字,GB
2312非克处理,这招了后来GBK及GB 18030男儿字字符集的面世。

##uapi
获取汉字unicode 编码…  unicode()
判定汉字(所有国家地方)  isChinesChar()
看清中文(大陆)汉字 isChinaChineseChar()
判断日文汉字 isJapanChineseChar()
判定韩文汉字  isKoreaChineseChar()

 

##java

GB13000与GBK

char word1 = ‘Y’;
(int) word

就第二单编码和后来之GB18030,据招有雷同段落微软参与的故事,让国家怒了,就拿GB18030列为强制标准,不合乎GB18030标准的微处理器体系及活全不足在中国销售。

##php  PHP ord() 函数

 

##python
def isChinesChar(char):
    “”””
    汉字Unicode区间4E00(19968)— 9FBF(40895)
    ‘(’括号ylei的yanen fenkail ,bs chchar.. 
    “””
    unicodex=ord(char)
    if( unicodex>=19968 and unicodex<=40895):
     
        return True
    else:
        return False

1993年,Unicode 1.1
版本推出,收录中国次大陆、台湾、日本跟韩国通用字符集的字,总共有20,902个。(同年ISO组织发布了ISO/IEC
10646-1业内,ISO/IEC 10646以及Unicode的异议请自行检索。)
GB
13000.1-93《信息技术通用多八位编码字符集(UCS)第一片段:体系布局及主干多文种平面》则是一律于Unicode
1.1/ISO10646.1。

 

遵循招也往建议微软支持 GB13000
编码,但连从未下而是自己打出了同一学标准(利用GB
2312-80不利用的编码空间,收录GB 13000.1-93
全部字符制定了GBK编码)。随微软的 Windows 95 和 Office
而风靡成为事实标准,后国家把 GBK
公布为指导性文件,并非国家标准。由于GBK的成事实标准,原始之 GB13000
一直未被业界采用,后续的 GB18030 是对准GBK兼容,而不GB13000。

GBK用了21003只字,向下兼容 GB2312
编码;在Windows系统中GBK与GB2312均使用代码页CP936代表,只不过不同时常CP936支持编码不相同;实际上GBK与CP936还是发生头细小差距的,GBK比CP936多矣95个字符。

 

GB18030

2000年颁布了 GB18030-2000 国家标准,兼容 Unicode 3.0
中日韩联合表意文字,共圈定27533只字;GB 18030-2005 更新至 Unicode 4.1
中日韩联合表意文字与加少数民族文字,共圈定70244单汉字。

鉴于是劫持标准,所以国内所有软件出品必须支持;但不曾要求嵌入式产品,所以手机/MP3相似只是支持GB2312。

GB18030兼容GBK,在windows中的代码页是CP54936;

 

在 Windows 2K/XP/2K3 中使用GB18030(扩展A区的???)编码:GB18030
Support
Package (简体中文版),在Windows
7中全面支持。

中文版 Windows XP SP3
的区域及语言选择中高等里,可以看来默认安装了GB10803,发现包括Office
2003呢本着GB18030支持非到家。

相关文章

网站地图xml地图