python中文编码问题小结
中文编码问题一直是Python程序设计中很头痛的问题,本文对此较为详细的进行了总结归纳。具体如下:
当字符串是:'\u4e2d\u56fd'
>>>s=['\u4e2d\u56fd','\u6e05\u534e\u5927\u5b66'] >>>str=s[0].decode('unicode_escape') #.encode("EUC_KR") >>>print str 中国
当字符串是:' 东亚学团一中'
>>>print unichr(19996) 东
ord()支持unicode,可以显示特定字符的unicode号码,如:
>>>print ord('A') 65
只要和Unicode连接,就会产生Unicode字串。如:
>>> 'help' 'help' >>> 'help,' + u'python' u'help,python'
对于ASCII(7位)兼容的字串,可和内置的str()函数把Unicode字串转换成ASCII字串。如:
>>> str(u'hello world') 'hello world'
对几个概念的理解:
ASCII码 用数据字 对应 相应的字符 如下图所示:
而中文 就是区位码对应汉字。如:“好” 的ASCII码为: 22909
unicode 编码 每个国家分一块。它有UTF-8、UTF-16、UTF-32等形式
中文范围 4E00-9FBF:这个范围内有 gbk,gb2312,
utf-8是基于unicode的 国际化的场合适合使用
gb2312和gb2312都是国标码 出现的较早 主要用于编解码常用汉字
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
SQLite3中文编码 Python的实现
读取十万多条文本写入SQLite类型数据库,由于文本中存在中文字符,插入到数据库没错,取出时一直是UnicodeDecodeError,导致折腾了一天. 最后的解决方法: Python连接数据时进行如下设置: db=sqlite3.connection("...") db.text_factory=st 另为了python代码中硬编码的中文字符串不出现问题,除了在源码开始添加 # -*- coding:utf-8 -*- 设置python源码的编码为utf-8 import sys r
-
python处理中文编码和判断编码示例
下面所说的都是针对python2.7 复制代码 代码如下: #coding:utf-8#chardet 需要下载安装 import chardet#抓取网页htmlline = "http://www.***.com"html_1 = urllib2.urlopen(line,timeout=120).read()#print html_1encoding_dict = chardet.detect(html_1)#print encodingweb_encoding = encodi
-
python实现中文转换url编码的方法
本文实例讲述了python实现中文转换url编码的方法.分享给大家供大家参考,具体如下: 今天要处理百度贴吧的东西.想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了.但是添加到list里面是中文的情况(比如'丽江'),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个转换.这里我们就用到了模块urllib. >>> import urllib >>> data = '丽江' >>> print dat
-
python解决汉字编码问题:Unicode Decode Error
前言 最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件.文档之前是由base64编码,导致所有汉字读取显示乱码.项目组把base64废弃之后,先后出现两个错误: ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: 'utf8' codec can't decode byte 0x. 如果对于ascii.unicode和utf-8还不了解的小伙伴
-
Python中文编码那些事
首先,要明白encode()和decode()的区别 encode()的作用是将Unicode编码的字符串转换为其他编码格式. 例如: st1.encode("utf-8") 这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串 decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串. 例如: st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串 第二,除Un
-
简单解决Python文件中文编码问题
读写中文 需要读取utf-8编码的中文文件,先利用sublime text软件将它改成无DOM的编码,然后用以下代码: with codecs.open(note_path, 'r+','utf-8') as f: line=f.readline() print line 这样就可以正确地读出文件里面的中文字符了. 同样的,如果要在创建的文件中写入中文,最好也和上面差不多: with codecs.open(st,'a+','utf-8') as book_note: book_note.wri
-
python用字典统计单词或汉字词个数示例
有如下格式的文本文件 复制代码 代码如下: /"/请/!/"/"/请/!/"/两名/剑士/各自/倒转/剑尖/,/右手/握/剑柄/,/左手/搭于/右手/手背/,/躬身行礼/./两/人/身子/尚未/站/直/,/突然/间/白光闪/动/,/跟着/铮的/一/声响/,/双剑相/交/,/两/人/各/退一步/./旁/观众/人/都/是/"/咦/"/的/一声/轻呼/./青衣/剑士/连/劈/三/剑/ 将这段话进行词频统计,结果是 词-词数 的形式,比如 请 2
-
python实现统计汉字/英文单词数的正则表达式
思路 •使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表. •使用dictionary来记录每个单词/汉字出现的频率,如果出现过则+1,如果没出现则置1. •将dictionary按照value排序,输出. 源码 复制代码 代码如下: #!/usr/bin/python # -*- coding: utf-8 -*- # #author: rex #blog: http://iregex.org #filen
-
Python2.x版本中基本的中文编码问题解决
Python 输出 "Hello, World!",英文没有问题,但是如果你输出中文字符"你好,世界"就有可能会碰到中文编码问题. Python 文件中如果未指定编码,在执行过程会出现报错: #!/usr/bin/python print "你好,世界"; 以上程序执行输出结果为: File "test.py", line 2 SyntaxError: Non-ASCII character '\xe4' in file te
-
在Python中关于中文编码问题的处理建议
字符串是Python中最常用的数据类型,而且很多时候你会用到一些不属于标准ASCII字符集的字符,这时候代码就很可能抛出UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 10: ordinal not in range(128)异常.这种异常在Python中很容易遇到,尤其是在Python2.x中,是一个很让初学者费解头疼的问题.不过,如果你理解了Python的Unicode,并在编码中遵循一定的原则,这种编
随机推荐
- 关于JavaScript中的this指向问题总结篇
- 在MyEclipse上部署Tomcat服务器的方法
- asp.net使用jquery模板引擎jtemplates呈现表格
- php删除字符串末尾子字符,删除开始字符,删除两端字符(实现代码)
- php支持断点续传、分块下载的类
- PHP中register_globals参数为OFF和ON的区别(register_globals 使用详解)
- AJax 学习笔记二(onreadystatechange的作用)
- 一个简单横向javascript日期控件
- C#实现json格式转换成对象并更换key的方法
- c语言实现多线程动画程序示例
- C++ Qt属性系统详细介绍
- Java的常用包
- asp.net实现微信公众账号接口开发教程
- Android部分手机拍照后获取的图片被旋转问题的解决方法
- jquery 动态增加,减少input表单的简单方法(必看)
- 吃饱就睡害处多
- ThinkPHP3.2框架自带分页功能实现方法示例
- java封装前端查询条件通用版
- PHP cookie,session的使用与用户自动登录功能实现方法分析
- python3发送邮件需要经过代理服务器的示例代码