python中常用的交互命令是raw_input,在写脚本时可能会经常用到。他的使用方法比较简单,不清楚的可以参考:http://www.pythonclub.org/python-basic/raw-input 。今天博主在调用图灵机器人的api时被要求输入中文,如果没有经过编码处理,api就会不认得输入的是什么内容。
那么如何把raw_input输入的字符转成utf-8编码格式?python中可以使用decode和encode两个方法。先decode把str转成Unicode格式,然后encode把Unicode编成要求的字符串 。
decode用法:str -> decode(‘the_coding_of_str’) -> unicode
encode用法:unicode -> encode(‘the_coding_you_want’) -> str
字符串是Unicode经过编码后的字节组成。decode时需要知道输入的编码格式,如果格式不对python会抛出错误,类似如下。
>>> s.decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
python 2.7中可以使用sys和locale两个模块自动识别字符串的编码。修改后的代码如下所示。
这样Python 2.7中使用raw_input输入中文时的编码转换问题应该就解决了。如果想要raw_input输入提示符也是中文,那么一样的思路,上面raw_input一行可以改成这样。
info=raw_input(u'提问:'.encode('gb18030')).decode(sys.stdin.encoding or locale.getpreferredencoding(True))
参考连接:http://wklken.me/posts/2013/08/31/python-extra-coding-intro.html