UnicodeEncodeError：'ascii' 编解码器无法在位置 0 编码字符 u'\xef'：序数不在范围内（128）

python google-app-engine xml-parsing

我想解析我的 XML 文档。所以我将我的 XML 文档存储如下

class XMLdocs(db.Expando):  
   id = db.IntegerProperty()    
   name=db.StringProperty()  
   content=db.BlobProperty()

现在我的下面是我的代码

parser = make_parser()     
curHandler = BasketBallHandler()  
parser.setContentHandler(curHandler)  
for q in XMLdocs.all():  
        parser.parse(StringIO.StringIO(q.content))

我得到以下错误

'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)
Traceback (most recent call last):  
  File "/base/python_runtime/python_lib/versions/1/google/appengine/ext/webapp/__init__.py", line 517, in __call__
    handler.post(*groups)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/base_handler.py", line 59, in post
    self.handle()   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 168, in handle
    scan_aborted = not self.process_entity(entity, ctx)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 233, in process_entity
    handler(entity)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 71, in process
    parser.parse(StringIO.StringIO(q.content))   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 107, in parse
    xmlreader.IncrementalParser.parse(self, source)   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/xmlreader.py", line 123, in parse
    self.feed(buffer)  
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 207, in feed
    self._parser.Parse(data, isFinal)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 136, in characters   
    print ch   
UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)

您的堆栈跟踪显示您的执行代码与您粘贴的不同 - 并且您正在使用 print。不要在 WSGI 应用程序中使用打印！

Kenan Banks

这个问题的实际最佳答案取决于您的环境，特别是您的终端期望的编码。

最快的单行解决方案是将您打印的所有内容编码为您的终端几乎肯定会接受的 ASCII，同时丢弃您无法打印的字符：

print ch #fails
print ch.encode('ascii', 'ignore')

更好的解决方案是将终端的编码更改为 utf-8，并在打印前将所有内容编码为 utf-8。您应该养成每次打印或读取字符串时考虑 unicode 编码的习惯。

就我而言，我正在将 twitter 流打印到终端，并且工作正常。然后我想将程序输出重定向到一个文件，我开始得到'ascii'编解码器无法编码位置 32-36 中的字符。后来，就像在这个答案中一样，我使用了 print tweet.encode("utf-8",ignore) ，这一切都奏效了。

Nicole

只需将 .encode('utf-8') 放在对象的末尾即可在最新版本的 Python 中完成这项工作。

“最新版本的 Python”是什么意思？只有 3.x，还是还有 2.7？

Python 2.7 显然是最近才出现的，因为它仍在广泛使用中。

在 Python 2.7 上为我工作

Morgan Wilde

看来您遇到了 UTF-8 字节顺序标记 (BOM)。尝试使用此 unicode 字符串提取 BOM：

import codecs

content = unicode(q.content.strip(codecs.BOM_UTF8), 'utf-8')
parser.parse(StringIO.StringIO(content))

我使用 strip 而不是 lstrip，因为在您的情况下，您多次出现 BOM，可能是由于连接的文件内容。

我已经完全按照答案中提到的那样做了，但出现了上述错误，首先它给了我在问题提到的位置 0，现在它给了我在上一个评论中提到的位置 5785

我建议使用 s = unicode(s.strip(codecs.BOM_UTF8), 'utf-8') 转换任何产生错误的字符串 s。 s 是指您的字符串的名称。

尝试将 lstrip 替换为 strip。

我明白你的建议，我也详细地做了同样的错误：ascii' codec can't encode character u'\xef' in position 5785: ordinal not in range(128)

这是在打印期间将 unicode 转换为字符串期间的编码错误。它不包含 UTF-8 BOM，无法解码回 unicode，错误是因为它包含非 ASCII 字符 - 删除它们会破坏内容，而 BOM 只是其中之一。

Orlando Pozo

这对我有用：

from django.utils.encoding import smart_str
content = smart_str(content)

Duncan

根据您的回溯，问题是 parseXML.py 第 136 行的 print 语句。不幸的是，您认为不适合发布您的代码的那部分，但我猜它只是用于调试。如果您将其更改为：

print repr(ch)

那么您至少应该看到您要打印的内容。

-1 用于解决明显的 unicode 编码问题的非 unicode 解决方案。

unicode 编码问题与 print 语句有关。是的，可能还有其他问题，但修复打印不崩溃是当务之急。

Rosh Oxymoron

问题是您正在尝试将 unicode 字符打印到可能的非 unicode 终端。您需要在打印之前使用 'replace 选项对其进行编码，例如 print ch.encode(sys.stdout.encoding, 'replace')。

打印不是必需的，我得到错误的主要语句是解析语句

@Mahesh：是您的代码导致了问题，在 parseXML.py 的第 136 行——要么自己修复它，要么向我们展示那部分代码，以便我们为您提供帮助。

Hafiz Muhammad Shafiq

克服此问题的一个简单解决方案是将默认编码设置为 utf8。跟随是一个例子

import sys

reload(sys)
sys.setdefaultencoding('utf8')

不要这样做。 why it breaks code

你能解释一下原因吗？

我的评论中有一个链接可以解释它。本质上，库希望 ascii 的默认值保持默认值。这就是为什么如果没有 reload 技巧，setdefaultencoding 通常是不可用的。

UnicodeEncodeError：'ascii' 编解码器无法在位置 0 编码字符 u'\xef'：序数不在范围内（128）

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

友情链接

联系我们