I have the following list of strings:
['\xe8\xbf\x99\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe4\xbb\xa4\xe4\xba\xba\xe6\xb2\xae\xe4\xb8\xa7\xe7\x9a\x84\xe6\x97\xa5\x82','\xe6\x9c\x89\xe4\xb8\xaa\xe5\xb9\xb4\xe5\xb9\xbc\xe7\x9a\x84\xe5\x9f\xe5\x9c\xa8\xe7\x82\x8e\xe7\x82\x8e\xe7\x83\x88\xe6\x97\xa5\xb8\x8b\xe6\x99\x95\xe5\x80\x92\xe4\xba\x86\xe3\x80\x82','\xe8\x90\xbd\xe6\x97\xa5\x8a\x8a\xe5\xa4\xa9\xe7\xa9\xba\xe6\x9f\x93\xe6\x88\x90\xe9\x87\x91\xe8\x89\xb2\xe3\x80\xe6\x97\xa5\x8a\x8a\xe5\xa4\xa9\xe7\xa9\xba\xe6\x9f\x93\xe6\x88\x90\xe9\x87\x91\xe8\x89\xb2\xe3\x80\x82','\xe6\x98\x9f\xe6\x9c\x9f\xe6\x97\xa5\x98\xaf\xe4\xb8\x80\xe5\x91\xa8\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe5\xa4\xa9\xe3\x80\xe6\x9c\x9f\xe6\x97\xa5\x98\xaf\xe4\xb8\x80\xe5\x91\xa8\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe5\xa4\xa9\xe3\x80\x82','\xe5\x8d\x81\xe6\x9c\x88\xe4\xb8\x80\xe6\x97\xa5\x98\xaf\xe4\xb8\xe7\x9a\x84\xe5\x9b\xbd\xe5\xba\x86\xe8\x8a\x82\xe3\x80\x82','\xe5\x9c\xa8\xe6\x97\xa5\x9c\xac\xef\xbc\x8c\xe6\xa3\x92\xe7\x90\x83\xe6\xaf\x94\xe5\x85\xb6\xe4\xbb\x96\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbf\x90\xe5\x8a\xa8\xe9\x83\xbd\xe5\x8f\x97\xe4\xba\xba\xe6\xac\xa2\xe8\xbf\x8e\xe3\x80\xe6\x97\xa5\x9c\xac\xef\xbc\x8c\xe6\xa3\x92\xe7\x90\x83\xe6\xaf\x94\xe5\x85\xb6\xe4\xbb\x96\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbf\x90\xe5\x8a\xa8\xe9\x83\xbd\xe5\x8f\x97\xe4\xba\xba\xe6\xac\xa2\xe8\xbf\x8e\xe3\x80\x82','\xe8\xbf\x99\xe6\x98\xaf\xe6\xaf\x8f\xe5\xae\x89\xe6\x81\xaf\xe6\x97\xa5\xbc\x8c\xe9\x99\xa4\xe6\x97\xa5\xe5\xb8\xb8\xe7\x9a\x84\xe5\x85\xa8\xe7\x87\x94\xe7\xa5\xe5\xa5\xa0\xe7\xa5\xad\xe5\xa4\x96\xef\xbc\x8c\xe5\xba\x94\xe7\x8c\xae\xe7\x9a\x84\xe5\xae\x89\xe6\x81\xaf\xe6\x97\xa5\xe5\x85\xa8\xe7\x87\x94\xe7\xa5\xad\xe3\x80\x82','\xe6\x9c\x89\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe5\x8f\xaa\xe6\x9c\x89\xe9\x83\xa8\xe5\x88\x86\xe6\x97\xa5\xbd\xae\xe8\xa2\xab\xe9\x81\xae\xe6\x8c\xa1\xe4\xbd\x8f\xef\xbc\x8c\xe9\x82\xa3\xe5\xb0\xb1\xe4\xb8\x8d\xe6\x98\xaf\xe6\x97\xa5\xe5\x85\xa8\xe9\xa3\x9f\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe6\x97\xa5\xe5\x81\x8f\xe9\xa3\x9f\xe3\x80\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe5\x8f\xaa\xe6\x9c\x89\xe9\x83\xa8\xe5\x88\x86\xe6\x97\xa5\xbd\xae\xe8\xa2\xab\xe9\x81\xae\xe6\x8c\xa1\xe4\xbd\x8f\xef\xbc\x8c\xe9\x82\xa3\xe5\xb0\xb1\xe4\xb8\x8d\xe6\x98\xaf\xe6\x97\xa5\xe5\x85\xa8\xe9\xa3\x9f\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe6\x97\xa5\xe5\x81\x8f\xe9\xa3\x9f\xe3\x80\x82','\xe4\xba\x8b\xe4\xbb\xb6\xe5\x8f\x91\xe7\x94\x9f\xe6\x97\xa5\x8f\xaf\xe6\x8c\x87\xe5\xae\x9a\xe4\xb8\xba\xe5\x91\xa8\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe6\x88\x96\xe6\x9c\x88\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe3\x80\xe4\xbb\xb6\xe5\x8f\x91\xe7\x94\x9f\xe6\x97\xa5\x8f\xaf\xe6\x8c\x87\xe5\xae\x9a\xe4\xb8\xba\xe5\x91\xa8\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe6\x88\x96\xe6\x9c\x88\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe3\x80\x82']
The program keeps giving me this error:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xad in position 30: invalid start byte
I am using this piece of code to go through the list and try to convert, where new_sentences
is the list:
for i in range(0,len(new_sentences)):
stuff = new_sentences[i].strip()
stuff = unicode(stuff,"utf8")
I have gone through the list, but cannot find the byte that can not be converted. I know it's very long, but any help would be appreciated. Thanks.
'
at the end of the last line. - pp_