#!/usr/bin/env python # Test script for ununicode.toascii() import ununicode import sys # # Main -- read the config file and loop over sites. # if __name__ == '__main__': if len(sys.argv) > 1 : print "Testing ununicode on", sys.argv[1] #print "Path:", sys.path fp = open(sys.argv[1], "r") while True : line = fp.readline() if not line : break print ununicode.toascii(line) sys.exit(0) # No arguments: test on a few fixed strings. teststrings = [ # A UTF-8 string with Spanish in it: [ '
Mencionemos tambi\xc3\xa9n en BBC Mundo el art\xc3\xadculo desde M\xc3\xa9xico de Cecilia Barria: El lado silencioso de la gripe porcina. Un texto valiente que apuesta por minimizar los efectos de la \xe2\x80\x9cpandemia medi\xc3\xa1tica\xe2\x80\x9d, a partir de un estudio de la Universidad Aut\xc3\xb3noma de M\xc3\xa9xico seg\xc3\xban el cual hubo un gran n\xc3\xbamero de infectados por la gripe porcina que ni se enteraron. Tambi\xc3\xa9n aporta datos sobre el foco inicial del origen de la gripe en M\xc3\xa9xico.
', 'Mencionemos tambie\'n en BBC Mundo el arti\'culo desde Me\'xico de Cecilia Barria: El lado silencioso de la gripe porcina. Un texto valiente que apuesta por minimizar los efectos de la "pandemia media\'tica", a partir de un estudio de la Universidad Auto\'noma de Me\'xico segu\'n el cual hubo un gran nu\'mero de infectados por la gripe porcina que ni se enteraron. Tambie\'n aporta datos sobre el foco inicial del origen de la gripe en Me\'xico.
' ], # Some text from a news article, with smartquotes [ '', '' ], ] for pair in teststrings : decoded = ununicode.toascii(pair[0]) if decoded == pair[1] : print "Pass" else : print "Fail", len(decoded), ": ", decoded print "Should be", len(pair[1]), ":", pair[1] print "Differences:" for i in range(0, min(len(pair[1]), len(decoded)) - 1) : if decoded[i] != pair[1][i] : print i, ":", decoded[i], "instead of", pair[1][i]