1 | MBLENGTH = { |
---|
2 | 8:1, |
---|
3 | 33:3, |
---|
4 | 88:2, |
---|
5 | 91:2 |
---|
6 | } |
---|
7 | |
---|
8 | |
---|
9 | class Charset(object): |
---|
10 | def __init__(self, id, name, collation, is_default): |
---|
11 | self.id, self.name, self.collation = id, name, collation |
---|
12 | self.is_default = is_default == 'Yes' |
---|
13 | |
---|
14 | def __repr__(self): |
---|
15 | return "Charset(id=%s, name=%r, collation=%r)" % ( |
---|
16 | self.id, self.name, self.collation) |
---|
17 | |
---|
18 | @property |
---|
19 | def encoding(self): |
---|
20 | name = self.name |
---|
21 | if name == 'utf8mb4': |
---|
22 | return 'utf8' |
---|
23 | return name |
---|
24 | |
---|
25 | @property |
---|
26 | def is_binary(self): |
---|
27 | return self.id == 63 |
---|
28 | |
---|
29 | |
---|
30 | class Charsets: |
---|
31 | def __init__(self): |
---|
32 | self._by_id = {} |
---|
33 | |
---|
34 | def add(self, c): |
---|
35 | self._by_id[c.id] = c |
---|
36 | |
---|
37 | def by_id(self, id): |
---|
38 | return self._by_id[id] |
---|
39 | |
---|
40 | def by_name(self, name): |
---|
41 | name = name.lower() |
---|
42 | for c in self._by_id.values(): |
---|
43 | if c.name == name and c.is_default: |
---|
44 | return c |
---|
45 | |
---|
46 | _charsets = Charsets() |
---|
47 | """ |
---|
48 | Generated with: |
---|
49 | |
---|
50 | mysql -N -s -e "select id, character_set_name, collation_name, is_default |
---|
51 | from information_schema.collations order by id;" | python -c "import sys |
---|
52 | for l in sys.stdin.readlines(): |
---|
53 | id, name, collation, is_default = l.split(chr(9)) |
---|
54 | print '_charsets.add(Charset(%s, \'%s\', \'%s\', \'%s\'))' \ |
---|
55 | % (id, name, collation, is_default.strip()) |
---|
56 | " |
---|
57 | |
---|
58 | """ |
---|
59 | _charsets.add(Charset(1, 'big5', 'big5_chinese_ci', 'Yes')) |
---|
60 | _charsets.add(Charset(2, 'latin2', 'latin2_czech_cs', '')) |
---|
61 | _charsets.add(Charset(3, 'dec8', 'dec8_swedish_ci', 'Yes')) |
---|
62 | _charsets.add(Charset(4, 'cp850', 'cp850_general_ci', 'Yes')) |
---|
63 | _charsets.add(Charset(5, 'latin1', 'latin1_german1_ci', '')) |
---|
64 | _charsets.add(Charset(6, 'hp8', 'hp8_english_ci', 'Yes')) |
---|
65 | _charsets.add(Charset(7, 'koi8r', 'koi8r_general_ci', 'Yes')) |
---|
66 | _charsets.add(Charset(8, 'latin1', 'latin1_swedish_ci', 'Yes')) |
---|
67 | _charsets.add(Charset(9, 'latin2', 'latin2_general_ci', 'Yes')) |
---|
68 | _charsets.add(Charset(10, 'swe7', 'swe7_swedish_ci', 'Yes')) |
---|
69 | _charsets.add(Charset(11, 'ascii', 'ascii_general_ci', 'Yes')) |
---|
70 | _charsets.add(Charset(12, 'ujis', 'ujis_japanese_ci', 'Yes')) |
---|
71 | _charsets.add(Charset(13, 'sjis', 'sjis_japanese_ci', 'Yes')) |
---|
72 | _charsets.add(Charset(14, 'cp1251', 'cp1251_bulgarian_ci', '')) |
---|
73 | _charsets.add(Charset(15, 'latin1', 'latin1_danish_ci', '')) |
---|
74 | _charsets.add(Charset(16, 'hebrew', 'hebrew_general_ci', 'Yes')) |
---|
75 | _charsets.add(Charset(18, 'tis620', 'tis620_thai_ci', 'Yes')) |
---|
76 | _charsets.add(Charset(19, 'euckr', 'euckr_korean_ci', 'Yes')) |
---|
77 | _charsets.add(Charset(20, 'latin7', 'latin7_estonian_cs', '')) |
---|
78 | _charsets.add(Charset(21, 'latin2', 'latin2_hungarian_ci', '')) |
---|
79 | _charsets.add(Charset(22, 'koi8u', 'koi8u_general_ci', 'Yes')) |
---|
80 | _charsets.add(Charset(23, 'cp1251', 'cp1251_ukrainian_ci', '')) |
---|
81 | _charsets.add(Charset(24, 'gb2312', 'gb2312_chinese_ci', 'Yes')) |
---|
82 | _charsets.add(Charset(25, 'greek', 'greek_general_ci', 'Yes')) |
---|
83 | _charsets.add(Charset(26, 'cp1250', 'cp1250_general_ci', 'Yes')) |
---|
84 | _charsets.add(Charset(27, 'latin2', 'latin2_croatian_ci', '')) |
---|
85 | _charsets.add(Charset(28, 'gbk', 'gbk_chinese_ci', 'Yes')) |
---|
86 | _charsets.add(Charset(29, 'cp1257', 'cp1257_lithuanian_ci', '')) |
---|
87 | _charsets.add(Charset(30, 'latin5', 'latin5_turkish_ci', 'Yes')) |
---|
88 | _charsets.add(Charset(31, 'latin1', 'latin1_german2_ci', '')) |
---|
89 | _charsets.add(Charset(32, 'armscii8', 'armscii8_general_ci', 'Yes')) |
---|
90 | _charsets.add(Charset(33, 'utf8', 'utf8_general_ci', 'Yes')) |
---|
91 | _charsets.add(Charset(34, 'cp1250', 'cp1250_czech_cs', '')) |
---|
92 | _charsets.add(Charset(35, 'ucs2', 'ucs2_general_ci', 'Yes')) |
---|
93 | _charsets.add(Charset(36, 'cp866', 'cp866_general_ci', 'Yes')) |
---|
94 | _charsets.add(Charset(37, 'keybcs2', 'keybcs2_general_ci', 'Yes')) |
---|
95 | _charsets.add(Charset(38, 'macce', 'macce_general_ci', 'Yes')) |
---|
96 | _charsets.add(Charset(39, 'macroman', 'macroman_general_ci', 'Yes')) |
---|
97 | _charsets.add(Charset(40, 'cp852', 'cp852_general_ci', 'Yes')) |
---|
98 | _charsets.add(Charset(41, 'latin7', 'latin7_general_ci', 'Yes')) |
---|
99 | _charsets.add(Charset(42, 'latin7', 'latin7_general_cs', '')) |
---|
100 | _charsets.add(Charset(43, 'macce', 'macce_bin', '')) |
---|
101 | _charsets.add(Charset(44, 'cp1250', 'cp1250_croatian_ci', '')) |
---|
102 | _charsets.add(Charset(45, 'utf8mb4', 'utf8mb4_general_ci', 'Yes')) |
---|
103 | _charsets.add(Charset(46, 'utf8mb4', 'utf8mb4_bin', '')) |
---|
104 | _charsets.add(Charset(47, 'latin1', 'latin1_bin', '')) |
---|
105 | _charsets.add(Charset(48, 'latin1', 'latin1_general_ci', '')) |
---|
106 | _charsets.add(Charset(49, 'latin1', 'latin1_general_cs', '')) |
---|
107 | _charsets.add(Charset(50, 'cp1251', 'cp1251_bin', '')) |
---|
108 | _charsets.add(Charset(51, 'cp1251', 'cp1251_general_ci', 'Yes')) |
---|
109 | _charsets.add(Charset(52, 'cp1251', 'cp1251_general_cs', '')) |
---|
110 | _charsets.add(Charset(53, 'macroman', 'macroman_bin', '')) |
---|
111 | _charsets.add(Charset(54, 'utf16', 'utf16_general_ci', 'Yes')) |
---|
112 | _charsets.add(Charset(55, 'utf16', 'utf16_bin', '')) |
---|
113 | _charsets.add(Charset(57, 'cp1256', 'cp1256_general_ci', 'Yes')) |
---|
114 | _charsets.add(Charset(58, 'cp1257', 'cp1257_bin', '')) |
---|
115 | _charsets.add(Charset(59, 'cp1257', 'cp1257_general_ci', 'Yes')) |
---|
116 | _charsets.add(Charset(60, 'utf32', 'utf32_general_ci', 'Yes')) |
---|
117 | _charsets.add(Charset(61, 'utf32', 'utf32_bin', '')) |
---|
118 | _charsets.add(Charset(63, 'binary', 'binary', 'Yes')) |
---|
119 | _charsets.add(Charset(64, 'armscii8', 'armscii8_bin', '')) |
---|
120 | _charsets.add(Charset(65, 'ascii', 'ascii_bin', '')) |
---|
121 | _charsets.add(Charset(66, 'cp1250', 'cp1250_bin', '')) |
---|
122 | _charsets.add(Charset(67, 'cp1256', 'cp1256_bin', '')) |
---|
123 | _charsets.add(Charset(68, 'cp866', 'cp866_bin', '')) |
---|
124 | _charsets.add(Charset(69, 'dec8', 'dec8_bin', '')) |
---|
125 | _charsets.add(Charset(70, 'greek', 'greek_bin', '')) |
---|
126 | _charsets.add(Charset(71, 'hebrew', 'hebrew_bin', '')) |
---|
127 | _charsets.add(Charset(72, 'hp8', 'hp8_bin', '')) |
---|
128 | _charsets.add(Charset(73, 'keybcs2', 'keybcs2_bin', '')) |
---|
129 | _charsets.add(Charset(74, 'koi8r', 'koi8r_bin', '')) |
---|
130 | _charsets.add(Charset(75, 'koi8u', 'koi8u_bin', '')) |
---|
131 | _charsets.add(Charset(77, 'latin2', 'latin2_bin', '')) |
---|
132 | _charsets.add(Charset(78, 'latin5', 'latin5_bin', '')) |
---|
133 | _charsets.add(Charset(79, 'latin7', 'latin7_bin', '')) |
---|
134 | _charsets.add(Charset(80, 'cp850', 'cp850_bin', '')) |
---|
135 | _charsets.add(Charset(81, 'cp852', 'cp852_bin', '')) |
---|
136 | _charsets.add(Charset(82, 'swe7', 'swe7_bin', '')) |
---|
137 | _charsets.add(Charset(83, 'utf8', 'utf8_bin', '')) |
---|
138 | _charsets.add(Charset(84, 'big5', 'big5_bin', '')) |
---|
139 | _charsets.add(Charset(85, 'euckr', 'euckr_bin', '')) |
---|
140 | _charsets.add(Charset(86, 'gb2312', 'gb2312_bin', '')) |
---|
141 | _charsets.add(Charset(87, 'gbk', 'gbk_bin', '')) |
---|
142 | _charsets.add(Charset(88, 'sjis', 'sjis_bin', '')) |
---|
143 | _charsets.add(Charset(89, 'tis620', 'tis620_bin', '')) |
---|
144 | _charsets.add(Charset(90, 'ucs2', 'ucs2_bin', '')) |
---|
145 | _charsets.add(Charset(91, 'ujis', 'ujis_bin', '')) |
---|
146 | _charsets.add(Charset(92, 'geostd8', 'geostd8_general_ci', 'Yes')) |
---|
147 | _charsets.add(Charset(93, 'geostd8', 'geostd8_bin', '')) |
---|
148 | _charsets.add(Charset(94, 'latin1', 'latin1_spanish_ci', '')) |
---|
149 | _charsets.add(Charset(95, 'cp932', 'cp932_japanese_ci', 'Yes')) |
---|
150 | _charsets.add(Charset(96, 'cp932', 'cp932_bin', '')) |
---|
151 | _charsets.add(Charset(97, 'eucjpms', 'eucjpms_japanese_ci', 'Yes')) |
---|
152 | _charsets.add(Charset(98, 'eucjpms', 'eucjpms_bin', '')) |
---|
153 | _charsets.add(Charset(99, 'cp1250', 'cp1250_polish_ci', '')) |
---|
154 | _charsets.add(Charset(101, 'utf16', 'utf16_unicode_ci', '')) |
---|
155 | _charsets.add(Charset(102, 'utf16', 'utf16_icelandic_ci', '')) |
---|
156 | _charsets.add(Charset(103, 'utf16', 'utf16_latvian_ci', '')) |
---|
157 | _charsets.add(Charset(104, 'utf16', 'utf16_romanian_ci', '')) |
---|
158 | _charsets.add(Charset(105, 'utf16', 'utf16_slovenian_ci', '')) |
---|
159 | _charsets.add(Charset(106, 'utf16', 'utf16_polish_ci', '')) |
---|
160 | _charsets.add(Charset(107, 'utf16', 'utf16_estonian_ci', '')) |
---|
161 | _charsets.add(Charset(108, 'utf16', 'utf16_spanish_ci', '')) |
---|
162 | _charsets.add(Charset(109, 'utf16', 'utf16_swedish_ci', '')) |
---|
163 | _charsets.add(Charset(110, 'utf16', 'utf16_turkish_ci', '')) |
---|
164 | _charsets.add(Charset(111, 'utf16', 'utf16_czech_ci', '')) |
---|
165 | _charsets.add(Charset(112, 'utf16', 'utf16_danish_ci', '')) |
---|
166 | _charsets.add(Charset(113, 'utf16', 'utf16_lithuanian_ci', '')) |
---|
167 | _charsets.add(Charset(114, 'utf16', 'utf16_slovak_ci', '')) |
---|
168 | _charsets.add(Charset(115, 'utf16', 'utf16_spanish2_ci', '')) |
---|
169 | _charsets.add(Charset(116, 'utf16', 'utf16_roman_ci', '')) |
---|
170 | _charsets.add(Charset(117, 'utf16', 'utf16_persian_ci', '')) |
---|
171 | _charsets.add(Charset(118, 'utf16', 'utf16_esperanto_ci', '')) |
---|
172 | _charsets.add(Charset(119, 'utf16', 'utf16_hungarian_ci', '')) |
---|
173 | _charsets.add(Charset(120, 'utf16', 'utf16_sinhala_ci', '')) |
---|
174 | _charsets.add(Charset(128, 'ucs2', 'ucs2_unicode_ci', '')) |
---|
175 | _charsets.add(Charset(129, 'ucs2', 'ucs2_icelandic_ci', '')) |
---|
176 | _charsets.add(Charset(130, 'ucs2', 'ucs2_latvian_ci', '')) |
---|
177 | _charsets.add(Charset(131, 'ucs2', 'ucs2_romanian_ci', '')) |
---|
178 | _charsets.add(Charset(132, 'ucs2', 'ucs2_slovenian_ci', '')) |
---|
179 | _charsets.add(Charset(133, 'ucs2', 'ucs2_polish_ci', '')) |
---|
180 | _charsets.add(Charset(134, 'ucs2', 'ucs2_estonian_ci', '')) |
---|
181 | _charsets.add(Charset(135, 'ucs2', 'ucs2_spanish_ci', '')) |
---|
182 | _charsets.add(Charset(136, 'ucs2', 'ucs2_swedish_ci', '')) |
---|
183 | _charsets.add(Charset(137, 'ucs2', 'ucs2_turkish_ci', '')) |
---|
184 | _charsets.add(Charset(138, 'ucs2', 'ucs2_czech_ci', '')) |
---|
185 | _charsets.add(Charset(139, 'ucs2', 'ucs2_danish_ci', '')) |
---|
186 | _charsets.add(Charset(140, 'ucs2', 'ucs2_lithuanian_ci', '')) |
---|
187 | _charsets.add(Charset(141, 'ucs2', 'ucs2_slovak_ci', '')) |
---|
188 | _charsets.add(Charset(142, 'ucs2', 'ucs2_spanish2_ci', '')) |
---|
189 | _charsets.add(Charset(143, 'ucs2', 'ucs2_roman_ci', '')) |
---|
190 | _charsets.add(Charset(144, 'ucs2', 'ucs2_persian_ci', '')) |
---|
191 | _charsets.add(Charset(145, 'ucs2', 'ucs2_esperanto_ci', '')) |
---|
192 | _charsets.add(Charset(146, 'ucs2', 'ucs2_hungarian_ci', '')) |
---|
193 | _charsets.add(Charset(147, 'ucs2', 'ucs2_sinhala_ci', '')) |
---|
194 | _charsets.add(Charset(159, 'ucs2', 'ucs2_general_mysql500_ci', '')) |
---|
195 | _charsets.add(Charset(160, 'utf32', 'utf32_unicode_ci', '')) |
---|
196 | _charsets.add(Charset(161, 'utf32', 'utf32_icelandic_ci', '')) |
---|
197 | _charsets.add(Charset(162, 'utf32', 'utf32_latvian_ci', '')) |
---|
198 | _charsets.add(Charset(163, 'utf32', 'utf32_romanian_ci', '')) |
---|
199 | _charsets.add(Charset(164, 'utf32', 'utf32_slovenian_ci', '')) |
---|
200 | _charsets.add(Charset(165, 'utf32', 'utf32_polish_ci', '')) |
---|
201 | _charsets.add(Charset(166, 'utf32', 'utf32_estonian_ci', '')) |
---|
202 | _charsets.add(Charset(167, 'utf32', 'utf32_spanish_ci', '')) |
---|
203 | _charsets.add(Charset(168, 'utf32', 'utf32_swedish_ci', '')) |
---|
204 | _charsets.add(Charset(169, 'utf32', 'utf32_turkish_ci', '')) |
---|
205 | _charsets.add(Charset(170, 'utf32', 'utf32_czech_ci', '')) |
---|
206 | _charsets.add(Charset(171, 'utf32', 'utf32_danish_ci', '')) |
---|
207 | _charsets.add(Charset(172, 'utf32', 'utf32_lithuanian_ci', '')) |
---|
208 | _charsets.add(Charset(173, 'utf32', 'utf32_slovak_ci', '')) |
---|
209 | _charsets.add(Charset(174, 'utf32', 'utf32_spanish2_ci', '')) |
---|
210 | _charsets.add(Charset(175, 'utf32', 'utf32_roman_ci', '')) |
---|
211 | _charsets.add(Charset(176, 'utf32', 'utf32_persian_ci', '')) |
---|
212 | _charsets.add(Charset(177, 'utf32', 'utf32_esperanto_ci', '')) |
---|
213 | _charsets.add(Charset(178, 'utf32', 'utf32_hungarian_ci', '')) |
---|
214 | _charsets.add(Charset(179, 'utf32', 'utf32_sinhala_ci', '')) |
---|
215 | _charsets.add(Charset(192, 'utf8', 'utf8_unicode_ci', '')) |
---|
216 | _charsets.add(Charset(193, 'utf8', 'utf8_icelandic_ci', '')) |
---|
217 | _charsets.add(Charset(194, 'utf8', 'utf8_latvian_ci', '')) |
---|
218 | _charsets.add(Charset(195, 'utf8', 'utf8_romanian_ci', '')) |
---|
219 | _charsets.add(Charset(196, 'utf8', 'utf8_slovenian_ci', '')) |
---|
220 | _charsets.add(Charset(197, 'utf8', 'utf8_polish_ci', '')) |
---|
221 | _charsets.add(Charset(198, 'utf8', 'utf8_estonian_ci', '')) |
---|
222 | _charsets.add(Charset(199, 'utf8', 'utf8_spanish_ci', '')) |
---|
223 | _charsets.add(Charset(200, 'utf8', 'utf8_swedish_ci', '')) |
---|
224 | _charsets.add(Charset(201, 'utf8', 'utf8_turkish_ci', '')) |
---|
225 | _charsets.add(Charset(202, 'utf8', 'utf8_czech_ci', '')) |
---|
226 | _charsets.add(Charset(203, 'utf8', 'utf8_danish_ci', '')) |
---|
227 | _charsets.add(Charset(204, 'utf8', 'utf8_lithuanian_ci', '')) |
---|
228 | _charsets.add(Charset(205, 'utf8', 'utf8_slovak_ci', '')) |
---|
229 | _charsets.add(Charset(206, 'utf8', 'utf8_spanish2_ci', '')) |
---|
230 | _charsets.add(Charset(207, 'utf8', 'utf8_roman_ci', '')) |
---|
231 | _charsets.add(Charset(208, 'utf8', 'utf8_persian_ci', '')) |
---|
232 | _charsets.add(Charset(209, 'utf8', 'utf8_esperanto_ci', '')) |
---|
233 | _charsets.add(Charset(210, 'utf8', 'utf8_hungarian_ci', '')) |
---|
234 | _charsets.add(Charset(211, 'utf8', 'utf8_sinhala_ci', '')) |
---|
235 | _charsets.add(Charset(223, 'utf8', 'utf8_general_mysql500_ci', '')) |
---|
236 | _charsets.add(Charset(224, 'utf8mb4', 'utf8mb4_unicode_ci', '')) |
---|
237 | _charsets.add(Charset(225, 'utf8mb4', 'utf8mb4_icelandic_ci', '')) |
---|
238 | _charsets.add(Charset(226, 'utf8mb4', 'utf8mb4_latvian_ci', '')) |
---|
239 | _charsets.add(Charset(227, 'utf8mb4', 'utf8mb4_romanian_ci', '')) |
---|
240 | _charsets.add(Charset(228, 'utf8mb4', 'utf8mb4_slovenian_ci', '')) |
---|
241 | _charsets.add(Charset(229, 'utf8mb4', 'utf8mb4_polish_ci', '')) |
---|
242 | _charsets.add(Charset(230, 'utf8mb4', 'utf8mb4_estonian_ci', '')) |
---|
243 | _charsets.add(Charset(231, 'utf8mb4', 'utf8mb4_spanish_ci', '')) |
---|
244 | _charsets.add(Charset(232, 'utf8mb4', 'utf8mb4_swedish_ci', '')) |
---|
245 | _charsets.add(Charset(233, 'utf8mb4', 'utf8mb4_turkish_ci', '')) |
---|
246 | _charsets.add(Charset(234, 'utf8mb4', 'utf8mb4_czech_ci', '')) |
---|
247 | _charsets.add(Charset(235, 'utf8mb4', 'utf8mb4_danish_ci', '')) |
---|
248 | _charsets.add(Charset(236, 'utf8mb4', 'utf8mb4_lithuanian_ci', '')) |
---|
249 | _charsets.add(Charset(237, 'utf8mb4', 'utf8mb4_slovak_ci', '')) |
---|
250 | _charsets.add(Charset(238, 'utf8mb4', 'utf8mb4_spanish2_ci', '')) |
---|
251 | _charsets.add(Charset(239, 'utf8mb4', 'utf8mb4_roman_ci', '')) |
---|
252 | _charsets.add(Charset(240, 'utf8mb4', 'utf8mb4_persian_ci', '')) |
---|
253 | _charsets.add(Charset(241, 'utf8mb4', 'utf8mb4_esperanto_ci', '')) |
---|
254 | _charsets.add(Charset(242, 'utf8mb4', 'utf8mb4_hungarian_ci', '')) |
---|
255 | _charsets.add(Charset(243, 'utf8mb4', 'utf8mb4_sinhala_ci', '')) |
---|
256 | _charsets.add(Charset(244, 'utf8mb4', 'utf8mb4_german2_ci', '')) |
---|
257 | _charsets.add(Charset(245, 'utf8mb4', 'utf8mb4_croatian_ci', '')) |
---|
258 | _charsets.add(Charset(246, 'utf8mb4', 'utf8mb4_unicode_520_ci', '')) |
---|
259 | _charsets.add(Charset(247, 'utf8mb4', 'utf8mb4_vietnamese_ci', '')) |
---|
260 | |
---|
261 | |
---|
262 | charset_by_name = _charsets.by_name |
---|
263 | charset_by_id = _charsets.by_id |
---|
264 | |
---|
265 | |
---|
266 | def charset_to_encoding(name): |
---|
267 | """Convert MySQL's charset name to Python's codec name""" |
---|
268 | if name == 'utf8mb4': |
---|
269 | return 'utf8' |
---|
270 | return name |
---|