今天的任务是在 drupal_set_error里检测加入不符合条件的字符的UTF8信息。
先用了iconv()
然后 mb系列。
这里值得一提的是,这两个函数都是转码用的 并不能得到编码
然后utf decode 这个更坑爹。也是转码用的。。。
无奈自己写了个
- $utf8 = ord($value{0});
- $hex = '0x' . dechex($utf8);
- if ($utf8 > 192) {
- $hex .= ' 0x' . dechex(ord($value{1}));
- }
- if ($utf8 > 224) {
- $hex .= ' 0x' . dechex(ord($value{2}));
- }
- if ($utf8 > 240) {
- $hex .= ' 0x' . dechex(ord($value{1}));
- }
- if ($utf8 > 248) {
- $hex .= ' 0x' . dechex(ord($value{4}));
- }
- elseif ($utf8 > 252) {
- $hex .= ' 0x' . dechex(ord($value{5}));
- }
解释一下
utf8 的官方资料这样说的:
UCS-4编码 | UTF-8字节流 |
---|---|
U+00000000 – U+0000007F | 0xxxxxxx |
U+00000080 – U+000007FF | 110xxxxx 10xxxxxx |
U+00000800 – U+0000FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
U+00010000 – U+001FFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
U+00200000 – U+03FFFFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
U+04000000 – U+7FFFFFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
小伙伴们可以看到,UTF8 是根据取第一个八位二进制的数值决定后面的编码的。那么,ord函数,我们就取了字符的第一个八位二进制编码的十进制版本。于是乎就算出一下这些数值的函数便好了:
00000000 0
11000000 192
11100000 224
11110000 240
11111000 248
11111100 252
当大于这一数值时,我们可以认为后面0占位的地方有1出现,那么 后面的区段必须有数值,这样,在$hex后面加入区段即可。
今天比较简单,php。据说讲解php容易被误认为拍簧片。。好吧。
articles
tags