上海戴文 - Drupal开发专家

你在这里

php UTF8 编码翻译

今天的任务是在 drupal_set_error里检测加入不符合条件的字符的UTF8信息。

先用了iconv()

然后 mb系列。

这里值得一提的是,这两个函数都是转码用的 并不能得到编码

然后utf decode 这个更坑爹。也是转码用的。。。

 

无奈自己写了个

  1.     $utf8 = ord($value{0});
  2.     $hex = '0x' . dechex($utf8);
  3.     if ($utf8 > 192) {
  4.       $hex .= ' 0x' . dechex(ord($value{1}));
  5.     }
  6.     if ($utf8 > 224) {
  7.       $hex .= ' 0x' . dechex(ord($value{2}));
  8.     }
  9.     if ($utf8 > 240) {
  10.       $hex .= ' 0x' . dechex(ord($value{1}));
  11.     }
  12.     if ($utf8 > 248) {
  13.       $hex .= ' 0x' . dechex(ord($value{4}));
  14.     }
  15.     elseif ($utf8 > 252) {
  16.       $hex .= ' 0x' . dechex(ord($value{5}));
  17.     }

解释一下

utf8 的官方资料这样说的:

Unicode和UTF-8之間的轉换關係表
UCS-4编码 UTF-8字节流
U+00000000 – U+0000007F 0xxxxxxx
U+00000080 – U+000007FF 110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 – U+03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+04000000 – U+7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

小伙伴们可以看到,UTF8 是根据取第一个八位二进制的数值决定后面的编码的。那么,ord函数,我们就取了字符的第一个八位二进制编码的十进制版本。于是乎就算出一下这些数值的函数便好了:

00000000 0

11000000 192

11100000 224

11110000 240

11111000 248

11111100 252

当大于这一数值时,我们可以认为后面0占位的地方有1出现,那么 后面的区段必须有数值,这样,在$hex后面加入区段即可。

今天比较简单,php。据说讲解php容易被误认为拍簧片。。好吧。

 

tags: 
field_vote: 

猜你喜欢