编码转换

潇NO潇 · 发表于 2019-8-13 23:07:49

有比较完善的Unicode到UCS2的编码吗？是字节集的比如{231,0,227,0,0,0}

多国语言

\u00E7\u00E3

潇NO潇 · 发表于 2019-8-14 00:26:18

看了下源码好像很多都会处理掉因为这些是html那边获取的有些要保留我看了下https://bbs.125.la/forum.php?mod=viewthread&tid=14069551&extra=
他的编码我改了下这个地方
你那样是可以，主要是全部都编码进去了，有些不用编码

子程序名	返回值类型	公开	备注
编码_Unicode到UCS2	文本型
参数名	类型	参考	可空	数组	备注
Unicode字节集	字节集
分隔符前缀	文本型				默认\u
分隔符后缀	文本型				比如前缀是 &#x 后缀是 ; 就是个针对十六进制的简单的 html 实体转义

变量名	类型	静态	数组	备注
Len	整数型
_分隔符前缀	字节集
_分隔符前缀_Len	整数型
_分隔符后缀	字节集
_分隔符后缀_Len	整数型
Ret	字节集
i	整数型
RetPos	整数型
HEX	字节集
j	整数型

Len ＝取字节集长度 (Unicode字节集) ＼ 2

如果真 (取字节集中间 (Unicode字节集, Len × 2 － 1, 2) ＝ { 0, 0 })

Len ＝ Len － 1

如果真 (Len ＜ 1)

返回 (“”)
HEX ＝ { 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 97, 98, 99, 100, 101, 102 } ' 到字节集 (“0123456789abcdef”)

如果 (分隔符前缀＝ “”)

_分隔符前缀＝ { 92, 117 } ' \u

_分隔符前缀＝到字节集 (分隔符前缀)

_分隔符前缀_Len ＝取字节集长度 (_分隔符前缀)

如果 (分隔符后缀＝ “”)

_分隔符后缀＝到字节集 (分隔符后缀)

_分隔符后缀_Len ＝取字节集长度 (_分隔符后缀)
Ret ＝取空白字节集 ( (_分隔符前缀_Len ＋ _分隔符后缀_Len ＋ 4) × Len ＋ 1)
' 本来想取重复字节集_分隔符[1],以为可以减少赋值次数,结果这个命令极其费时间,作罢

变量循环首 (1, 2 × Len, 2, i)

如果 (Unicode字节集 [i ＋ 1] ＝ 0 且 Unicode字节集 [i] ＜ 127)

RetPos ＝ RetPos ＋ 1

Ret [RetPos] ＝ Unicode字节集 [i]

计次循环首 (_分隔符前缀_Len, j)

Ret [RetPos ＋ j] ＝ _分隔符前缀 [j]

计次循环尾 ()

RetPos ＝ RetPos ＋ _分隔符前缀_Len

RetPos ＝ RetPos ＋ 4

Ret [RetPos － 3] ＝ HEX [右移_asm (Unicode字节集 [i ＋ 1], 4) ＋ 1]

Ret [RetPos － 2] ＝ HEX [位与_asm (Unicode字节集 [i ＋ 1], 15) ＋ 1]

Ret [RetPos － 1] ＝ HEX [右移_asm (Unicode字节集 [i], 4) ＋ 1]

Ret [RetPos] ＝ HEX [位与_asm (Unicode字节集 [i], 15) ＋ 1]

如果真 (_分隔符后缀_Len ≠ 0)

计次循环首 (_分隔符后缀_Len, j)

Ret [RetPos ＋ j] ＝ _分隔符后缀 [j]

计次循环尾 ()

RetPos ＝ RetPos ＋ _分隔符后缀_Len

变量循环尾 ()
返回 (到文本 (Ret))

.版本 2<br />
<br />
.子程序 编码_Unicode到UCS2, 文本型, 公开<br />
.参数 Unicode字节集, 字节集<br />
.参数 分隔符前缀, 文本型, 可空, 默认\u<br />
.参数 分隔符后缀, 文本型, 可空, 比如前缀是 &#x   后缀是 ;   就是个针对十六进制的简单的 html 实体转义<br />
.局部变量 Len, 整数型<br />
.局部变量 _分隔符前缀, 字节集<br />
.局部变量 _分隔符前缀_Len, 整数型<br />
.局部变量 _分隔符后缀, 字节集<br />
.局部变量 _分隔符后缀_Len, 整数型<br />
.局部变量 Ret, 字节集<br />
.局部变量 i, 整数型<br />
.局部变量 RetPos, 整数型<br />
.局部变量 HEX, 字节集<br />
.局部变量 j, 整数型<br />
<br />
Len ＝ 取字节集长度 (Unicode字节集) ＼ 2<br />
.如果真 (取字节集中间 (Unicode字节集, Len × 2 － 1, 2) ＝ { 0, 0 })<br />
    Len ＝ Len － 1<br />
.如果真结束<br />
.如果真 (Len ＜ 1)<br />
    返回 (“”)<br />
.如果真结束<br />
HEX ＝ { 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 97, 98, 99, 100, 101, 102 }  ' 到字节集 (“0123456789abcdef”)<br />
.如果 (分隔符前缀 ＝ “”)<br />
    _分隔符前缀 ＝ { 92, 117 }  ' \u<br />
.否则<br />
    _分隔符前缀 ＝ 到字节集 (分隔符前缀)<br />
.如果结束<br />
<br />
_分隔符前缀_Len ＝ 取字节集长度 (_分隔符前缀)<br />
<br />
.如果 (分隔符后缀 ＝ “”)<br />
<br />
.否则<br />
    _分隔符后缀 ＝ 到字节集 (分隔符后缀)<br />
.如果结束<br />
<br />
_分隔符后缀_Len ＝ 取字节集长度 (_分隔符后缀)<br />
<br />
Ret ＝ 取空白字节集 ((_分隔符前缀_Len ＋ _分隔符后缀_Len ＋ 4) × Len ＋ 1)<br />
<br />
' 本来想取重复字节集_分隔符[1],以为可以减少赋值次数,结果这个命令极其费时间,作罢<br />
<br />
.变量循环首 (1, 2 × Len, 2, i)<br />
<br />
    .如果 (Unicode字节集 [i ＋ 1] ＝ 0 且 Unicode字节集 <i> ＜ 127)<br />
        RetPos ＝ RetPos ＋ 1<br />
        Ret [RetPos] ＝ Unicode字节集 <i><br />
<br />
<br />
    .否则<br />
<br />
        .计次循环首 (_分隔符前缀_Len, j)<br />
            Ret [RetPos ＋ j] ＝ _分隔符前缀 [j]<br />
        .计次循环尾 ()<br />
<br />
<br />
        RetPos ＝ RetPos ＋ _分隔符前缀_Len<br />
        RetPos ＝ RetPos ＋ 4<br />
        Ret [RetPos － 3] ＝ HEX [右移_asm (Unicode字节集 [i ＋ 1], 4) ＋ 1]<br />
        Ret [RetPos － 2] ＝ HEX [位与_asm (Unicode字节集 [i ＋ 1], 15) ＋ 1]<br />
        Ret [RetPos － 1] ＝ HEX [右移_asm (Unicode字节集 <i>, 4) ＋ 1]<br />
        Ret [RetPos] ＝ HEX [位与_asm (Unicode字节集 <i>, 15) ＋ 1]<br />
        .如果真 (_分隔符后缀_Len ≠ 0)<br />
            .计次循环首 (_分隔符后缀_Len, j)<br />
                Ret [RetPos ＋ j] ＝ _分隔符后缀 [j]<br />
            .计次循环尾 ()<br />
            RetPos ＝ RetPos ＋ _分隔符后缀_Len<br />
        .如果真结束<br />
<br />
<br />
<br />
<br />
    .如果结束<br />
<br />
.变量循环尾 ()<br />
<br />
<br />
返回 (到文本 (Ret))

改了这行，其他的几个国家的就正常了，
如果 (Unicode字节集 [i ＋ 1] ＝ 0 且 Unicode字节集＜ 127)
如果第二个字节集是0的化，肯定变成了英文字母跟数字了直接去掉到文本，可是有一些其他的杂七杂八的国家不是走anis的也是保留了的第二个字节集是0