文件_取文本编码

aiksie · 发表于 2019-10-2 14:56:46

本帖最后由 aiksie 于 2019-10-3 09:21 编辑

刚好用到需要取txt文件文本编码，本来是想先在论坛上找的，也找到了论坛发的相关的东西
https://bbs.125.la/forum.php?mod=viewthread&tid=14450853
http://e.125.la/fun-1156.html【完全只根据特征码】
https://bbs.125.la/forum.php?mod=viewthread&tid=14310538 【调用了未开源的非微软官方DLL，不喜欢】
后来我发现自带的编码转换支持库就可以做到判断文件的编码

子程序名	返回值类型	公开	备注
文件_取文本编码	整数型		获取指定路径的txt文档的编码格式。（1：UTF-8，2：GBK），都不是返回0。
参数名	类型	参考	可空	数组	备注
参_文件路径	文本型

变量名	类型	静态	数组	备注
file	字节集
bool	逻辑型

file ＝读入文件 (参_文件路径)
编码转换 (file, #编码_UTF_8, #编码_GBK, bool)

判断 (bool)

返回 (1)

编码转换 (file, #编码_GBK, #编码_UTF_8, bool)

判断 (bool)

返回 (2)

返回 (0)

i支持库列表	支持库注释
iconv	编码转换支持库

再后来我直接逆向了notepad.exe，直接分析出了记事本自己是怎么识别编码的，并且写出了算法。
QQ截图20191002144943.jpg

下面是源码：

子程序名	返回值类型	公开	备注
是否为UTF8	逻辑型		如果为UTF8编码返回真，不是UTF8或空文本都返回假
参数名	类型	参考	可空	数组	备注
参_文件内容	字节集

变量名	类型	静态	数组	备注
文件长度	整数型
取出位置	整数型
循环取出内容	字节集
循环取出数值	整数型
返回值	整数型
次数	整数型

文件长度＝取字节集长度 (参_文件内容)
次数＝ 0

判断 (文件长度 ≤ 0)

返回 (假)

取出位置＝ 1

判断循环首 (取出位置 ≤ 文件长度)

循环取出内容＝取字节集中间 (参_文件内容, 取出位置, 1)

循环取出数值＝取字节集数据 (循环取出内容, 3, )

判断 (循环取出数值＞ 127)

返回值＝ 0

判断 (次数＝ 0)

判断 (循环取出数值＜ 128)

循环判断首 ()

循环取出数值＝汇编左移 (循环取出数值, 1)

次数＝次数＋ 1

循环判断尾 (循环取出数值＞ 127)

次数＝次数－ 1

判断 (循环取出数值＝ 0)

返回 (假)

循环取出数值＝位与 (循环取出数值, 192) ' UTF8 3字节,后两位位与结果均是128

判断 (循环取出数值＝ 128)

次数＝次数－ 1

返回 (假)

取出位置＝取出位置＋ 1

判断循环尾 ()

判断 (次数 ≠ 0)

返回 (假)

判断 (返回值＝ 0)

返回 (真)

返回 (假)

子程序名	返回值类型	公开	备注
汇编左移	整数型		失败返回 -1
参数名	类型	参考	可空	数组	备注
欲移动的整数	整数型
欲移动的位数	整数型

置入代码 ({ 139, 69, 8, 139, 77, 12, 210, 224, 201, 194, 2, 0 })
返回 (-1)

.版本 2<br />
<br />
.子程序 是否为UTF8, 逻辑型, , 如果为UTF8编码返回真，不是UTF8或空文本都返回假<br />
.参数 参_文件内容, 字节集<br />
.局部变量 文件长度, 整数型<br />
.局部变量 取出位置, 整数型<br />
.局部变量 循环取出内容, 字节集<br />
.局部变量 循环取出数值, 整数型<br />
.局部变量 返回值, 整数型<br />
.局部变量 次数, 整数型<br />
<br />
<br />
文件长度 ＝ 取字节集长度 (参_文件内容)<br />
次数 ＝ 0<br />
.判断开始 (文件长度 ≤ 0)<br />
    返回 (假)<br />
.默认<br />
<br />
.判断结束<br />
取出位置 ＝ 1<br />
.判断循环首 (取出位置 ≤ 文件长度)<br />
    循环取出内容 ＝ 取字节集中间 (参_文件内容, 取出位置, 1)<br />
    循环取出数值 ＝ 取字节集数据 (循环取出内容, 3, )<br />
    .判断开始 (循环取出数值 ＞ 127)<br />
        返回值 ＝ 0<br />
    .默认<br />
<br />
    .判断结束<br />
    .判断开始 (次数 ＝ 0)<br />
<br />
        .判断开始 (循环取出数值 ＜ 128)<br />
<br />
        .默认<br />
<br />
            .循环判断首 ()<br />
                循环取出数值 ＝ 汇编左移 (循环取出数值, 1)<br />
                次数 ＝ 次数 ＋ 1<br />
            .循环判断尾 (循环取出数值 ＞ 127)<br />
            次数 ＝ 次数 － 1<br />
            .判断开始 (循环取出数值 ＝ 0)<br />
                返回 (假)<br />
            .默认<br />
<br />
            .判断结束<br />
<br />
<br />
        .判断结束<br />
<br />
    .默认<br />
<br />
        循环取出数值 ＝ 位与 (循环取出数值, 192)  ' UTF8 3字节,后两位位与结果均是128<br />
        .判断开始 (循环取出数值 ＝ 128)<br />
            次数 ＝ 次数 － 1<br />
        .默认<br />
<br />
            返回 (假)<br />
<br />
        .判断结束<br />
<br />
    .判断结束<br />
<br />
    取出位置 ＝ 取出位置 ＋ 1<br />
<br />
.判断循环尾 ()<br />
.判断开始 (次数 ≠ 0)<br />
    返回 (假)<br />
.判断 (返回值 ＝ 0)<br />
    返回 (真)<br />
.默认<br />
<br />
    返回 (假)<br />
.判断结束<br />
<br />
<br />
.子程序 汇编左移, 整数型, , 失败返回 -1<br />
.参数 欲移动的整数, 整数型<br />
.参数 欲移动的位数, 整数型<br />
<br />
<br />
<br />
置入代码 ({ 139, 69, 8, 139, 77, 12, 210, 224, 201, 194, 2, 0 })<br />
返回 (-1)

子程序名	返回值类型	公开	备注
文件_取文本编码	整数型		获取指定路径的txt文档的编码格式。成功返回（1：UTF-8，2：Unicode；3：Unicode big endian；4：ANSI），默认返回 4。
参数名	类型	参考	可空	数组	备注
参_文件路径	文本型

变量名	类型	静态	数组	备注
文件内容	字节集
文件长度	整数型
lpiResult	整数型

文件内容＝读入文件 (参_文件路径)
文件长度＝取字节集长度 (文件内容)

判断 (取字节集中间 (文件内容, 1, 2) ＝ { 239, 187 }) ' UTF-8

判断 (文件长度 ≤ 2)

判断 (取字节集中间 (文件内容, 3, 1) ＝ { 191 })

返回 (1)

判断 (取字节集中间 (文件内容, 1, 2) ＝ { 255, 254 }) ' Unicode

返回 (2)

判断 (取字节集中间 (文件内容, 1, 2) ＝ { 254, 255 }) ' Unicode big endian

返回 (3)

lpiResult ＝ -1

判断 (IsTextUnicode (文件内容, 文件长度, lpiResult)) ' Unicode

返回 (2)

判断 (是否为UTF8 (文件内容)) ' UTF-8

返回 (1)

返回 (4) ' ANSI

Dll命令：

DLL命令名	返回值类型	公开	备注
IsTextUnicode	逻辑型		IsTextUnicode 函数是确定一个缓冲区是否可能包含 Unicode 文本，包含Unicode 文本返回真。
DLL库文件名:
advapi32
在DLL库中对应命令名:
IsTextUnicode
参数名	类型	传址	数组	备注
lpv	字节集			指向要检查的输入缓冲区
iSize	整数型			由lpv指向的缓冲区大小，以字节为单位。
lpiResult	整数型			返回值，是Unicode 文本返回非零值，不是返回0

文件_取文本编码.e (7.88 KB, 下载次数: 114)

2019-10-3 09:21 上传

点击文件名下载附件
原创的出售几个JB不过分吧直接复制，或者下载

补充内容 (2019-10-10 16:03):
【文件_取文本编码】不知道怎么回事，复制过来的时候结尾的少了一个“.判断结束” 建议直接下载源码比较好！

补充内容 (2019-11-15 19:54):

子程序名	返回值类型	公开	备注
汇编左移	整数型		失败返回 -1
参数名	类型	参考	可空	数组	备注
欲移动的整数	整数型
欲移动的位数	整数型

置入代码 ({ 81, 139, 69, 8, 139, 77, 12, 210, 224, 201, 139, 229, 93, 194, 8, 0 })
返回 (-1)

补充内容 (2019-11-15 19:55):
原先的汇编左移被我搞错了！

补充内容 (2019-12-10 19:51):

子程序名	返回值类型	公开	备注
汇编左移	整数型		失败返回 -1
参数名	类型	参考	可空	数组	备注
欲移动的整数	整数型
欲移动的位数	整数型

置入代码 ({ 81, 139, 69, 8, 139, 77, 12, 210, 224, 89, 201, 139, 229, 93, 194, 8, 0 })
返回 (-1)

补充内容 (2019-12-10 19:52):
之前的汇编左移都有问题。。。

补充内容 (2019-12-10 20:04):
#23 楼下载最新版本。

补充内容 (2019-12-11 17:48):

子程序名	返回值类型	公开	备注
汇编左移	整数型		失败返回 -1
参数名	类型	参考	可空	数组	备注
欲移动的整数	整数型
欲移动的位数	整数型

置入代码 ({ 81, 139, 69, 8, 139, 77, 12, 210, 224, 89, 139, 229, 93, 194, 8, 0 })
返回 (-1)

补充内容 (2019-12-11 17:48):
再改！

补充内容 (2022-5-13 20:01):
纠正

aiksie · 发表于 2022-4-30 19:32:22

haixin122 发表于 2021-4-30 23:49
这个文本他还是判断utf8

是我汇编翻译成易语言翻译错了，一分析才知道这个地方写错了

文件_取文本编码.e (904.37 KB, 下载次数: 162)

yangyzyy · 发表于 2025-7-1 21:27:17

谢谢分享

yanga9 · 发表于 2025-2-1 21:46:29

有的文件还是识别错误，这两天给这个搞到头晕了

shuishou8848 · 发表于 2024-12-29 20:03:41

111111111111111

聊趣1 · 发表于 2024-12-20 14:04:09

11111111111111111111111111111111

蓝雅婷 · 发表于 2024-11-14 11:32:07

aiksie 发表于 2022-4-30 19:32
是我汇编翻译成易语言翻译错了，一分析才知道这个地方写错了

问一下如何判断是否为繁体，big5编码

kk4648 · 发表于 2023-12-23 17:28:47

大神

刘德华之徒 · 发表于 2023-10-26 22:08:38

11111111111111111111132威威

刘德华之徒 · 发表于 2023-10-26 22:08:10

撒低级喀什角动量喀什角动量喀什

刘德华之徒 · 发表于 2023-10-26 22:05:20

但是附件没有一个是这个最新的？

		自动登录	找回密码
密码			注册

[易语言纯源码] 文件_取文本编码

点评

评分

浏览过的版块