开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 5747|回复: 17
收起左侧

[已回应] 再次推荐一下汇编_取文本是否为UTF8.速度快.用的人多

[复制链接]
结帖率:100% (11/11)
发表于 2018-10-19 20:46:02 | 显示全部楼层 |阅读模式   陕西省渭南市
没有出现更好的办法前.这个可能还是很实用的了

  
子程序名返回值类型公开备 注
汇编_是否UTF8逻辑型 
参数名类 型参考可空数组备 注
参_内容字节集
置入代码 ({ 86, 87, 83, 139, 69, 8, 139, 24, 139, 75, 4, 139, 48, 131, 198, 8, 139, 67, 8, 37, 255, 255, 255, 0, 61, 191, 187, 239, 0, 116, 101, 172, 138, 224, 60, 127, 118, 88, 192, 232, 6, 60, 6, 117, 19, 172, 80, 192, 232, 6, 60, 2, 117, 74, 88, 192, 232, 7, 60, 0, 116, 70, 235, 62, 138, 196, 192, 232, 4, 60, 14, 117, 18, 172, 192, 232, 6, 60, 2, 117, 47, 172, 192, 232, 6, 60, 2, 117, 39, 235, 41, 138, 196, 192, 232, 3, 60, 30, 117, 28, 172, 192, 232, 6, 60, 2, 117, 20, 172, 192, 232, 6, 60, 2, 117, 12, 172, 192, 232, 6, 60, 2, 117, 4, 235, 6, 226, 159, 51, 192, 235, 3, 51, 192, 64, 91, 95, 94, 201, 194, 4, 0 })
返回 ()
' push esi  正确的保护寄存器就是这样的,因为偷懒才用pushad这样的.唯一的好处就是编译后的字节少,这次因为要用eax带回结果,所以不能保护eax值
' push edi
' push ebx
' mov eax,[ebp+08h]
' mov ebx,[eax]
' mov ecx,[ebx+04h]
' mov esi,[eax]
' add esi,08h
' mov eax,[ebx+08h]
' and eax,00FFFFFFh
' cmp eax,00EFBBBFh  有的UTF-8文件是带文件头的,如果有文件头就不判断了.
' je Label1
' Label6:
' lodsb
' mov ah,al
' cmp al,7Fh  单字节小于127的都是ASCII码,是不用判断的
' jbe Label2
' shr al,06h
' cmp al,06h  判断位数及判定逻辑都在最后.感兴趣的同学可以参阅,是在网上搜索的.不是原创.只能解释这么多了.
' jne Label3
' lodsb
' push eax
' shr al,06h
' cmp al,02h
' jne Label4
' pop eax
' shr al,07h
' cmp al,00h
' je Label1
' jmp Label2
' Label3:
' mov al,ah
' shr al,04h
' cmp al,0Eh
' jne Label5
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' jmp Label1
' Label5:
' mov al,ah
' shr al,03h
' cmp al,1Eh
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' jmp Label1
' Label2:
' loop Label6
' Label4:
' xor eax,eax  返回假
' jmp Label7
' Label1:
' xor eax,eax
' inc eax  返回真,据说清零加一也比直接给eax1要快很多....
' Label7:
' pop ebx
' pop edi
' pop esi
' leave
' retn 0004h  自己返回的要恢复堆栈,一个参数就是一个整数.占四个字节.
' 附编码说明及判定方法,来源于网络.非自创.
' 如果不符合utf-8的规范,认为是gb18030编码
' 如果有符合utf-8规范中的3字节或4字节编码的,认为是utf-8编码
' 如果有符合utf-8规范中的2字节编码的,但是不符合gb18030编码的,认为是utf-8编码
' 如果全部都是符合2字节的utf-8编码,同时也符合gb18030编码的,认为是gb18030编码
' Unicode符号范围        |   UTF-8编码方式
' (十六进制)                 |   (二进制)
' ------------------------------+--------------------------------------------------------------
' 0000 0000-0000 007F | 0xxxxxxx
' 0000 0080-0000 07FF | 110xxxxx 10xxxxxx
' 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
' 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
' ---------------------------------------------------------------------------------------------


评分

参与人数 1好评 +1 精币 +1 收起 理由
项目部002 + 1 + 1 感谢发布原创作品,精易因你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

结帖率:100% (11/11)

签到天数: 17 天

 楼主| 发表于 2018-10-20 07:21:01 | 显示全部楼层   陕西省渭南市

没有在多线程中试.原来多线程里要保存所有寄存器才行...
已经修改了

  
置入代码 ({ 96, 139, 69, 8, 139, 24, 139, 75, 4, 139, 48, 131, 198, 8, 139, 67, 8, 37, 255, 255, 255, 0, 61, 191, 187, 239, 0, 116, 101, 172, 136, 196, 60, 127, 118, 88, 192, 232, 6, 60, 6, 117, 19, 172, 80, 192, 232, 6, 60, 2, 117, 74, 88, 192, 232, 7, 60, 0, 116, 70, 235, 62, 136, 224, 192, 232, 4, 60, 14, 117, 18, 172, 192, 232, 6, 60, 2, 117, 47, 172, 192, 232, 6, 60, 2, 117, 39, 235, 41, 136, 224, 192, 232, 3, 60, 30, 117, 28, 172, 192, 232, 6, 60, 2, 117, 20, 172, 192, 232, 6, 60, 2, 117, 12, 172, 192, 232, 6, 60, 2, 117, 4, 235, 6, 226, 159, 49, 192, 235, 3, 49, 192, 64, 97, 201, 194, 4, 0 })

回复 支持 反对

使用道具 举报

结帖率:100% (11/11)

签到天数: 17 天

 楼主| 发表于 2018-10-20 09:30:48 | 显示全部楼层   陕西省渭南市
今天的帖子发的好失败.回了这么多不说.还丢了参数.
这个.这个才是好的.

  
子程序名返回值类型公开备 注
汇编_是否UTF8逻辑型 
参数名类 型参考可空数组备 注
参_内容字节集
变量名类 型静态数组备 注
局_返回值逻辑型 
置入代码 ({ 96, 139, 69, 8, 139, 24, 139, 75, 4, 139, 48, 131, 198, 8, 139, 67, 8, 37, 255, 255, 255, 0, 61, 191, 187, 239, 0, 116, 101, 172, 136, 196, 60, 127, 118, 88, 192, 232, 6, 60, 6, 117, 19, 172, 80, 192, 232, 6, 60, 2, 117, 74, 88, 192, 232, 7, 60, 0, 116, 70, 235, 62, 136, 224, 192, 232, 4, 60, 14, 117, 18, 172, 192, 232, 6, 60, 2, 117, 47, 172, 192, 232, 6, 60, 2, 117, 39, 235, 41, 136, 224, 192, 232, 3, 60, 30, 117, 28, 172, 192, 232, 6, 60, 2, 117, 20, 172, 192, 232, 6, 60, 2, 117, 12, 172, 192, 232, 6, 60, 2, 117, 4, 235, 6, 226, 159, 49, 192, 235, 3, 49, 192, 64, 137, 69, 252, 97 })
返回 (局_返回值)
' push esi  正确的保护寄存器就是这样的,因为偷懒才用pushad这样的.唯一的好处就是编译后的字节少,这次因为要用eax带回结果,所以不能保护eax值
' push edi
' push ebx
' mov eax,[ebp+08h]
' mov ebx,[eax]
' mov ecx,[ebx+04h]
' mov esi,[eax]
' add esi,08h
' mov eax,[ebx+08h]
' and eax,00FFFFFFh
' cmp eax,00EFBBBFh  有的UTF-8文件是带文件头的,如果有文件头就不判断了.
' je Label1
' Label6:
' lodsb
' mov ah,al
' cmp al,7Fh  单字节小于127的都是ASCII码,是不用判断的
' jbe Label2
' shr al,06h
' cmp al,06h  判断位数及判定逻辑都在最后.感兴趣的同学可以参阅,是在网上搜索的.不是原创.只能解释这么多了.
' jne Label3
' lodsb
' push eax
' shr al,06h
' cmp al,02h
' jne Label4
' pop eax
' shr al,07h
' cmp al,00h
' je Label1
' jmp Label2
' Label3:
' mov al,ah
' shr al,04h
' cmp al,0Eh
' jne Label5
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' jmp Label1
' Label5:
' mov al,ah
' shr al,03h
' cmp al,1Eh
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' lodsb
' shr al,06h
' cmp al,02h
' jne Label4
' jmp Label1
' Label2:
' loop Label6
' Label4:
' xor eax,eax  返回假
' jmp Label7
' Label1:
' xor eax,eax
' inc eax  返回真,据说清零加一也比直接给eax1要快很多....
' Label7:
' pop ebx
' pop edi
' pop esi
' leave
' retn 0004h  自己返回的要恢复堆栈,一个参数就是一个整数.占四个字节.
' 附编码说明及判定方法,来源于网络.非自创.
' 如果不符合utf-8的规范,认为是gb18030编码
' 如果有符合utf-8规范中的3字节或4字节编码的,认为是utf-8编码
' 如果有符合utf-8规范中的2字节编码的,但是不符合gb18030编码的,认为是utf-8编码
' 如果全部都是符合2字节的utf-8编码,同时也符合gb18030编码的,认为是gb18030编码
' Unicode符号范围        |   UTF-8编码方式
' (十六进制)                 |   (二进制)
' ------------------------------+--------------------------------------------------------------
' 0000 0000-0000 007F | 0xxxxxxx
' 0000 0080-0000 07FF | 110xxxxx 10xxxxxx
' 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
' 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
' ---------------------------------------------------------------------------------------------


点评

略叼   江苏省无锡市  发表于 2018-11-1 00:24

评分

参与人数 1好评 +1 精币 +2 收起 理由
飞翔软件开发 + 1 + 2 这个得需要给个好评!

查看全部评分

回复 支持 反对

使用道具 举报

结帖率:0% (0/1)
发表于 2023-11-10 22:05:43 | 显示全部楼层   山东省烟台市
感谢汇编大佬分享,经反复测试非常可靠,只有18楼的这个最稳定,感谢感谢!!!
回复 支持 反对

使用道具 举报

结帖率:100% (35/35)
发表于 2020-3-3 00:14:50 | 显示全部楼层   江西省吉安市
如果传递进口字节集软件会崩溃,找了好多天才找到这个原因
回复 支持 反对

使用道具 举报

发表于 2018-11-21 13:54:59 | 显示全部楼层   广东省阳江市
#在这里快速回复#学习学习,谢谢作者无私
回复 支持 反对

使用道具 举报

发表于 2018-10-26 15:45:33 | 显示全部楼层   安徽省合肥市
学习了学习了
回复 支持 反对

使用道具 举报

结帖率:100% (11/11)

签到天数: 17 天

 楼主| 发表于 2018-10-25 10:52:26 | 显示全部楼层   陕西省渭南市
飞翔软件开发 发表于 2018-10-25 10:06
我低哥,到底哪个是修复好的,没问题的?我都蒙蔽了~!

网有问题呀.那天
18 楼.是18楼.
回复 支持 反对

使用道具 举报

头像被屏蔽
结帖率:100% (15/15)
发表于 2018-10-25 10:06:23 | 显示全部楼层   辽宁省锦州市
我低哥,到底哪个是修复好的,没问题的?我都蒙蔽了~!
回复 支持 反对

使用道具 举报

发表于 2018-10-25 09:58:46 | 显示全部楼层   安徽省合肥市
6666666666666666666666666666666666666666666666666666666666666
回复 支持 反对

使用道具 举报

结帖率:75% (3/4)
发表于 2018-10-21 23:18:18 | 显示全部楼层   山东省烟台市
汇编好厉害呀
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表