精易论坛

标题: 取文本的个数,求算法 [打印本页]

作者: 豆豆灰常开心    时间: 前天 10:07
标题: 取文本的个数,求算法
751562----【时快乐】工贸公的的的司喹禾灵27652
取出上边一段文本的个数,一个文字算一个,一个数字算一个,一个符号算一个
上方文本个数是30



作者: 丿Mrs°戮默    时间: 前天 10:07
.版本 2
.支持库 spec

文本 = “751562----【时快乐】工贸公的的的司喹禾灵27652”
调试输出 (文本_取长度ex (文本))

作者: 黑咖啡    时间: 前天 10:23
  
变量名类 型静态数组备 注
源文本文本型 
结果个数整数型 
源文本 = “751562----【时快乐】工贸公的的的司喹禾灵27652”
结果个数 = 取文本长度 (到全角 (源文本)) ÷ 2
调试输出 (结果个数)


i支持库列表   支持库注释   
spec特殊功能支持库


作者: 尛龍科技    时间: 前天 11:35
  
子程序名返回值类型公开备 注
计算字符数整数型 
参数名类 型参考可空数组备 注
文本内容文本型
变量名类 型静态数组备 注
全角文本文本型 
全角长度整数型 
全角文本 = 到全角 (文本内容)
全角长度 = 取文本长度 (全角文本)
返回 (四舍五入 (全角长度 ÷ 2, 0))

这就是个完整的算法

作者: 呵呵仙    时间: 前天 12:49
#include <stdio.h>
#include <stddef.h>
//取多字节字符文本长度
size_t count_characters(const char *str) {
        if (str == NULL || *str == '\0') return 0;

        size_t count = 0;

        while (*str) {
                // 检查是否中文字符(ANSI 双字节字符)
                if ((unsigned char)*str >= 0x80) {
                        count++; // 中文字符计为1
                        str += 2; // 跳过两个字节
                } else {
                        count++; // ASCII字符计数
                        str++;
                }
        }

        return count;
}


作者: 呵呵仙    时间: 前天 12:53
1.png

作者: dnxl    时间: 前天 14:01
QQ20250719-140010.png

作者: 冯古屋    时间: 前天 14:22
正则匹配下?
作者: zainex    时间: 前天 14:53
转成UTF32,每个编码都是4字节,除以4就是编码个数,一般也能正确表示“字符”个数:
  
窗口程序集名保 留  保 留备 注
窗口程序集_启动窗口   
子程序名返回值类型公开备 注
__启动窗口_创建完毕  
变量名类 型静态数组备 注
文本文本型 
结果字节集 
数量整数型 
文本 = “751562----【时快乐】工贸公的的的司喹禾灵27652”
结果 = 编码转换 (到字节集 (文本), #编码_GB18030, #编码_UTF_32LE, )
数量 = 取字节集长度 (结果) ÷ 4
调试输出 (数量)


i支持库列表   支持库注释   
iconv编码转换支持库
spec特殊功能支持库

不选择转成UTF16,因为在UTF16涉及BMP(基本多文种平面),有些编码是2字节而另一些是4字节,处理起来没UTF32简单。

另外,那种广为流传的,要么除以2要么加1的统计方法也是错误的。
它基于这一个猜想,即世界上所有的文字编码总数不会超过6万个(如早期的Unicode),而事实上,现行国家强制性规定的汉字就有8万多个。

总的来说,对比其它方案,转成UTF32除以4,是一种相对合理又简单的统计方式。



作者: qinzaidj    时间: 前天 14:55
调试输出 (文本_逐字分割 (“751562----【时快乐】工贸公的的的司喹禾灵27652”))
作者: qinzaidj    时间: 前天 14:55
qinzaidj 发表于 2025-7-19 14:55
调试输出 (文本_逐字分割 (“751562----【时快乐】工贸公的的的司喹禾灵27652”)) ...

输出结果:30
作者: Hoibben    时间: 前天 16:12
方法很多 上面的方法都能实现 看效率的话就要看数据量多少是否频繁调用啥的 也可以用汇编无非就一行代码的事情~






欢迎光临 精易论坛 (https://bbs.125.la/) Powered by Discuz! X3.4