开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 350|回复: 3
收起左侧

[已解决] 图片去除重复问题

 关闭 [复制链接]
结帖率:88% (77/88)
发表于 2024-5-31 02:21:52 | 显示全部楼层 |阅读模式   江苏省常州市
50精币
在研究图片标注训练  采集了一批图片进行标注  但是重复的图片太多 手动筛选删除根本删不完看论坛好像也找到相关的帖子
本来是想通过字节集判断是否一致 但是好像操作的有点不太对
来个老哥给个靠谱的去重思路或例子 或者相关的帖子

重复图片只保留1张

最佳答案

查看完整内容

东西先备份下,再用这个。 给你用python实践了下 > 安装这个库就行 opencv-python [md]```python import cv2 import os from collections import defaultdict def dhash(image, hash_size=8): """ 计算图片的差异哈希值 """ # 调整图片大小,并多加一列以便计算水平梯度 resized = cv2.resize(image, (hash_size + 1, hash_size)) # 计算相邻列像素之间的相对水平梯度 diff = resized[:, 1:] > r ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

结帖率:100% (58/58)
发表于 2024-5-31 02:21:53 | 显示全部楼层   江西省南昌市
东西先备份下,再用这个。
给你用python实践了下  >  安装这个库就行 opencv-python


import cv2
import os
from collections import defaultdict

def dhash(image, hash_size=8):
    """
    计算图片的差异哈希值
    """
    # 调整图片大小,并多加一列以便计算水平梯度
    resized = cv2.resize(image, (hash_size + 1, hash_size))
    # 计算相邻列像素之间的相对水平梯度
    diff = resized[:, 1:] > resized[:, :-1]
    # 将差异图片转换为哈希值
    return sum([2 ** i for (i, v) in enumerate(diff.flatten()) if v])

def find_duplicates(folder_path):
    """
    找到文件夹中的重复图片
    """
    hashes = defaultdict(list)
    duplicates = []

    # 遍历文件夹中的图片文件
    for filename in os.listdir(folder_path):
        if filename.endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
            filepath = os.path.join(folder_path, filename)
            image = cv2.imread(filepath, cv2.IMREAD_GRAYSCALE)
            if image is None:
                continue
            h = dhash(image)
            hashes[h].append(filepath)

    # 找到哈希值相同的图片
    for h, files in hashes.items():
        if len(files) > 1:
            duplicates.append(files[1:])  # 保留每组重复图片中的第一张,记录其余的图片

    return duplicates

def delete_duplicates(folder_path):
    """
    删除文件夹中的重复图片,只保留每组中的一张
    """
    duplicates = find_duplicates(folder_path)
    for group in duplicates:
        for file in group:
            os.remove(file)
            print(f"已删除重复文件: {file}")

if __name__ == "__main__":
    folder_path = "path/to/your/image/folder"  # 替换为你的图片文件夹路径
    delete_duplicates(folder_path)





补充内容 (2024-5-31 08:31):
仅供参考。  

评分

参与人数 1荣誉 +1 收起 理由
笨潴 + 1 热心帮助他人,荣誉+1,希望继续努力(*^__^*) 嘻嘻!

查看全部评分

回复

使用道具 举报

结帖率:100% (3/3)
发表于 2024-5-31 08:27:56 | 显示全部楼层   山东省潍坊市
对效率有没有要求,直接图片对比,相似度设定范围,然后删掉重复的
回复

使用道具 举报

结帖率:78% (18/23)
发表于 2024-5-31 09:14:44 | 显示全部楼层   浙江省嘉兴市
如果重复的图片字节集完全一样,操作还是比较容易的。可以考虑用节点来完成去重,因为节点在加入属性时自动去重的。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表