金融界2024年1月26日消息,据国家知识产权局公告,北京大学申请一项名为“一种数据聚类压缩方法“,公开号CN117459070A,申请日期为2023年10月。
专利摘要显示,本发明公开了一种数据聚类压缩方法,其步骤包括:1)将待压缩数据分割为多个数据块,对每一所述数据块生成一个指纹;2)预设多级掩码,每一级掩码为一个二进制向量,越高级掩码含有的1的个数越少;3)从低级掩码开始,将每一所述指纹分别与第i级掩码进行按位与运算,将运算结果相同的指纹对应的数据块将聚为一类;对于剩下的未聚类的数据块,将其指纹与第i+1级掩码进行按位与运算,将运算结果相同的指纹对应的数据块将聚为一类;当完成与第j级掩码运算后未出现未能聚类的数据块,则执行步骤4);当完成与最高级掩码运算后还剩余的未能聚类的数据块,直接聚为一类,然后执行步骤4);4)根据聚类结果对每一聚类中的数据块进行压缩。