一种海量档案数据优化存储方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：济宁蜗牛软件科技有限公司

摘要：本发明涉及数据处理技术领域，具体涉及一种海量档案数据优化存储方法。该方法获取数据样本集；将数据样本拆分为词汇，根据词汇出现的频率，获取特征程度值，确定特征词；通过层次聚类算法对数据样本进行聚类，根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型，获取任意两个节点的可聚类值，确定聚类层次树；根据聚类层次树的每个层次中节点内数据样本的相似程度和节点之间的相似程度，获取聚类效果值，确定数据样本类别，对档案数据进行优化存储。本发明通过分析节点的特征词和词袋模型，对节点进行聚类，降低了层次聚类算法的计算量，提高了聚类结果的准确性，实现对档案数据的优化存储。

主权项：1.一种海量档案数据优化存储方法，其特征在于，该方法包括以下步骤：获取海量档案数据的数据样本集；将每个数据样本的文本拆分为词汇，根据每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率，获取每个词汇在每个数据样本中的特征程度值，确定每个数据样本的特征词；将一个数据样本作为一个节点，通过层次聚类算法对数据样本进行聚类，根据父节点内数据样本的特征词和当前其他节点内数据样本的特征词，获取父节点的特征词；根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值，确定聚类层次树；根据聚类层次树的每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的相似程度和任意两个节点的词袋模型的特征向量的相似程度，获取每个层次的聚类效果值；根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别，对每个数据样本类别中的档案数据进行优化存储；所述特征程度值的计算公式为：式中，为第a个词汇在第b个数据样本中的特征程度值；为第a个词汇在第b个数据样本中出现的次数；为第b个数据样本中词汇的总数量；为存在第a个词汇的数据样本的数量；M为数据样本的总数量；为第a个词汇在第b个数据样本中出现的频率；为第a个词汇在数据样本集中出现的频率；norm为归一化函数；所述确定每个数据样本的特征词的方法为：当所述特征程度值大于预设的特征程度值阈值时，将对应词汇作为对应数据样本的特征词；所述获取父节点的特征词的方法为：对于任一个父节点，将该父节点内所有数据样本的特征词作为参考特征词；获取每个参考特征词在该父节点中出现的频率，作为对应参考特征词的第一频率；获取每个参考特征词在当前所有节点中出现的频率，作为对应参考特征词的第二频率；将每个参考特征词的第一频率与第二频率的比值，作为对应参考特征词在该父节点的特征程度值；将在该父节点的特征程度值大于预设的特征程度值阈值的参考特征词，作为该父节点的特征词；所述可聚类值的获取方法为：当聚类的两个节点均不存在子节点时，根据相同特征词在两个节点的特征程度值的差异和两个节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；当聚类的两个节点中只有一个节点存在子节点时，将不存在子节点的节点作为第一节点，将存在子节点的节点作为第二节点；对于第二节点中的任一个子节点，获取该子节点的每个特征词在第二节点的特征程度值的累加结果，作为该子节点的第一结果；将该子节点的每个特征词在第二节点的特征程度值与所述第一结果的比值，作为该子节点的对应特征词的贡献程度值；将该子节点的每个特征词的贡献程度值和特征程度值的乘积，作为该子节点的对应特征词在第二节点的实际参与值；根据相同特征词在第一节点的特征程度值和在第二节点的实际参与值之间的差异，以及第一节点的词袋模型的特征向量与第二节点的每个子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；当聚类的两个节点均存在子节点时，根据相同特征词在两个节点的实际参与值的差异和两个节点的子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；所述可聚类值的计算公式为：当聚类的两个节点均不存在子节点时：当聚类的两个节点中只有一个节点存在子节点时：当聚类的两个节点均存在子节点时：式中，为第x个节点和第y个节点的可聚类值；K为第x个节点和第y个节点的特征词的种类总数量；为第k种特征词在第x个节点中的特征程度值；为第k种特征词在第y个节点中的特征程度值；为第x个节点的词袋模型的特征向量；为第y个节点的词袋模型的特征向量；为第x个节点和第y个节点的词袋模型的特征向量的余弦相似度；J为第x个节点和第y个节点的所有子节点的特征词的种类总数量；为第j种特征词在第x个节点中的特征程度值；为第j种特征词在第y个节点的第v个子节点中的特征程度值；为第y个节点的第v个子节点的第j种特征词在第y个节点中的特征程度值；为第y个节点的第v个子节点的第一结果；为第y个节点的第v个子节点的第j种特征词的贡献程度值；V为第y个节点的子节点的总数量；为第y个节点的第v个子节点的词袋模型的特征向量；T为第x个节点的所有子节点的特征词和第y个节点的所有子节点的特征词的种类总数量；Q为第x个节点的子节点的总数量；为第t种特征词在第x个节点的第q个子节点中的特征程度值；为第t种特征词在第y个节点的第v个子节点中的特征程度值；为第x个节点的第q个子节点的第t种特征词在第x个节点中的特征程度值；为第y个节点的第v个子节点的第t种特征词在第y个节点中的特征程度值；为第x个节点的第q个子节点的第一结果；为第x个节点的第q个子节点的第j种特征词的贡献程度值；为第一预设常数，大于0；为绝对值函数；为取模符号；norm为归一化函数；所述确定聚类层次树的方法为：获取每个节点与其他任一个节点之间的可聚类值，将最大的可聚类值对应的两个节点进行聚类，直至所有的节点聚类为一个节点，停止聚类，确定层次聚类算法对应的聚类层次树；所述聚类效果值的获取方法为：获取每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的余弦相似度，作为第一特征值；获取每个层次中任意两个节点的词袋模型的特征向量的余弦相似度，作为第二特征值；根据每个层次中第二特征值的方差和每个节点内第一特征值的方差，获取每个层次的聚类效果值；所述聚类效果值的计算公式为：式中，为第c个层次的聚类效果值；H为第c个层次中节点的总数量；为第c个层次中第h个节点内第一特征值的方差；为第c个层次中第二特征值的方差；为第二预设常数，大于0；所述根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别的方法为：将最大的聚类效果值对应的层次，作为最佳聚类层次；将最佳聚类层次上的每个节点作为数据样本类别。

全文数据：

权利要求：

百度查询：济宁蜗牛软件科技有限公司一种海量档案数据优化存储方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高速砂尘温控系统

下一篇：自移动设备大区域移动方法、自移动设备及存储介质

相关技术

一种高速砂尘温控系统

自移动设备大区域移动方法、自移动设备及存储介质

一种养生保健酒

一种铅碳电池用改性多孔炭的制备方法及铅碳电池

慢性低度炎症刺激形成衰老成纤维细胞模型的构建方法

纵置混动变速箱机械泵

一种飞机复合材料部件超规范修理专家系统

像素补偿方法、装置、设备、显示面板及存储介质

一种鱼类产卵行为与生态水文指标响应关系量化方法

镭雕装置

一种基于梯度语义属性嵌入的无监督用户对齐方法

机载光电设备反射镜均热化控温装置

数据相关技术

一种Rds数据库大数据量表数据监控方法及系统_北京慧博科技有限公司_202411132579.7

体检仪器的数据收集系统和数据收集方法_湖南省山水体检有限公司_202411147054.0

规则数据转换方法和数据转换系统_澳门科技大学_202410665264.2

数据存储设备的数据库管理架构_闪迪技术公司_202110681629.7

数据存储方法和数据存储装置_成都赛力斯科技有限公司_202411162819.8

内存数据存取装置、内存数据存储和读取方法_北京京东拓先科技有限公司_202011353512.8

数据处理方法、数据处理装置_深圳市中兴微电子技术有限公司_202310288599.2

数据生成装置、数据生成方法以及记录介质_株式会社东芝_202010896712.1

数据加密方法、数据加密装置、车辆和存储介质_长城汽车股份有限公司_202410846945.9

数据写入方法_长鑫存储技术有限公司_202011090399.9

档案相关技术

一种用于档案管理的档案查阅架_济南市人民医院_202323476548.7

一种内置珍贵档案隐藏结构的档案储存柜_沈阳体育学院_202410928384.7

一种档案保管装置_彭卫华_202323133602.8

一种防潮档案柜_菏泽市牡丹区卫生健康事业发展中心_202420254400.4

一种档案袋_顾玮_202420523177.9

一种可调节档案管理柜_黄朔_202420094003.5

一种拼接式档案摆放装置_沂南县档案馆_202420238473.4

一种档案整理装订用打孔机_盘锦市城乡建设事业发展服务中心_202420233384.0

一种便于拿取的档案管理架_南京宏亚建设集团有限公司_202323469120.X

一种方便分类的档案管理柜_段秀婷_202420299687.2

优化相关技术

优化的轮胎结构_米其林集团总公司_202380020677.9

图像方向场优化系统_广东绿展科技有限公司_202410391238.5

混凝土减水剂配方优化方法_北京市成城交大建材有限公司_202410865636.6

基于拓扑优化和可调度负荷优化的利用率提升方法及系统_国网河南省电力公司南阳供电公司_202010644561.0

一种温室综合能源优化方法及系统_昆明理工大学_202410902035.8

一种FDG药物合成优化控制方法_青岛原子高通医药有限公司_202410963543.7

日志输出优化方法、装置、设备及介质_长城汽车股份有限公司_202410829475.5

乙烯装置混合建模校正优化方法及设备_万华化学集团股份有限公司_202410844044.6

一种婴儿昼夜节律优化奶粉_北京精培医学研究院_202410969650.0

阻抗电路自匹配优化方法、系统及相关设备_深圳飞骧科技股份有限公司_202410790135.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种海量档案数据优化存储方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务