医药安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211122878.3 (22)申请日 2022.09.15 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 温平 朱海勇 周成祖 邓立峰 (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种基于分布式内存数据库的数据抽样方 法和装置 (57)摘要 本申请涉及一种基于分布式内存数据库的 数据抽样方法, 其将分布式内存 数据库当做过滤 容器, 数据过滤规则为过滤条件。 过滤容器属性 包括分布式集群服务器、 数据缓存大小、 数据缓 存策略。 过滤条件包括基于规则按MD5算法计算 出128位HASH值、 基于HASH值构建数据存储内存 数据库组织规则, 从而在大数据海量数据面前实 现快速并准确的根据自定义规则抽取数据。 其能 够满足PB设置各大量级别的数据抽样效果, 并能 够满足在业务使用过程中不影响业务的效率短 时间内得到需要的抽样结果数据效果。 在各种行 业中经过海量数据的抽样分析能够快速掌握态 势, 并提前做出各种预警和判断, 能够为生活生 产, 事情发展, 灾难预测等各个领域实战中具有 重大意义。 权利要求书2页 说明书7页 附图4页 CN 115470212 A 2022.12.13 CN 115470212 A 1.一种基于分布式 内存数据库的数据抽样方法, 其特 征在于: 所述方法包括以下步骤: S1: 基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值; S2: 构建存储过滤容器: 将分布式内存数据库按照系统可用资源池80%资源部署数据 库集群, 并划分多个子节点; S3: 将当前 数据的HASH值写入到分布式 内存数据库中; S4: 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据此条数据的 HASH值去分布式内存 数据库中进 行匹配, 若分布式内存 数据库中存在相同的HASH值则过滤 此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式内存数据 库中。 2.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述S1具体包括: S11: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB 和小于等于10240KB的数据进行区分; S12: 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于 等于10240KB数据转化为byte类型后进行全数据反序计算, 然后 再进行MD5全数据计算, 从 而计算出当前 数据的HASH值。 3.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S3中, 将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 4.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述S4中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到分布式内存 数据 库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 5.一种基于分布式 内存数据库的数据抽样装置, 其特 征在于: 所述装置包括: HASH值计算模块, 配置用于基于流式处理的程序等待数据到达时基于预设规则计算出 当前数据的HASH值; 存储过滤容器构建模块, 配置用于将分布式内存数据库按照系统可用资源池80%资源 部署数据库集群, 并划分多个子节点; HASH值存 储模块, 配置用于将当前 数据的HASH值写入到分布式 内存数据库中; 数据过滤模块, 当下一条数据到达时, 基于预设规则计算出此条数据的HASH值, 根据 此 条数据的HAS H值去分布式内存 数据库中进 行匹配, 若分布式内存数据库中存在相同的HAS H 值则过滤此条数据, 若分布式内存数据库不存在相同的HAS H值则将此条数据存储到 分布式 内存数据库中。 6.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所 述基于流式处 理的程序等待数据到 达时基于预设规则计算出当前 数据的HASH值具体包括: 基于流式处理的程序等待数据到达时计算当条记录的文件大小, 将大于10240KB和小 于等于10240KB的数据进行区分; 对大于10240KB数据进行截取文件前1024KB和后1024KB数据进行MD5计算, 将小于等于 10240KB数据转化为byte类型后进行全数据反序计算, 然后再进行MD5全数据计算, 从而计 算出当前 数据的HASH值。 7.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 所权 利 要 求 书 1/2 页 2 CN 115470212 A 2述HASH值存 储模块将当前 数据的HASH值写入到分布式 内存数据库后并赋值缓存失效时间。 8.根据权利要求1所述的一种基于分布式内存数据库的数据抽 样方法, 其特征在于: 在 所述数据过滤模块中, 若分布式内存 数据库不存在相同的HAS H值则将此条数据存储到 分布 式内存数据库中, 并且把此 条数据加载到内存中赋值上缓存失效时间。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4中任一所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时实现如权利要求1 ‑4中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115470212 A 3
专利 一种基于分布式内存数据库的数据抽样方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:13
上传分享
举报
下载
原文档
(584.6 KB)
分享
友情链接
许天翔 人工智能与网络空间安全.pdf
GB-T 39308-2020 难降解有机废水深度处理技术规范.pdf
SN-T 2846-2011 鹦鹉热检疫技术规范.pdf
GB-T 32789-2016 轮胎噪声测试方法 转鼓法.pdf
GB-T 43435-2023 信息安全技术 移动互联网应用程序 App 软件开发工具包 SDK 安全要求.pdf
民航 MH-T 6123.4-2023 行李处理系统 第4部分:托盘式分拣机.pdf
GB-T 34336-2017 纳米孔气凝胶复合绝热制品.pdf
SL-T 794-2020 堤防工程安全监测技术规程.pdf
GB-T 7260.40-2020 不间断电源系统 UPS 第4部分:环境 要求及报告.pdf
SY-T 7657.4-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第4部分:燃料电池法测定氢含量.pdf
GB-T 33018.1-2016 炭素企业节能技术规范 第1部分:浸渍.pdf
DB43-T 1956-2020 十字花科蔬菜黑斑病综合防治技术规程 湖南省.pdf
GB-T 35392-2017 无损检测 电导率电磁 涡流 测定方法.pdf
DB23-T 1574—2020 森林火灾林木损失调查评估技术规程 黑龙江省.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
T-WX 0002—2017 移动终端数字证书应用标准- 术语标识规范.pdf
GB-T 35651-2017 突发事件应急标绘图层规范.pdf
GB-T 35075-2018 燃气燃烧器节能试验规则.pdf
信通院 2021年数据安全行业调研报告.pdf
GB 55031-2022 民用建筑通用规范.pdf
1
/
14
评价文档
赞助2.5元 点击下载(584.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。