您的当前位置:首页正文

人体动作数据集的大容量快速存储算法仿真

2023-05-09 来源:步旅网
第36卷第11期文章编号:1006-9348 (2019)11 -0436-05计算机仿真2019年11月人体动作数据集的大容量快速存储算法仿真张英(青岛大学体育学院,山东青岛266071)摘要:传统存储方法容易忽略大容量人体动作数据集的冲突问题,造成节点失效,且存储质量不高、存储容量低,提岀一种人 体动作数据集的大容量快速存储算法。采用链地址法建立哈希表,通过扩展哈希编码的方式扩展存储节点,在扩展节点条 件下,通过人体动作数据集存储使用强度与节点传输概率完成人体动作数据节点传输匹配。根据匹配结果,将节点划分为

不同的存储级别,按照人体动作数据存储系统中的硬件存储容量以及数据集具体情况,将不同级别存储节点分割成若干阈 值级别,避免节点失效,完成大容量人体动作数据集存储。实验结果表明,所提方法存储速度快,整体性能强,在存储人体数 据应用中具有较高可用性。关键词:人体动作数据集;快速存储;链地址;哈希法;多阈值中图分类号:TP393 文献标识码:BSimulation of Large Capacity Fast Storage Algorithm

for Human Motion Data SetZHANG Ying(Institute of Physical Education, Qingdao University, Qingdao Shandong 266071 , China)ABSTRACT: The traditional storage methods are easy to ignore the conflict problem of large capacity human action data set, resulting in node failure, and the storage quality is not high and the storage capacity is low. A large capacity

fast storage algorithm for human action data set is proposed. The hash table is established by chain address method,

and the storage node is extended by extending hash coding. Under the condition of extended node, the transmission matching of human action data node is completed through the storage intensity of human action data set and the trans・

mission probability of node. According to the matching results, the nodes are divided into different storage levels. Ac­cording to the hardware storage capacity in the human action data storage system and the specific situation of the data

set, the nodes will be different. The level storage node is divided into several threshold levels to avoid node failure and complete the storage of large capacity human action data set. The Simulation results show that the proposed meth­

od has fast storage speed and strong overall performance. It is feasible to store human body data.KEYWORDS:Human action data set; Fast storage; Chain address; Hash method; Multiple threshold1引言近年来,我国社会经济水平迅猛提高,数据存储技术被 广泛应用。运动领域数据的快速存储与管理也得到发展,大

应逐层向外扩展存储节点,能够增加存储容量,防止数据丢

失,在外层节点中存储,内层节点可向服务器备份数据,增强

容量人体动作数据集存储是一个具有挑战性的研究领域,数 据已经取代计算成为了信息计算的中心,对存储的需求不断 提高信息量呈现爆炸式增长趋势,存储已经成为急需提高的 瓶颈。哈希表作为海量信息存储的有效方式,是实现关联数 组(associative array)的一种数据结构,广泛应用于实现数据 的快速查找。扩展哈希编码的方式按照实际数据容量自适了系统的可用性及存储速度。对数据存储问题进行分析,可 为健美操等体育运动相关研究提供数据参考\"切。文献[3]提出一种大数据上基于列存储的MapReduce 分布式Hash连接算法。设计面向大数据的分布式计算模

型,在设计的分片聚集并行连接的基础上,利用Hash连接以 及动态探测方法优化了数据并行连接处理效率,针对该算法 开发了基于Hadoop的原型系统。但是该算法不适于大容量

人体动作数据集的存储,忽略了数据冲突问题,存储速度较

基金项目:山东省自然科学基金(2016CDZ088) 收稿日期:2019-07-02修回日期:2019-09-03

慢;文献[4]提出了一种基于多目标遗传算法的云数据安全

放置方法。该方法首先对数据块和数据节点距离相关的安—436——

全水平进行定义,然后构建了一个最大化安全和最小化检索 时间的约束多目标优化模型,最后采用遗传算法对提出的约 束多目标问题进行求解,从而得到最优化的云数据安全放置

策略。但是该方法很可能导致数据集同时抵达相同节点,造 成节点失效,影响存储性能。针对上述方法的弊端,提出一种人体动作数据集的大容 量快速存储算法。扩展哈希采用链地址法对哈希表进行 建立,防止数据冲突影响存储速度。为了完成体动作数据集 的实时读取与査询,增强人体动作数据存储系统的可用性与

存储性能,提出分层扩展存储方式;为了提高数据质量,通过

人体动作数据集存储使用强度与节点传输概率完成传输匹 配。在此基础上,针对相同存储级别的全部节点,提出多阈 值级别存储技术,实现人体动作数据的存储。2人体动作数据集的大容量快速存储方法采用哈希表主要是为了实现快速査找与存储,哈希表在 哈希值与存储处利用哈希函数构造映射关系,在理想状态 下,不需要任何比较即可获取需査找的关键词。在人体动作 数据集中,因为面对的是大容量数据,所以在哈希表中完成 一一映射很困难,而且受到存储容量的约束,在定址的过程 中在很大程度上会出现冲突,需引入防冲突方法\"①。2.1链地址防冲突法采用链地址法建立哈希表,哈希表自身是通过指针数组 构成的,其所有指针均指向相应的链表地址,链表中节点为 能够完成哈希寻址的有关ID信息⑺。为了找到ID信息,首

先通过ID值获取哈希函数值i,再从哈希表中选择第i个单 链表,完成对链表的寻找。在链表中,所有表项不但含有相 应ID变量指标,还含有指向下一个表项的指针。针对规模是m的哈希表,通过链地址法建立哈希表时平

均査找长度可通过下述过程获取:针对首个进入哈希表的项W,,其表达式为昭=m(1)针对第二个进入哈希表的项兀,其表达式为:W2 =

m

x 1 + —m x 2(2)针对第三个进入哈希表的项晒,其表达式为旳=(巴 x 1 + 空皿;1). x 2 + 4 x 3

(3)m

m

m通常采用简单的散列手段即可获取很好的防冲突效

果。2.2

扩展哈希编码为了完成人体动作数据集的实时读取与查询,增强人体 动作数据存储系统的可用性与存储性能,提高数据存储智能 化控制有效性,本节提出分层扩展存储方式。通过扩展哈希 编码的方式扩展存储节点,并且通过内层节点完成人体动作 数据集备份⑷。存储节点中的人体动作数据集存在特定存储周期,需备

份过期数据中的重要部分。为了增强存储速度与能力,充分 利用已有备份数据的存储节点的剩余存储空间,对历史数据 进行处理分析,对人体动作数据集进行预测,依据距离从大 到小的顺序选择2\"个存储节点,将其看作第一层存储节点, 用二进制编码。在n = 2的情况下,网格第一层存储节点的 编码是00,01,10,11,同时调整哈希表中存储节点级别n(o 在人体动作数据集容量渐渐提升的情况下,应对存储层次进

行扩展。存储通过扩展哈希编码的方式按照实际数据容量 自适应逐层向外扩展存储节点,不但能够增加存储容量,防 止数据丢失,而且在外层节点中存储,内层节点还可向服务 器备份数据,大大增强了系统的可用性及存储速度。扩展哈希编码详细过程如下:输入:第一层存储节点的二进制编码位数n,节点的存储 级别n/o输出:相应存储级别中全部节点的二进制编码。1) 若出现nQ的情况,则不满足实际情况,需重新输入;2) 从哈希表中选择和存储节点距离最短的2\"\"个节

点,将其看作第n, + 1层存储节点;3) 通过步骤2)得到节点顺序,按照爱顺序为所有节点 以n + n,位二进制数完成编码;4) 调整哈希表,对选择的2\"\"个节点的巾值进行设置,

也就是n; = n( + 1;5) 输出n,存储级别中所有节点的二进制编码。2.3

人体动作数据节点传输匹配人体动作数据集保存在不同距离的存储节点中,存在一 定的差异,本节在扩展节点条件下,通过人体动作数据集存 储使用强度0(«)与数据节点传输概率PS)完成人体动作 数据节点传输匹配,实现人体动作数据集节点传输控制,进 而提高数据存储质量。在独立存储节点中完成人体动作数 据流接收,人体动作数据流符合指数是A的泊松分布,同时

存储使用强度符合同一指数的泊松分布。则人体动作数据 集存储使用强度DG)的一阶矩阵E[DG)〕符合E[D(%)]A - El D(k) IA2£l D (x)2 I - El D(x) I(4)其中,El D(x) I与El D(x)2 I依次用于描述D(’)的一阶期望和二阶期望。人体动作数据集节点传输概率P(h)的一阶矩阵E[P(x)]和D(x)的一阶矩阵呈线性反比例关系,也就是E[P(*)]f El D (’)2 I - El DO) 1

A -£1 D(x) I(5)通过上述两个公式得到的一阶矩阵,如果是正数,则认 为整个人体动作数据集存储的使用属于正向关系,也就是存 储可利用链路完成节点传输匹配。如果得到的一阶矩阵是 负数,则表明需对人体动作数据集存储哈希表进行修正,从

而增强数据质量。2. 4 人体动作数据集存储在数据质量得到保障后,为了防止大容量人体动作数据 集同时抵达相同节点,造成节点失效,导致整个人体动作存—437 ——储系统崩溃,根据匹配结果,将节点划分为不同的存储级

SSKB IHMHI别⑼。按照人体动作存储系统中的硬件存储容量以及人体动

IMLTIPKWMW ”1画團團⑥ y i JBL I作数据集具体情况,将存储节点容量分割成若干阈值级 别3T2]。针对任意层存储节点,依据节点编码值顺序对人

体动作数据集进行保存,上述节点存储容量达到第i级阈值 后,将其跃迁至第i + 1级阈值。详细存储过程如下:输入:存储节点容量Q,分割的阈值级别八存储节点存

储级别n;o输出:哈希表更新结果。1) 计算下述公式:R, = i x 乎

(6)图1动作数据存储界面2) 若nt层中某节点的数据量Q 3 /?,,则将哈希表传输

至计算节点;通过软件对上述哈希算法进行模拟,通过直方图对相应

3) 计算节点对哈希表进行调整,若巾层中全部节点人

体动作数据集均高于儿,则重置哈希表;反之,重新进行步骤

哈希算法的哈希值进行描述,对不同哈希算法的散列分布性

进行比较,结果用图2进行描述。图2中横坐标代表哈希

2)。多阈值级别存储把人体动作数据集分散地保存至不同

存储节点,防止节点失效,完成数据存储,也大大加快了存储

值,纵坐标代表哈希值的分布频率,也就是密度。分析图2可以看出,MD4哈希算法与本文哈希算法对数 据的散列分布性较为均匀,而MD5哈希算法对数据的散列

速度。分布性较差,分布图不规则。为了进一步验证MD4哈希算法与本文哈希算法的性

3实验结果及分析能,图3描述是不同哈希算法哈希值的曲线拟合结果,图3 中横坐标代表哈希值,纵坐标代表哈希值分布频率。分析图3可以看出,本文哈希算法可保证数据的均匀分 布,不仅如此,数据散列区间较其它哈希算法更大,能够降低

3.1实验平台搭建为检验所提人体动作数据集的大容量快速存储算法的

性能,需要进行一次实验,实验平台PC机的性能参数为‘In­

tel core i5处理器,4核CPU,内存4GB,操作系统为Windows 10系统。实验搭建了由8个节点构成的健美操动作数据集 群,将其中1个节点看作主控节点,1个节点看作普通节点, 将剩下的6个节点看作存储节点与计算节点。测试数据集 选用某院校学生健美操动作的真实数据集,详细情况用表1

哈希冲突,性能明显优于MD4哈希算法。3.3存储性能测试本节将文献[3]算法和文献[4]算法作为对比进行测

试,验证本文算法的存储性能和数据集规模之间的关系。针

对不同规模人体健美操动作数据集,对三种算法的存储时

间、存储容量、节点平均剩余能量、失效节点数量进行比较,

采用直接统计的方式获取。得到的结果用表2进行描述。进行描述。表1实验数据集详细情况文件名称异常数据设备数据缓存数据副本数存储质量通过存储过程中的最大读取速率U进行衡量,

其计算公式如下记录数文件大小865kB占用空间4442425kB13O5GB2024 条12.65MBUm ai r Qk nk y y JR ( «=1 k=l 1小(只 + 1 )一 k)(7)412GB289MB式中,m用于描述存储子任务总数量,a,用于描述子任务在

836MB4216 条存储节点执行过程中存储的数据块个数,R用于描述数据的 备份副本个数,C用于描述存储成本。将健美操动作数据输入到数据集存储界面中,根据图中

线条变化,判断数据是否异常。图1为动作数据存储界面。其中最大读取速率越低,认为存储方法执行性越差,存

储质量越低。3.2哈希算法性能测试本文采用哈希算法实现人体健美操动作数据集大容量 快速存储,需结合实际应用,按照哈希算法衡量标准,通过图

方法表2三种算法存储性能比较结果数据量写入 存储节点平均 失效节点 最大读取

1的健美操动作数据存储界面,将本文哈希算法和其它哈希

算法相比,主要包括MD4、MD5算法,验证本文哈希算法的

/条2000时间/s0.72容量/G剩余能量/J数量/个12.31352.160速率/kBps2.56本文算法有效性。—438 —10000500003.065.&3512.5610.1365100000文献23. 193算法2<)000.915.62202.5929229瞬1000()4.56 5000019.6533

10000028.02文献⑷算法20001.526. 15152.671100006.355000020.3610000031. 15*除悴

O0H.»E

牌徑

1E+093E+O95E+O9哈希值

(a)MD4哈希算法*•辰忖

2

0山赳

S 娱 &

1E+09

3E+O9 5E+09

哈希值(b)Davies-Meyer哈希算法om

哈希值

(c)本文哈希算法图2不同哈希算法散列分布性比较结果除忖定俺

哈希值

图3不同哈希算法哈希值的曲线拟合结果分析表2可以看出,本文算法在人体健美操动作数据集

量增加的情况下,写入数据量所需时间最低,且存储容量较

其它两种方法更高,说明本文算法存储效率高。分析三种方法的节点平均剩余能量与失效节点数量可

知,本文算法节点平均剩余能量比其它两种算法高,且本文

算法无失效节点,而文献[3]算法有2个失效节点,文献[4]

算法有1个失效节点,说明本文算法能够有效处理大量数据 同时涌入存储节点问题,提高不同节点的负载均衡性,大大

提高节点使用周期。分析三种方法的最大读取速率可知,在数据量相同的情

况下,本文算法的最大读取速率一直高于文献[3]算法和文

献[4]算法,说明本文算法存储质量高。综上,本文采用的哈希算法性能高,使得本文存储方法

效率高、负载均衡性强、存储质量高,整体存储性能较强。提出一种新的人体动作数据集的大容量快速存储算法。

采用链地址法建立哈希表,通过扩展哈希编码的方式扩展存

储节点,利用内层节点完成人体动作数据集备份,通过人体

动作数据集存储使用强度与节点传输概率完成传输匹配,增 强存储质量,将相同存储级别的节点进行阈值级别分割,避

免节点失效。经实验验证,所提算法效率高、负载均衡性强、

存储质量高,整体存储性能较强。参考文献:[1]

徐英辉,祝恩国,赵睿,等.MongoDB索引的用电信息非结构化 数据存储方法[J].电力系统及其自动化学报,2017,29(9):

93-97.[2]

葛磊蛟,王守相,瞿海妮.智能配用电大数据存储架构设计. 电力自动化设备,2016,36(6) :194-202.[3] 张滨,乐嘉锦.基于列存储的MapReduce分布式Hash连接算

法[J].计算机科学,2018,45(sl) :484-488+518.[4] 吴超,何利文,唐澄澄,等.基于多目标遗传算法的云数据安全—439 —存储方法[J].计算机技术与发展,2018,28(11):141-147.[10] 王镜毓,石东源,陈金富,等.基于图数据库的继电保护整定 计算数据存储与应用[J].电力自动化设备,2017,37(9):

[5] 柳原.关于大数据非结构化信息存储效率仿真研究[J]•计算

机仿真,2018,35(6): 204-208.[6]

218-223.[11]

赵敏,邱秀荣,尹雪婷.云计算中的数据安全存储和加密模

徐光伟,白艳珂,燕彩蓉,等.大数据存储中数据完整性验证结 果的检测算法[J].计算机研究与发展,2017,54(11):2487- 2496.型的设计[J].吉林工程技术师范学院学报,2018,(2):91-

93.[12]

[7] [8]

魏巍,陆幼骊,俞艺涵.基于CP-ABE算法的云存储数据访问 李又玲,常致全.基于Gibbs采样与概率分布估计的移动云 数据存储[J].计算机工程,2017,43(1):13-19.控制方案设计[J].舰船电子工程,2017,37(7):70-74.王婷婷,翟俊海,张明阳,等.基于HBase和SimHash的大数据 K-近邻算法[J].山东大学学报(工学版),2018,48(3):58-

[作者简介]张英(1962-),女(汉族),山东寿光人,副教授,

63.[9] 钱伟强.基于海量存储云调度机制的云网络数据存储算法 [J].国外电子测量技术,2017,36(3):27-30.研究方向:健美操教学与训练,体育教育。(上接第391页)参考文献:[1]

[8] 张伟,等.深度卷积神经网络特征提取用于地表覆盖分类初探 [J].中国图象图形学报,2017,22(8) :1144-1153.康文平,刘树林,段翰晨.基于MODIS时间序列数据的沙漠化 遥感监测及沙漠化土地图谱分析一以内蒙古中西部地区为

[9] 彭晨,等•基于移动激光扫描点云特征图像和SVM的建筑物 立面半自动提取方法[J]・地球信息科学学报,2016,18(7): 878-885.例[J].中国沙漠,2016,36(2):307-318.[2] [3]

吕利利,等.基于CART决策树分类的沙漠化信息提取方法研 究[J].遥感技术与应用,2017,32(3):499-506.[10] 马鑫,等.三维枪弹痕点云数据处理及特征提取研究[J].液

范学满,胡生亮,贺静波.对海雷达目标识别中全极化HRRP 的特征提取与选择[J].电子与信息学报,2016,38(12):3261

晶与显示,2016,31(9) : 889-896.-3268.[4]

[作者简介]史 广(1980-),男(汉族),山西大同人,硕士研究 生,讲师,主要研究方向:3S技术与应用、土地信息

苟小林,等•川西北地区沙化草地特征研究[J].草地学报,

2016,24(4):768-775.[5] [6] [7]

路晓亚,杜丽娟.模糊生物图像特征优化提取仿真研究[J]. 计算机仿真,2017,34(5): 397-400.技术;杨 艳(1984-),女(汉族),山西忻州人,硕士研究

生,讲师,主要研究方向:3S技术与应用、土地信息张兴国,等.单幅图像地理信息提取方法[J].测绘科学,

2017,42(8) :107-110.刘强,等.基于LiDAR数据特征的湖相层三维地理信息提取 [J].地球信息科学学报,2018,20(4):489-495.技术。(上接第413页)[6]

徐龙河,吴耀伟,李忠献.基于概率的钢框架结构地震失效模 据可视化模式识别方法[J].高技术通讯,2018,28( 1 ):39-式识别方法[J].工程力学,2016,33(5)=66-73.[7] [8]

刘源,庞宝君,迟润强,等.基于声发射的铝蜂窝板超高速撞击

51.损伤模式识别方法[J].航空学报,2017,38(5):147-159.[作者简介]耿蒲龙,宋建成,赵饪,等.基于SVM增量学习算法的煤矿高 压断路器故障模式识别方法[J].煤炭学报,2017,42(8):

徐歆冰(1989-),女(汉族),江苏南京人,硕士研究

生,实验师,研究方向:模式识别、人工智能。2200-2206.[9]

佚名.移动平台终端信息存储数据类型识别仿真[J].计算机 仿真,2017,34(8): 395-398.[10] 梁怀新,郝连旺,宋佳霖,等.基于增量学习和Lasso融合的数

440 —

因篇幅问题不能全部显示,请点此查看更多更全内容