您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页数据采集系统关键模块的研究与设计实现

数据采集系统关键模块的研究与设计实现

来源:宝玛科技网
维普资讯 http://www.cqvip.com 第7卷第4期2007年2月 科学技术与工程 Vo1.7 No.4 Feb.20o7 1671—1815(2007)04—0620—03 Science Technology and Engineering ⑥ 2oo7 Sci.Tech.Engng. 数据采集系统关键模块的研究与设计实现 童庆勇 王盼卿 李晓辉 贺天章 (军械1-程学院计算机工程系。石家庄050003) 摘要 数据采集系统是一类很重要的软件,往往设计用作采集海量和复杂数据条目。大数据量数据采集系统在性能上有很高 的要求,特别是在处理方式和效率上。通过对数据采集活动中关键业务流程的研究,分析并设计了该系统关键模块,实现了高 效、准确地数据采集工作的要求。 关键词数据采集系统数据采集关键模块 B 中图法分类号TP274;文献标识码数据采集系统。主要完成数据收集、汇总、整理 等工作,常常面对复杂、海量的数据对象,器材编码 所涉及的数据就是这种情况。器材编码是一项标准 化、规范化的重要工程,意义重大。对数据采集系统 准确性和效率的要求都很高。本文描述的是应用于 某领域器材类目编码工程的数据采集系统,并分析 块是提供导入功能的数据接收模块和提供数据冗 余检查的数据处理模块。数据接收模块主要考虑的 是高效率导入问题,冗余检查模块主要考虑效率以 及人机结合检查排除冗余的问题。 2关键模块的设计实现 2.1系统的数据流程 其关键技术问题和设计实现了其关键模块。 1关键模块的分析 该领域器材类目数量巨大.涉及几乎现有所 器材数据由基层单位整理并转化为规定格式 的电子表格(EXCEL),通过电子表格向数据库导 入,导入时同时检查电子表格格式,即数据规范与 有主要国民经济工业门类,编码本身是一个十分 艰巨和长期的工程,在本文不作讨论。本文只讨论 否。如果发现错误行,将记录错误行号,系统通知其 返回修改。图1为描述整个数据流程的简图。 为编码提供数据支持的数据采集系统。首先,现实 的情况是原始数据分散在各个器材管理部门,由 于器材用途的差异、部门问管理水平的差异以及 部门间软硬件设施的差异,使得对原始数据管理 水平差异很大。有的已经实现了很好的数据库管 理,有的只用简单的电子表格进行管理,有的还未 开始对器材条目整理和管理。其次,由于器材本身 可能是标准件或共用件。在设备之间存在大量重 复。在管理部门之间也存在交叉:同时由于生产企 业、管理部门各方面原因,使得部分器材的名称、 件号、规格型号等的不规范。导致部分重复情况无 图1 数据导人模块数据流程简图 法,通过计算机排除。 从以上分析可以看出,该数据采集系统关键模 2O06年10月10日收到 系统录入模块可以把数据直接录入到数据库, 适合未整理的器材数据以及向数据库新增加条的 目的。对已经实现计算机管理的器材数据,则通过 数据导入模块完成;录入模块还可用于已导人数据 维普资讯 http://www.cqvip.com 4期 童庆勇。等:数据采集系统关键模块的研究与设计实现 621 条目的修改、增减。下级部门采集数据并处理完毕 后.通过系统生成包含器材数据的数据库文件,上 报给上级器材管理部门;上级器材管理部门使用汇 总功能.将数据汇总。经处理后向更上一级上报数 据。下面这段代码作用就是汇总由下级上报的数 据。 if tableNo<NumofAUTable then//将表名读出 tables:=tables+AllTabh[tableNo]+ , else tables:=tables+All rableftableNo]+ ) ; "/"+pass+ @ +server/,数据库登录命令 linecmd:= imp +connectstr+tables+ file= ” +datafile+ …”’ignore=y : //Oracle读数据文件操作命令 result:=WinExecAndWait32(1inecmd。SW_HIDE);/,执行命令并返回 结果 if resuh<>O then Application.MessageBox( 接收数据失败! 。 出错 . MB_I【CONERROR); 2.2采用中间表技术的数据导人模块的实现 前文已经提到过,该领域器材数量巨大,这 对导人模块的可靠性、速度和效率提出了很高 的要求。如何设计出可靠性好、速度快的导人模 块。关系整个系统的成败。数据导人过程中主要 有以下几点影响导人效率.电子表格的读取方 式、目标数据表的大小以及向目标数据表的写 入方式。 电子表格单页数据超过一万条以后,逐个读出 电子表格的数据项效率较低。解决办法是通过一个 特殊二维数组变量将电子表格数据区域整块读人. 这样从电子表格中读取数据转化到从这个数组空 间取数据,速度得到很大提高。 数据导人的速度也受目标数据表的大小的影 响,但不同的方法受影响的程度却不一致,可采用 的方法有…: 向数据表逐条添加。并为每个数据项赋值; 用带参数的SQL语句逐条将条目插入到表尾; 先将数据插入中间表,在中间表上处理数据的 惟一性,然后再整体插入到目标数据表末尾。插入 成功后清空中间表。 假设检查数据惟一性每条需要时间为c。c、c 分别指在目标表和中间表中检查的耗时.在数据表 末尾进行一次插入需要时间为D。为一个数据项赋 值所需时间为E,数据条目和数据项分别为ⅣJ、Ⅳ2。那 么三种方法分别耗时为: 逐条添加:Ⅳ1( +c); 整条插入:J7、, (c+D); 中间表:N C,+D。 E和D取决于所采用的计算机软硬件,C和C 与 数据表大小相关,数据表越大.则它们越大。实践表 明。在相同计算机软硬件环境下,当目标数据表为 空。待导人电子表格数据1万条.三种导人方法所需 时间分别为:约45 s、约120 s、约300 8:当目标数据 表数据为20万条。待导人电子表格数据1万条。所需 时间分别为约60 s、约300 s、大于30 min。可见采用 中间表的导人方法效率很高。而且受目标数据表大 小的影响不大。 采用中间表导人的前提是每次导人的器材数 据都归属一个类属,这样只需在目标数据表进行一 次惟一性检查,避免每条数据都进行。极大提高了 效率。 2.3冗余数据处理模块的设计实现 冗余数据处理模块为器材编码工作提供规范 化、无冗余数据。冗余处理的主要对象是器材中的 通用器材和共用器材。 标准件是标准化的器材。有规范的名称、规格 型号、件号等。通过这几个字段就可以惟一区分一 种器材。系统根据判定器材名称、规格型号、件号是 否完全相同,相同的判定为冗余条目,保留其中一 条,其余作相应处理后从条目中去除。 共用件是同时使用在几个或一类设备上的器 材。由于其并不是标准化的器材,部分共用器材在 名称、规格型号、件号的不够规范。不能完全通过计 算机准确判断。为了保证数据的准确性。需要专业 人员通过使用系统来完成排除。为最大限度提高处 理效率,系统提供主要字段排序功能、搜索功能.专 业人员使用这些功能可以快速地判定那些相似条 目是否为冗余数据,从而进行处理。 专用件是使用在单个型号设备上的器材。在导 人模块设置不能重复导人一个型号的设备.即可保 证专用件的惟一性。 3结束语 通过对器材编码需求以及实际数据采集工作 的详细分析,研究并设计了数据采集系统。本文简 (下转第628页) 维普资讯 http://www.cqvip.com 科学技术 与 工程 7卷 术,增强CRM的功能。 参 考 文 献 l Jiawei Hart.Kamber M.Data mining concepts and techniques.北 3王扶东,李兵,薛劲松,等.Fast association rule mining in CRM.北 京:中国科学院研究生院学报,2004;(3):358—365 4佟强,周园春,阎保平.关联规则挖掘算法.西安:微电子学与计 算机,2005;(6):68—72 5 Han J,Pei J,Yin Y,et o1.Mining frequent patterns without candidate generation.In:Proceedings of the ACM—SIGMOD International Conference Management ofData.Dall勰。TX。2000;l—l2 京:机械工业出版社.2001 2钱旭潮,裒海波,丁源.企业客户关系管理.北京:科学出版社。 20o4 cation of Constraint-based Association Rule Mining ZHANG Ru,YANG Zhi-yi (College of Software and Mieroeleetronics,Northwestern Polytechnical University,Xi all 710065。P.R.China) [Abstract] Using association rule mining call find the association from huge amount of data in business or other ifled.It provides the important information to decision-making.Applying association rule mining to CRM can deepen the analytic function of CRM.According to the enterprises needs and the characteristics of cross- selling,a constraint-based FP-growth algorithm is presented after analyzing the constraint-based association rule mining.The application of constraint-based association rule mining in CRM can effectively support enterprises to make merchandise planning. [Key words]constraint-based association rule mining customer relationship management cross—selling (上接第621页) 述了数据导人模块和冗余处理模块涉及到的主要 技术难题及其解决方法,其中对采用中间表的数据 参 考 文 献 l Date C J.An introduction to database systems(seventh edition).北 京:机械工业出版社.2000 导人技术有着极高的数据导人的效率。希望可以作 为该领域类似工程技术的参考方法。 of the Key Modules of Data Collection System TONG Qing-yong,WANG Pan-qing,LI Xiao-hui,HE Tian-zhang (Department ofComputer Engineering,Ordnance Engineering College,Shijiazhuang 050003。P.R.China) [Abstract]Data collection system is one impotrant kind of software.It is always designed for the magnaniitmy or complexity data object.Magnanimity data collection system is required great in performance,especially in dealing mode and efficiency.Through the research of key operation flow in data collection, key modules have collection work. been analyzed and designed,which achieve hi gh efficiency and nicety requirement in the data [Key words]data collection system data collection key modules 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务