您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页数学建模数据可视化范例

数学建模数据可视化范例

来源:宝玛科技网

数学建模数据可视化范文1

关键词 : 三维建模 ; 立体测图 ; 真正射影像

Abstract: The 3D model of city is a city terrain, over ground and underground artificial built (structure) three-dimensional expression of the building, to reflect the spatial position, city of object geometry, texture and attribute information. This paper introduces the basic principle, 3D city modeling technology, production process, technical characteristics of the content.

Key words: 3D modeling; stereo mapping; true orthophoto

中图分类号:P25 文献标识码:文章编号:

引言:城市三维建模旨在综合运用“3S”技术、三维建模与技术,以多尺度遥感对地观测技术为手段、以1:1000标准分幅和行政单元为基础作业单元,设计一套人机交互方式的城市三维建模技术流程,利用DEM、DOM、TDOM、DLG构建城市建筑物的几何模型,实现从DOM、TDOM和带有定向参数的原始影像上提取建筑物各个面的纹理,并对纹理信息进行处理,最后在建筑物几何模型上粘贴纹理生成城市三维模型。从而以较低的建设成本,较高的建模效率满足城市三维建模的要求,实现对城市现状的三维模型快速建立,满足不同用户的需求,为城市管理提供可视化的手段。

一、城市三维建模基本准则

1)分幅建模

为了便于数据库存储和系统调用,以1:1000标准分幅为单位作为建模的基本单位,DLG、DOM、DEM和TDOM也相应的以此单位分幅。

2)地物取舍

在城市三维模型中需要反映出城市的主体结构,对较大型建筑物要反映出其真实形状,对于小型建筑物,对全局影响不大的地物可以进行综合,以纹理影像代替细节。通过对地物的综合取舍可以有效地提高建模的效率。

3)特殊建筑物

4)模型优化

建模场景中单个物体的面数不能太多,可以首先在二维矢量图中对建筑物的边线进行综合,将距离较近的线进行综合,使建筑物的形状尽量规则、简单,这样可以降低整个场景的面数,在纹理贴图时也可以节省时间,同时还可以提高交互场景的运行速度。

5)建模效率

需要采用高效的建模方法来构建地物模型。针对复杂地物,尽量把模型做成是可以组装的;对于需要手动建模的地物,选择建模软件(3DSMax、Maya、Sketchup、Mudbox、VirtuoZo、Photoshop等)进行建模。

二.三维模型制作技术路线

三维模型数据既应满足数字城市又应满足数字规划两方面的需求,将同时保证数据精度和美观度。。。三维模型制作技术路线如图1。

图1 三维模型制作技术路线

。同时其高效、真实、精准的特性为业务应用快速提供准确的数据源,方便用户尽快开展行业应用。

2)真正射影像(TDOM)处理技术

与普通数字正射影像产品的区别是:三维建模区所用的背景图对所有建筑物都进行了中心投影纠正,从而保证建筑物无投影差。

。。

三.城市三维模型数据生产

1)矢量采集

图2 建筑物矢量采集

2)三维模型生成

利用专业三维建筑物制作软件自动生成建筑物三维模型(图3)。

图3 自动生成三维模型数据

3)顶部纹理贴图

由于真正射影像已经消除了建筑物投影差,使得矢量信息与影像信息能够完美叠加,由此可以对影像顶部纹理信息进行准确裁切,并自动提取,附着在建筑物三维模型数据上(图4)。

图4 顶部纹理自动提取

4)建筑物侧面纹理贴图

a.影像贴图模型侧面纹理

本项目城市建筑物影像贴图模型侧面纹理部分采用影像贴图,提取正射影像作为建筑模型的侧面纹理(图5)。

图5 影像纹理模型

b.照片贴图模型侧面纹理

照片贴图模型采用实地采集照片作为侧面纹理(图6)。

图6 照片纹理模型

四.三维模型制作技术特点

1)利用数字微分纠正技术,改正原始影像的几何变形,对影像进行重采样,使影像视角被纠正为垂直视角而形成的影像图。而传统正射影像并不是完全消除了投影差的所谓“真正射”。

2)避免了高大建筑的倾斜对其它地物的遮挡。

3)图上的所有人造三维物体,例如建筑物和桥梁等,都被安放在它们真正的位置上,没有产生由高度的起伏而引起的位移。

4)利用真正射影像和数字地表模型进行叠加可以很方便地生成三维城市地面模型。由于建筑物等已经被纠正到垂直视角,所以三维建筑等的顶部影像能够和数字地表模型完美叠加。

5)在高架桥、立交桥等人工修建的桥梁处,因采用三维制作,故在真正射影像上我们采用还原原始地面的方式,使其在三维场景中显示地更真实。

五.结论

城市三维建模是以立体测量三维建模为主要工作内容,建模要求模型结构完整、平面和高程精度高、重点道路和市中心区域模型效果精美。最终建模成果可配置于三维地理信息平台上,用于展示及辅助决策,未来成果的应用将延伸到地下管线、数字、规划等,初步构建以三维仿真为技术基石,城市综合管理为目标的数字虚拟城市。

参考文献:

[1] 熊祖强.工程地质三维建模及可视化技术研究[D] 武汉:中国科学院武汉岩土力学研究所,2007.

[2] 高山.三维城市模型若干关键技术的研究[D].武汉:武汉大学,2004

数学建模数据可视化范文2

Abstract: Planetary gear system is one of the important transmission parts of mine winch. On the basis of the research on objective function, constraint conditions and design variables, this paper programs optimization design program with Matlab, optimizes the planetary gear system design, determines the size of each structure part of planetary gear more accurately, and then reaches the goal of reducing the weight of the device, saving materials and reducing the cost.

关键词: 行星轮系;优化设计;MATLAB

Key words: planetary gear system;optimization design;Matlab

中图分类号:TH122 文献标识码:A 文章编号:1006-4311(2013)12-0040-02

1 概述

矿用绞车主要用于矿井井下及装载站调度编组矿车、中间巷道中拖运矿车及完成其他辅助搬运工作,它在煤矿上使用非常广泛,其产业已经成为煤矿设备方面一个非常重要的分支。矿用绞车的规格和品种繁多,产品的体积、性能等差异也很大。

JY型绞车是一种新型的矿用绞车,该绞车的使用范围广,在井下工作的适应性强,在操作等方面也具有较人性化的设计。绞车为了能够适应工作的性质和环境,其结构应该紧凑、轻便,本文以JY60型矿用绞车为例,对绞车中的行星齿轮机构进行优化设计,在保证使用性能的前提下,尽量减小其体积,从而可以减轻重量、节约材料、降低成本。

2 Matlab优化设计

机械优化设计是以机械设计的理论为依据,建立相应的数学模型,通过此模型反映出工程设计中存在的问题,并通过计算技术找出设计中可以采用的最优方案。

MATLAB主要面对可视化、交互式程序设计以及科学计算等工作环境。它将数值分析、矩阵计算、非线性动态系统的建模和仿真等诸多强大功能集于一身,为科学研究、工程设计、有效数值计算等众多科学领域提供了一种方便、快捷的解决模式。

其中优化工具箱的功能非常强大,不仅可以求解线性、非线性规划问题,同时可以针对多目标规划问题进行分析。

本次优化设计利用Matlab优化工具箱进行优化设计,通过序列二次规划法进行数据计算,求得设计中的最优数据,并可确保线性收敛具有较好的效果。

本文研究矿用绞车中行星齿轮机构的设计,利用fmincon函数,寻求此机构的优化设计方案,具体算法如下:

列举出相关约束条件:

C(x)≤0Ceq(x)=0A・X≤bAeq・X=beqlb≤X≤ub

求解minf(x)

函数语法为:

[R, fval, exitflag, output]=fmincon(@objective, R0, A, b,Aeq, beq, max, min,@constraint)

式中R为通过优化设计后得到的最优解;fval为目标函数在R点得到的函数值;exitflag为优化结果的标志; output为返回信息的数据结构;objective为实现目标函数的M文件;R0为优化变量初始值;max为优化变量上限值;min为优化变量下限值;constraint为实现约束函数的M文件。

3 行星齿轮机构的数学模型

矿用绞车中的行星轮系是绞车中重要的传动机构之一,其设计相对比较复杂,本文以JY60型绞车为例,对绞车中的行星轮系进行分析,以最小体积为目标函数进行优化设计。行星轮系机构简图如图1所示。

3.1 明确设计变量 JY60型绞车的相关参数如下:主动轮工作转矩T=879N.m,行星轮的个数F=2,行星轮系传动比i=3.91,太阳轮齿数z3=23,齿轮齿宽b=92,模数m=8。

要计算行星轮系体积大小,需选择齿轮的3个主要参数:齿数、齿宽、模数,将z3、b、m作为三个变量,X=[z3 b m]=[x1 x2 x3]。

3.2 建立目标函数 根据前面的分析可知,机构的体积大小会影响到绞车整体结构大小,因此本优化设计以行星轮系体积作为目标函数,具体公式如下:

f(x)=V3+FV2=■m2b(z■■+Fz■■)

式中V3――太阳轮体积

V2――行星轮体积

Z2――行星轮齿数

根据行星轮系的同心条件可知

z2=■=■×z3

由上两式可得f(x)=■m2bz■■[4+F(i-1)2]

将已知数值带入,得f(x)=4.08z■■bm2

代入设计变量x1、x2、x3,则该优化问题的目标函数即可写成:

f(x)=4.08x■■bx■■ (1)

3.3 确定约束条件

①根据太阳轮齿数的约束条件,17≤z3≤40

②根据模数的约束条件,2≤m≤10

③根据齿宽,0.7mz3≤b≤1.15mz3

④根据行星轮系的相邻条件,

(z3+z2)sin■>z2+2ha*

即: z3>1

⑤齿轮的材料为40Cr,根据齿轮轮齿接触强度的要求:

d3≥800■

式中K■――工况系数

Kβ――载荷分布系数

φ■――齿宽系数

[σ■]――接触疲劳许用应力

经计算得2529822≤z■■m2b

⑥根据齿轮弯曲强度的要求:

m≥13■

式中YF――齿形系数

[σ■]――弯曲疲劳许用应力

经计算得z3m2b≥12582z■■

将以上计算所得结果整理得约束条件:

17-x■≤0;x1-40?燮0 2-x■≤0;x■-10≤0 1-x1≤0 x2-1.15x1x3≤0 0.7x1x3-x2≤0 2529822-x■■x■■x2≤0 12582x■■-x1x2x■■≤0

4 MATLAB优化算法

该行星齿轮机构的数学模型属于非线性规划问题,在进行优化设计时,选用Matlab优化工具箱中的有约束多元函数极小值fmincon函数来实现。

4.1 实现目标函数 根据公式(1)建立M文件,以实现目标函数,命名为objective.m,程序如下:

function b=objective(x)

b=4.08*x(1)^2*x(2)*x(3)^2;

4.2 明确约束条件

根据公式(5)-(8)建立M文件,以实现约束函数,命名为constraint.m,程序如下:

function[y,ceq]=constraint(x)

y=[x(2)-1.15*x(1)*x(3);

0.7*x(1)*x(3)-x(2);

2529822-x(1)^2*x(3)^2*x(2);

12585*x(1)^(-0.1591)-x(1)*x(2)*x(3)^2];

ceq=[];

4.3 编写优化程序 由式(2)(3)确定变量X的上下界,建立M文件,以调用优化方法,命名为jiaoche.m,程序如下:

R0=[23,92,8];

min=[17;0;2];

max=[40;120;10];

[R, fval, exitflag, output]=fmincon(@objective, R0, [], [],[], [],min,max,@constraint)

5 优化结果及分析

建立三个M文件后,运行结果如下:

R=22.5816 107.4225 6.7958

fval=1.0322e+007

exitflag=4

根据工程设计要求,所有参数要进行标准化或者圆整。

优化前后的参数对比见表1。

从结果反馈,优化后的行星轮系体积比优化前节约了近11.1%。优化后的行星轮系在保证矿用绞车使用性能的前提下,减小了体积,更适应矿用绞车的工作环境,另外还可以达到减轻重量、节约材料、降低成本等目的。

利用Matlab软件对此类产品进行优化设计,程序简单易懂,设计精度较高,还可以减轻设计者的劳动力,缩短产品设计的周期,实现了机械设计与软件的有效结合。

参考文献:

[1]饶振纲.行星传动机构设计[M].北京:化学工业出版社,2003.

[2]汪浩,王洪谦.矿井提升机减速器的选用与优化[J].煤矿机械,2011,32(10):192-193.

[3]王海艳.JY60型运输绞车传动系统动态特性研究[D].中国矿业大学,2008.

数学建模数据可视化范文3

关键词:大数据 大数据分析方法 情报研究 适用性

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。。。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

参考文献:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.

[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王炼,武夷山. 方法移植对科学计量学研究的方启示[J]. 科学学研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.

[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.

[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.

[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.

[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.

[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.

[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.

[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.

[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.

数学建模数据可视化范文4

【关键词】 计算机 生物学研究 生物信息学 交叉学科

一 前言

什么是生物科学?在古时候,人们对生物学的认识是很有局限性的:对生物学的认识往往停留在观察上,到了19世纪,达尔文发表《物种起源》之后,生物学第一次总结出一个有重大哲学意义的普遍规律。此后,孟德尔发现了遗传学的规律,沃森和克里克发现的DNA双螺旋结构以及核酸是生命本质的一系列重大发现,为生物学发展奠定了坚实的基础,从而生物学正式摆脱了那种仅靠观察,比较的方法,发展成为一门实验科学。

传统的生物学是一门实验科学,生物学的研究主要依靠的是对实验所得的数据进行处理和分析。生物学还是一门发现科学,通过对在实验中发现的新现象,新的生物规律进行分析、归纳和总结,提炼出新的生物学知识。进入到20世纪以来,人类已经进入了信息化的社会。作为信息社会中最为重要的工具,计算机在人们生活中发挥着日益重要的作用。随着网络技术和通信技术以及半导体技术的发展,计算机的功能越来越强大。计算机科学是对社会各个层面影响最大,渗透力最强的高新技术。

回顾20世纪人类所取得的科学成就,以计算机技术为代表的信息技术得到高速的发展和应用。在以计算机科学为代表的信息科学取得快速发展的同时,现代生物科学研究也取得了极大的成功。

二 进展

计算机在生物学研究中的应用并不是一个很新的话题,作为一门学科,它是新的,但实际上它的研究工作的开展已经有了一段历史。

(一)计算机在国内生物学研究中应用的情况

我国的科研人员在20世纪60-70年代就开始利用计算机在生物学研究中进行数据的统计分析,但是应用的层次低,多用于教学和实验数据分析处理。我国的生物信息工作是逐步发展起来的,20世纪80年代初仅在个别单位开展了一些计算分子生物学的工作,如核酸序列统计分析、生物大分子二级结构预测、分子动力学等。虽然我国在1993年就在中国人类基因组计划中加入了生物信息学的相关研究内容,但是真正的开始是在1995年。目前,我国所用到的生物数据库和生物系列软件多半来自于国外,基础力量还比较薄弱。

1997年,香山会议专题讨论了我国生物信息学的发展。1999年,国家自然科学委员会生命科学部、信息科学部、数理科学部、材料科学部在北京召开了“生命科学中的信息科学问题”论坛,提出了建立国家生物医学数据库与服务系统,同时开展基因组及功能基因组信息分析工作。2000年国家自然科学基金委员会主持召开的“生物信息学前沿方向”研讨会上,与会专家提出了我国生物信息学发展的方向是:建立国家生物医学数据库与服务系统、人类基因组信息结构分析、功能基因组相关信息分析和研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制。

近几年来,我国对生物学中的计算机应用工作越来越重视,研究的层次也不断提高。在“HGP1%的测序工作”、“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构与功能研究”等项目中,计算机都起到了重要的作用。

2003年8月18日,“作为国内服务器品牌三甲之一” 。。“生物信息专用计算机” 采用机群结构,系统中节点根据功能划分为计算节点、数据库节点、服务节点三种类型,为生物信息学研究提供了一个基于硬件、软件和数据库集成环境下的统一运行平台,为各个分析软件、子数据库模块提供一致的运行和管理环境。同时用户可以根据需要选择软件和数据库模块,无缝集成到平台上。平台提供ORACLE数据库和软件的集成接口和管理工具。生物信息专用计算机以模块化的方式提供大量基因组学、生物信息学研究的常用分析工具, 并能实现分布式高性能计算。用户也可以根据需要定制分析软件,添加到该专用计算机应用平台中。

对于我国来说,生物信息学人才的培养是当务之急。生物信息学是一个交叉学科研究领域,这对生物信息学研究人员在知识结构上提出了非常高的要求,特别是对于来自数学或计算机专业的研究人员,不仅要掌握生物学的基础知识,还要求深入了解生物学中的相关问题,这样的人才不是单一学科能够培养出来的,要求跨学科地培养生物学和信息科学的复合型人才。目前中国科学院和国内一些著名大学已经开始较大规模地培养生物信息学专业人才,这为我国今后生物信息学的发展奠定了良好的基础。可以相信,我国未来计算机在生物学中的应用一定会有着很大的进步与发展。

(二)福建省“计算机在生物学研究中应用”学科发展简介

福建省计算机在生物学研究中的应用虽然起步较早,但是发展一直相对较慢,目前还没有形成较大的研究规模和较完整的研究体系。但是,福建省对计算机在生物学研究中的应用十分重视,福建农林大学、厦门大学等多所高校开办了计算机在生物学研究中的相关专业或研究团队并举办了几场相关的学术会议。

福建省的厦门大学生命科学学院和福建农林大学的生命科学学院已经开办了生物信息学本科专业,为我省培养生物信息科学人才提供了一个很好的平台。该专业整合了生物和计算机的相关资源,有望为我省培养出更多的精通于计算机在生物学研究中的应用人才。。

例如:福建省厦门大学生命科学院的纪志梁博士主要从事生物信息学、功能基因组和蛋白组学、计算机辅助药物设计、生物数据库和生物信息软件的开发及应用、数据挖掘、分子进化、生命起源与进化等方面的研究,主持了生物信息辅助药物不良反应(ADRs)的分子机理研究及预测的国家自然科学基金项目。

福建农林大学借助于其在生物学特别是农林学科上的优势,联合校内的计算机与信息学院一起开办生物信息学专业,计算机与信息学院还成立了生物信息研究团队,以期望借助于两个学院的实力,更好地为我省培养相关的人才。

目前福建省在发展该学科时面临的主要问题是相关人才的缺乏和研究硬件设备的不齐全。目前,福建省尚未能在“计算机在生物学研究”的学科发展中形成一个理想的研究梯队,从而导致了在相关的科研上以应用研究为主,缺少理论上的创新性,而应用的研究多集中于特定的领域:如福建农林大学的相关研究主要在于农业领域;华侨大学的方柏山教授所做的工作多集中于工业微生物的优化控制等方面。全方位,多角度的研究格局还没有形成。

从学科建设的硬件平台来看,虽然有了较大的发展,但是距离科研的要求还有较大的距离。因为“计算机在生物学研究中的应用”学科是一门交叉学科,需要用到许多方面的仪器设备,而目前福建省内的这方面的投入与科研所需要的设备还有一定的距离。

(三)计算机在生物科学研究中的学科现状

自20世纪80年代,IBM公司制造出第一台PC机以来,计算机迅速得到了普及。而且近二十年来,计算机与信息科学已经成为发展最为迅速的学科领域,也为生物学的研究提供了更多的技术支持。在这个时期,生物学与计算机科学相结合的学科――生物信息学产生了,是当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。从国外近几年的应用情况来看,生物信息学在理论上促进了生物学研究(特别是分子生物学)研究的发展,使人类对生命本质的认识更加深刻。生物信息学已经改变了传统生物学的研究方法,提高了生物学实验的科学性和研究的效率。

(1)数据库技术、数据挖掘技术与海量存储技术:生物信息数据库具有数据结构和组织方式复杂、数据量增长十分迅速等特点。《核酸研究》(Nucleic Acids Research)杂志连续七年在其每年的第一期中详细介绍最新版本的各种生物学数据库。在2000年1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其它生物大分子的结构方面有PDB等。在蛋白质结构分类方面有SCOP和CATH等。

很多数据库涉及非结构化的数据,例如:PDB中的蛋白质三级结构等。利用传统的关系数据库对这些非结构化的数据进行管理就显得有些力不从心了,所以,必须要采用面向对象等数据库新技术来处理复杂结构的生物数据。生物信息数据库具有种类繁多的特点,目前各种生物信息数据库大至有600种左右,分布在全球各个数据库服务器中。

随着数据库技术、计算机网络和人工智能等技术的发展,出现了一种新的信息管理技术,即:数据仓库技术(data warehouse)。随着当代生物学实验的手段不断的进步,所产生的实验数据的信息量是十分庞大的。如何在如此浩渺的信息海洋中发现潜在的规律呢?而数据仓库技术中提供了一个解决方案,就是数据挖掘技术。数据挖掘技术一般分成四个基本步骤:数据选择,数据转换,数据挖掘和结果分析。数据挖掘与聚类分析的方法在蛋白质的结构预测中也有广阔的应用空间:数据挖掘可用于分析基因表达数据相似性度量,从中发现基因表达数据相似性和波动相似性类似,从而提出以波动相似性为依据的相似性度量函数。

(2)机器学习与模式识别技术:机器学习算法(machine-learning methods),抽象的统称,实质是一种统计学的方法,它自动地从一个样本的训练(train- ing)过程中获得数据信息,这种方法适用于有大量数据但缺乏相应理论的情况。如BRNNs(Bidirectional Recurrent Neural Networks,双向重复神经网络)算法即属于机器学习算法,它的训练过程即通过对样本进行有效编码,输入网络,训练网络各权值参数和阈值参数,使网络达到基本稳定。目前机器学习方法包括:神经网络法、决策树法、基于事例学习法、符号性知识优化法及基于逻辑的归纳学习法。

数据是机器学习的基础,对于生物学实验数据也一样。在大多数情况下,生物学中的知识和数据可以用序列的模式或序列的特征来概括。

随着人工智能研究不断取得进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习。因此引进了一些模拟进化的方法来解决复杂优化问题。其中较有代表性的是:进化主义思想和联接主义思想。近年来,许多科学家致力于这两种方法的研究。

模式识别是机器学习的一个主要任务。所谓模式,指的是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中。模式识别的关键是通过数据分析,提取分类对象的本质特征,建立分类特征模型。在此基础上设计模式分类规则和分类器,判别待识别模式的分类情况。分类特征模型描述各种目标对象的特征,以便于工作于利用特征进行识别。模式识别主要有两种方法:一种是根据对象统计特征进行识别,另一种是根据对象的结构特征进行识别。利用机器学习的方法可以应用于蛋白质结构的预测,但现在的问题是从蛋白质一级结构序列预测蛋白质二级结构和三级结构的准确率低,还有许多现实的问题需要解决。

(3)人工心智和心脑科学在生物学中的应用:了解脑及其全部功能是2l世纪重大挑战之一,人类脑计划开始于1993年,这项行动的主要目标:创立以web为基础的神经科学所有数据的数据库,并提供数据分析、整合、合成、建模与模拟的先进工具,有助于实现了解健康与有病神经系统功能的最终目标。脑是生物体内结构和功能最复杂的组织,人脑内有上千亿个神经细胞,神经突触超过1014个,是生物体接受外界信号、产生感觉、形成意识、进行逻辑思维、发出指令产生行为的指挥部,但它的功能目前还不为人们所了解。

在人类脑科学计划提出后,产生了一门新的交叉学科――神经信息学。神经信息学产生的先进的信息学解决方案,将加速对脑的了解,并能将基础研究转化为诊断、监视、处理和预防脑疾病的更好手段。反过来,关于数据与信息的获得、存储、提取、分析、合成及可见的生物学机制的阐述,将更加清楚地解释信息学技术,以至随着时间的推移,计算机将能超过人脑的工作。

人脑的结构和功能极其复杂,需要从不同的层次对其进行研究,包括:从DNA、RNA、蛋白、神经元、神经网络到全脑。其中对神经网络和全脑功能的研究近年来发展很快,成为神经信息学研究的重点。神经信息学主要从信息和信息处理的观点来研究人脑,研究神经系统信息的载体形式,神经信息的产生、传输与加工,以及神经信息的编码、存储与提取机理等,并从系统和信息的观点建立以生物学实际为基础的神经网络模型。

(4)生物分子的计算机模拟技术:传统的生物分子研究主要是能过生物学实验来分析和表征生物分子,如利用测序技术确定DNA或RNA分子的序列;能过分子遗传学方法确定基因的多态性;能过X射线衍射技术来确定蛋白质等生物大分子的结构;通过生物化学实验来研究生物大分子之间的相互作用、药物分子和靶分子的结合等。

现代对生物分子的研究也可有采用计算机模拟生物分子的技术。所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能。可以模拟生物大分子与大分子之间的相互作用、模拟生物大分子与具有活性的小分子之间的相互作用、研究分子之间的识别与及分子间的特异性结合。

(5)网络技术:随着人类进入了信息社会,网络已成为社会的基础设施,对人们的生活起着重要的影响。电子邮件和新闻组已经成为生物学科研中的最要交流工具。而且网络提供的各种服务,如:FTP服务,WEB服务等也为科研人员提供了重要的服务。

目前,Internet上有着巨大的生物学资源和生物学的相关数据库与知识库。使用者可以通过网络查询或搜索所需要的生物学信息,使用各个网络站点提供的分析工具对生物实难进行分析。。

而Web Services技术由于使用标准的Web协议(http 、SMTP等)和一系列标准协议(XML、SOAP、WSDL等)为生物信息集成提供了一种崭新的方法。当把Web 。

(6)高速计算能力与网格计算技术:生物学研究需要对大量的样本进行分析计算或统计,这就为为高性能计算提供了一个大的应用领域。生物学研究中的计算面临巨大的计算量与海量的数据,如:利用分子动力学模拟一个蛋白质的折叠就需要一个巨型机几个星期的运算。这给高性能计算、并行计算和网格计算提出了挑战。

(7)专家系统:专家系统(exepert system)是一种基于知识的智能系统,它将领域专家的知识用知识表现的方法表示出来,并放入知识库中,供推理机使用。专家系统利用知识和推理机解决那些需要特殊的、重要的人类专家知识才能解决的复杂问题。一般的专家系统是由六大部份:知识库、数据库、知识获取部份、推理机、解释机构和使用界面组成的。知识库中的知识也可以分成事实性知识和启发性知识两大类。生物学研究中已经有了不少的专家系统。

(8)计算机图形学:众所周知,DNA序列是两条碱基互补的脱氧核糖核酸形成的双螺旋结构。一般认为,它们可以用一条序列来进行表示。根据文献按照某种规则,人们可以把DNA序列转换为一条z型曲线,该z曲线与所表示的DNA序列的关系是一一对应的,即:一个特定的DNA序列,有唯一的一条z型曲线与它对应;反之,对任意一条给定的z曲线,可找到唯一的一个DNA序列与之对应。也就是说,z曲线包含了DNA序列的全部信息。z曲线是与符号DNA等价的另一种表示形式。这样就可将复杂的DNA序列转换为一条空间中的曲线。对z曲线曲率和挠率的计算和分析,可用于识别DNA序列的不同的功能区等。DNA序列的几何学研究是建立在计算机图形学的基础上的,对DNA序列几何学的研究必将为计算机图形学的研究提出一些新的课题。

三 计算机在生物学中的应用研究展望

虽然计算机在生物学应用中取得了不小的成果,但还有许多的问题摆在人们面前。目前计算机在生物学研究中的应用面临着许多的挑战:

(1)需要建立交互性好的生物学应用软件,生物学数据库及相关的数据挖掘技术。现有的生物学软件种类繁多,功能也不尽相同,但是,大部份软件都要求用户有较强的计算机基础,甚至还有一些软件是基于linux或windws控制台的,起特殊的命令语法不是一般的科研人员所能掌握的。而且,有些软件的源代码不是公开的,特定用户就不能根据自己的需要对程序进行修改,进而适应自己研究的需求。寻求一种好的方法来开发出交互性好、操作方便而功能强大的生物学研究软件是今后一个重要的目标。

(2)需要能提示大规模数据集合中不同组分之间关系的统计分析方法及优化算法。在生物学研究中,获取所得的实验数据往往可以根据其数据特征的不同分成若干组分,这些组分之间的关系是怎样的?如何在实验数据中确定分组的标准?如何用更快的算法更有效率的确定数据的分组标准等等都让科研人员十分困惑。例如:不同物种间可能包含了同源或非同源的数据基因,而不同基因可能在DNA或蛋白质序列上具有较高的异质性。因而,在基因组水平上比较不同物种或不同基因之间的相似性,有助于揭示整个基因组进化与物种进化的规律。

(3)需要开发适合于微阵列和基因芯片等新技术的数据分析工具。微点阵杂交中涉及上万个寡核苷酸,并依杂交信号强弱、探针位置和序定靶DNA的表达及多态性等。目前,迫切需要提高检测的自动化程度和数据的并行处理能力。

四 小结

综上所述,尽管福建省的计算机在生物学研究的应用学科目前发展还比较滞后,但只要能够抓住计算机在生物学科发展的契机,整合各方面的优势,进行协作式的研究,就能够更好地促进该学科的发展。

参考文献

[1]宁正元编著,计算机在生物科学研究中的应用,厦门大学出版社,

2006.11.

[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,(28):235-242.

[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Kingdom:Bios Scientific Pub Ltd,2002.

[4]SCRATCH servers,hpdb.省略/thesis/2005/yht/principle/principle.asp[EB/OL].

[5]卢美律.蛋白质结构预测与机器学习[J],科学,1996,46(5):22-27.

[6]沈均贤人类脑计划与神经信息学[J],生物物理学报,2001.12(17):607-612.

[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912):25-2607.

[8]生物信息学对计算机科学发展的机遇与挑战[J],生物信息学,2001 (3):37-41.

[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL]. 省略/resource/, 2003.

[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,(15):339-340.

[11]Lichun wang.XEMBL:distributing EMBL,data in XML format[J].Bioinformatics,2002,(18):1147-1148.

[12]郝柏林,刘寄星,理论物理与生命科学[M],上海:上海科学技术出版社,1997.

[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.

[14]钟扬,张亮等,简明生物信息学[M],北京:高等教育出版社,2001.

[15]赵青,黄小兵,生物信息研究的加速剂[J],互联网天地,76-77.

[16]厦门大学生命科学院:life.xmu.省略[EB/OL].

[17]方柏山教授主页:clxy.hqu.省略/clxy/informations/layout.mht/

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务