数据库挖掘/数据仓库
-
数据仓库工程方法论于戈等著随着数字技术和计算机信息化的普及和发展,许多企业的各个部门都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。一个企业收集的数据实际上是有关企业或机构生产经营经验的真实记录,经过长期积累,必然能反映出企业生产经营过程中规律性的信息和知识。在信息化、Internet高速发展的网络时代,信息资源的经济价值和社会价值越来越明显。这些日积月累的数据形成了一个企业的巨大“宝藏”,如何对其进行有针对性的开发,挖掘出有价值的信息,形成企业知识,指导企业的技术决策和经营决策,对于企业的生存和发展将发挥率足轻重的作用。因此,如何有效地管理这些数据,从中挖掘规律性知识,指导制定生产和营销策略,就显得越业越重要。
-
数据仓库原理与实践林宇等编著本书比较全面系统地介绍了数据仓库(DataWarehouse)、联机分析处理(OLAP)、数据挖掘(DataMining)等3个层次的基本概念、原理和应用技术。全书分成4篇,基本原理篇和设计建模篇的内容主要包括:数据仓库的基本概念、体系结构、创建过程、建模设计、项目规划,OLAP的基本概念、ROLAP和MOLAP的实现原理、OLAP模型设计,数据挖掘的基本概念、基本过程、常见模型和算法。产品介绍篇介绍了现有数据仓库厂商产品工具的基本情况,并对产品选择进行了一些分析。应用实践篇结合电信领域的实例,介绍了数据仓库项目在设计和实施中的关键问题。本书的编写以理论联系实际为原则,内容系统全面,对于从事数据仓库研究、设计、开发等工作的人员具有宝贵的参考价值,对于需要了解数据仓库技术的系统集成人员、系统分析师、系统设计师也具有一定的参考价值。目录:第一篇基本原理篇第1章数据仓库概述21.1数据库到数据仓库的演变21.1.1蜘蛛网问题21.1.2操作型系统和分析型系统的分离51.2商业智能系统的功能和构成71.2.1商业智能系统的数据处理循环71.2.2决策支持系统的总体功能71.3仓库的应用前景9第2章数据仓库的基本原理122.1数据仓库的体系结构122.1.1数据仓库的体系结构122.1.2数据仓库中的关键名词132.2数据仓库的特点162.2.1数据库的功能和特征162.2.2数据仓库的功能和特征172.2.3面向主题172.2.4数据的集成性192.2.5数据的稳定性212.2.6数据随时间变化的特点222.3数据仓库的数据组织232.3.1数据仓库的数据组织结构232.3.2数据颗粒度252.3.3数据的分割292.3.4数据仓库的数据组织形式302.3.5数据仓库的数据追加技术322.3.6清理数据仓库的数据362.4数据仓库建设的两条技术路线362.5操作数据存储ODS382.5.1ODS的概念382.5.2ODS的应用392.5.3DB-ODS-DW的3层体系结构412.5.4ODS/DW、ODS/DB间的比较432.6外部数据和非结构数据442.6.1外部数据的特征442.6.2为什么将外部数据放在数据仓库452.6.3对外部数据进行管理的元数据462.6.4外部数据/非结构化数据的存储472.6.5外部数据的使用49第3章OLAP的基本原理503.1OLAP的基本概念503.1.1OLAP的基本概念503.1.2OLAP的基本分析动作533.1.3OLAP的展现方式573.1.4OLAP和OLTP593.1.5OLAP的体系结构和分类603.2以多维数据库为基础的OLAP服务器613.2.1多维数据库(Multi-DimensionalDatabase)613.2.2MDDB产品实例643.2.3MOLAP产品的结构663.3基于关系型数据库的OLAP(ROLAP)663.3.1维表673.3.2事实表673.3.3星型结构693.3.4ROLAP和MOLAP的比较733.3.5HOLAP(HybridOLAP)763.4OLAP的特征和衡量763.4.1OLAP的12准则763.4.2OLAP的简洁准则793.5OLAP的前端展现方式803.5.1OLAP的C/S方式803.5.2OLAP的Web803.5.3瘦客户机方式813.5.4OLAP的局限性82第4章数据挖掘基础83第二篇设计建模篇第5章企业模型设计126第6章数据仓库的模型设计152第7章OLAP建模方法183第8章数据仓库规划和开发方法210第9章数据挖掘的实施过程231第10章数据仓库的建立和维护252第三篇产品介绍篇第11章数据仓库产品的介绍266第12章数据仓库产品的选择283第四篇应用实践篇第13章项目的需求和目标分析292第14章系统结构和模型设计307第15章系统装载、数据挖掘和界面设计324第16章界面设计和项目总结348附录常用名词表356
-
数据结构习题与解答彭波编著本书是《21世纪计算机专业大专系列教材》中《数据结构》一书的配套用书。书中除了给出主教材中所有的习题提示、解析和答案之外,对有些题目给出了多种算法解答,还针对各章的内容适当地补充了一定数量的习题(带*号的习题),并给出答案及解析。全书共分9章,包括数据结构基础知识、线性表、栈和队列、串、数组和广义表、树与二又树、图、查找和排序。本书使用类C语言作为算法描述语言,且所有算法都可以在任何一种C语言的开发环境中实现。在随书的配套光盘中可以看到这些算法的C语言程序。本书内容丰富、题型多样、涉及面广、实用性强,对开拓思路具有很好的启发作用。本书可供计算机专业的学生学习使用,也可供教师或其他专业技术人员参考。
-
数据仓库(美)W.H.Inmon著;王志海,林友芳等译;王志海译本书是数据仓库方面公认的“圣经”级权威著作的最新版本,集理论性和实践性于一身,英文原版全球销售已超过50万册。这一版本针对最新的技术和应用进行了全面修订,并更新了原有内容,探讨了数据集市、操作型数据存储和企业信息源(CorporateInformationFactory)等全新主题。在本书中,Inmon解释了数据仓库是什么而不是什么,为什么是必需的,它是如何工作的以及如何将新技术集成到传统的数据仓库中。同时,书中还对标准数据仓库与多维数据集市进行了比较。此外,本书还包含以下新内容:如何将数据仓库技术应用于客户销售与支持如何将数据仓库技术应用于决策支持,包括数据挖掘与数据勘察如何采用最新存储技术大幅提升数据仓库的存取速度ERP系统与数据仓库的集成如何用数据仓库支持电子商务,包括获取和分析网站点击流量数据
-
Microsoft Visual FoxPro 7.0标准教程曾刚等编写微软视窗应用学习中心辅导教材。本套丛书以办公案例为主体,通过案例的讲解来介绍办公软件的各项功能,逐步引导学生完成办公任务。本书以一个公司的管理工作为蓝本,详细讲解了使用VisualFoxPro7.0开发应用程序的操作步骤,读者不仅可以学会使用这个软件来开发应用程序,而且也可以将书中的实例用于自己的部门,或者稍加修改用于其他的管理内容。本书不仅是微软授权培训中心(MLC)辅导教材,也是各行办公人员的重要指导书。本版CD内容包含本书部分程序代码和相关材料。
-
数据结构试题全方位解析陈泽雄本书针对数据结构作了广泛的介绍,一系列深入浅出的课程设计,拾配各章节的光盘教学动画,相信能让读者轻松地学习本书,并在程序设计的技巧上更上一层楼为了让读者更有效的学习数据结构,本书作者精心制作了光盘,把数据结构的操作过程全程记录般完整重现,辅以详细的图解说明和执行过程,并且不厌其烦的修订,仿真每个读者容易出错的地方,再加以详细的记述,每个教学章节都一一实际操作。本书除光盘外,在第章节中先介绍数据结构的有关概念然后再利用解题的步骤引申如何应用,供读者自我突破。
-
数据库系统及应用崔巍编著《数据库系统及应用》是“北京市高等教育精品教材”立项项目。《数据库系统及应用》是在第一版的基础上修订而成,与第一版比较,在整体结构上作了适当调整,根据数据库技术的发展增加了一些新的内容。《数据库系统及应用》在科学性、完备性、实用性和教材的可用性方面与第一版相比均有一定的提高。全书包括数据库基础、数据库系统、数据库设计、数据库应用和数据库新技术等内容,共分16章,具体内容主要包括:数据库的基本概念、数据模型、关系数据库、关系数据库系统、关系数据库标准语言SQL、数据完整性、数据库安全、事务管理、并发控制、数据库恢复、关系数据理论、数据库设计、面向对象数据库、数据库应用的体系结构与开发、分布式数据库、数据仓库以及数据库技术新的研究领域和应用领域等。《数据库系统及应用》既可以作为高等院校计算机、信息管理与信息系统等相关专业数据库课程的教材,也可供从事计算机软件以及数据库应用、管理和开发的科技人员、工程技术人员及其他有关人员阅读参考。
-
数据挖掘(美)Mehmed Kantardzic著;闪四清[等]译作为一本教科书,本书全面讲述了数据挖掘的概念、模型、方法和算法。本书共包括13章和2个附录,全面、详细地讲述了从数据挖掘的基本概念到数据挖掘的整个过程,以及数据挖掘工具及其典型应用领域。本收编写严谨、内容权威、结构合理、科学规范、语言流畅,特别适合作为高等院校数据挖掘课程的教科书,还适合作为数据挖掘研究人员必备的参考书。我们被数据所包围着,这些数据是数值型或其他类型,它们都必须经过分析和处理,转换成通知、指导、回答或辅助决策和理解的信息。由于当今数据集的大小和复杂性的增加,就产生了数据挖掘这个新术语,它描述了间接的、自动化的数据分析技术,这些技术所利用的工具比分析人员过去做基本的数据分析所使用的工具更加复杂和尖端。本书讨论了数据挖掘的原理,接着描述了一些具有代表性的艺术级的方法和算法。这些方法和算法起源于不同的学科,如统计学、机器学习、计算机图形学、数据库、信息检索、神经网络、模糊逻辑和进化计算。本书还提供了详细的算法,而且这些算法都带有必要的解释和图形示例。本书提供了一个指南:在面对一个待挖掘的数据集(以及它们的伴随数据集)时,怎样和何时从成百上千种软件工具中选择特定的一种。本书允许分析人员用书中提供的方法和技术来创建和执行他们自己的数据挖掘实验。本书强调选择合适的方法和数据分析软件,并根据实际情况选择相应的参数。只有在深入理解了参数的意义及其在所提供技术中的作用的情况下,才能作出这些非常重要的、定性的决策。数据挖掘是一个正在蓬勃发展的领域,本书提供了从大量可用的分析程序中进行选择所急需的指南。
-
数据挖掘原理与算法邵峰晶,于忠清编著数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、统计学、人工智能与机器学习等多个领域。本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性教材。第1章从不同的角度对数据挖掘进行了介绍,第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据挖掘的数据预处理所涉及到的概念及算法。第4章-第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。
-
数据挖掘实践(美)Olivia Parr Rud著;朱扬勇等译;朱扬勇译OliviaParrRud是DataSquare,LLC的执行副总裁。Olivia在金融服务行业已经工作了二十多年,其中10年专门从事信用卡、保险、电信、零售、度假业、名录服务行业的数据挖掘、建模和划分工作。利用自己分析能力与创造才华,她提供客户获取、模型维护、风险、总盈利等方面的分析和解决方案。本书详细介绍了一种新的数据挖掘技术—数据建模,并着重阐述整个模型开发过程的细节。本书包括三个部分。第一部分讲述了基础知识,内容涉及确定目标和从商业预测中定义目标的重要性,并给出了收集数据和创建数据集的例子。第二部分通过一实例详甸阐述了模型开发的整个过程。第三部分通过应用于保险业、银行、电信行业的实例详细说明了不同目标的数据建模过程中的几个关键步骤。本书将数据挖掘的技艺用饮食烹调的思?爰右在故停子诶斫猓阌诮邮堋J橹懈龅闹诙嗍道浞痔逑至俗髡叨嗄甑男幸稻椋缘鼻暗氖谐∮涂突Ч叵倒芾斫>哂屑训慕杓饔谩1臼槭屎暇哂幸欢ǖ耐臣坪头治鼋;〉亩琳咴亩粒勺魑治鍪Α⑹萃诰蛉嗽薄⒂淼墓ぷ魇植幔部勺魑扑慊喙刈ㄒ档谋究粕芯可滩幕虿钩涠廖铩?"什么是数据挖掘数据挖掘(datamining)这个术语涵盖了应用于各个行业的多种技术。由于市场份额和利润竞争的日趋激烈,数据挖掘成为公司在客户生命周期的各个阶段维持竞争力的必要工具。过去,数据挖掘的形式之一也称为数据捕捞(datadredging)。这种方法曾被认为没有达到合格的研究标准。也就是说,研究人员实际上可能没有作任何预定义的假设就开始研究所有的数据。然而,由于这种形式的数据挖掘确实可以发现有价值的信息,所以它开始被广为接受。在美国的公司里,如果有一种方法可以发现如何提高利润,那么人们会迅速地接受、信赖它。20世纪80年代末至90年代初,另一种形式的数据挖掘开始在营销领域流行起来。几个技术领先的信用卡银行发现,有一种新的称为数据建模(datamodeling)的数据挖掘技术可以提高获得客户的能力,改进风险管理。大量的活动和空前的增长为数据建模的繁荣发展提供了肥沃的土壤。数据建模的成功和它所带来的利润为它在其他行业的应用铺平了道路。目前,使用数据建模技术进行营销的行业包括保险业、零售业、投资银行、公共事业部门、电信业、能源业、度假业、游戏业和药品行业等等。本书的重点许多统计理论的书都谈到了数据建模技术。但本书并不是那样的一本书!本书讨论的重点是在营销、风险和客户关系管理(CRM)中使用这些技术所需的实践知识。大部分公司都被数据挖掘软件工具?闹掷嗪凸δ芘醚刍ㄧ月摇H砑潭忌扑堑娜砑恰耙子谑褂谩焙汀拔扌枞魏畏治黾寄堋钡摹5牵颐且言诒玖煊蚬ぷ鞫嗄辏勒庑┕愀媸遣蛔阄诺摹H魏谓O钅康某晒Σ唤鼋鋈【鲇诙杂诜椒ㄑУ牧己美斫猓谷【鲇诙允荨⑹谐「驼迳桃的勘甑睦斫狻J率瞪希杂谡龉潭裕P痛砉讨皇瞧渲械囊恍〔糠帧?本书将着重阐述整个模型开发的过程。讨论的内容包括对商业或市场的预测,以及处理过程中所需的复杂的SAS代码。这是为了强调实际模型处理过程之前与之后的步骤的重要性。本书的读者随着数据挖掘应用的飞速发展,对资深分析师和数据挖掘师的需求也增加了。但是,由于此类人才短缺,公司便雇用有才华的统计学家或初级分析师,他们懂技术,但是缺乏必要的商业敏感性。公司也可能会购买复杂的数据挖掘软件工具,这些工具所提供的解决方案对分析技术知识,或者与目标相关的业务知识都知之甚少。不管是哪种情况,都有可能缺乏某些领域的知识,如定义目标的结构,获取和准备数据,确认和应用模型以及测量结果等。任何一个领域的错误都可能是灾难性的,会造成巨大的浪费。本书可作为不同级别的分析师、数据挖掘人员和营销经理的工作手册。本书提供了数据建模的逐步指导,尤其强调了必要的商业知识,以得到有益的结果。对于那些数据挖掘的初学者,本书可作为整个过程的综合指导。对于经验丰富的分析师而言,本书可以作为参考手册。最后,对于管理人员而言,阅读本书可以对成功运用数据模型所需的技术与过程有基本的了解。本书的结构本书分为三个部分。第一部分讲述基础知识。第1章讨论了确定目标和从商业角度定义目标的重要性。第2章讨论并提供了大量的例子,其中包括收集数据和创建建模数据集。第二部分通过一个案例研究,详细阐述了模型开发过程的每个步骤。第3章-第7章讨论了数据清洗、变量归约和转换、模型处理、验证、实施的步骤。第三部分提供一系列的案例研究,这些案例分别应用于保险业、银行、电信等行业,详细说明了不同目标的数据建模过程的几个关键步骤,包括特征、响应、风险和生命周期值。随着本书对模型开发步骤的深入探讨,作者加进了几位业内专家的合理建议,他们都是数据挖掘领域的先锋。这些建议对某个主题提出了不同看法,如多重共线性,建立生命周期值模型的其他方法等。所需工具要使用本书提供解决方案,读者要对统计学有基本的了解。如果你的目标是要得到管理层数据建模的使用建议,则需要进行准确的商业判断。本书所有的代码示例都是用SAS写的,为了在SAS上实现这些代码,用户需要BaseSAS和SAS/STAT。电子数据表都是用微软的Excel做成的。但是,基本的逻辑和指令对所有的软件包和建模工具都是有效的。配套光盘本书从第3章—第13章都包含了开发、验证和实施数据模型的SAS代码。对这些代码稍做修改,再加上一些常识,就能够从数据准备阶段到模型的开发与验证阶段建立一个模型。但是,这样需要大量的时间,还有可能出现编码错误。为了简化这项工作并使代码更容易地用于不同的数据模型,原出版社出版了配套光盘,但需要读者另行购买。光盘里包括了开发不同模型所需的全部代码,模型包括:响应、验证、流失、风险、生命周期值或净现值。开发目标函数的具体代码包括信用卡、保险、电信、名录服务的例子。代码中有清楚的注释,解释了每一个步骤的目的与方法,所需要的软件是BaseSAS和SAS/STAT。用于创建收益表和增幅图的电子数据表也包含在光盘中。通过SAS创建的初步分析结果可以得到这些表并加以使用。既然模型处理前后的步骤可以结合任何数据模型软件包来使用,代码自然也可以作为独立的建模模板。模型处理步骤重点在于逻辑递归上的数据准备。光盘上还包括用于变量验证和处理的SAS宏。本书没有涵盖的内容一本数据挖掘的书如果没有提到隐私权,那么就不能算是完整。我相信这是数据挖掘工作者的一项重要的工作。关于这个话题,可以再写一本书。所以,本书中没有谈到这一点。但是,我希望所有使用个人数据进行营销的公司都能制订一项隐私权的法规。要获得更进一步的信息和指导,请与DirectMarketingAssociation联系,电话(212)790-1500,或者访问他们的网站http://www.the-dma.org。小结有效的数据挖掘是科学与艺术的复杂混合体。数据挖掘工具的数量每年都在增长。研究人员不断开发新方法,软件厂商实现现有的方法,才华横溢的分析师则利用标准技术来推进过程。数据挖掘(说得具体一点,数据建模)已经成为公司维持利润的战略必备工具。希望本书可以成为你实现数据挖掘目标时方便的参考和恰当的向导。"