结构化数据是指在固定字段集合中存放的数据,如关系型数据和电子表格数据,属于传统的数据技术。非结构化数据是指难以用数据库二维逻辑表表现的数据,包括文本数据以及未标记的视频、音频和图像数据等。半结构化数据则介于两者之间,是用标签和其他标志划分数据元素的数据,可扩展标记语言和超文本标记语言都属于半结构化数据。广义的非结构化数据包括了半结构化和多结构化数据。
非结构化数据目前普遍被认为占数据总量的85%以上,而且增速比结构化数据快得多,有说法是快10~50倍。尽管上述数据的准确性有待研究确定,但无法否认的是,非结构化数据富含难以估量的价值,然而如何管理非结构化数据,把“数据坟墓”变成“数据金矿”却是一项新的挑战。
在医疗行业,既存在结构化的电子病历数据,也存在非结构化数据,包括病人描述病情的自然语言以及临床产生的X光片、CT(计算机X射线断层扫描)片、核磁共振片、病理切片等影像文件。这些数据在资料传递交换、临床全面展示和医学科研等方面有重要的价值,然而对于它们的整合利用还处于非常初级的阶段。再比如,到银行办理存贷款业务时,要复印很多证件,户口本、身份证、收入证明等,这些纸质原始资料都会以扫描或拍照的形式转化为电子文档,被永久保存起来。目前这些文档只起到了备查的作用,并没有被很好地开发利用。
非结构化数据管理能力是大数据的一项核心能力。在IBM发布的白皮书《分析:大数据在现实世界中的应用》中,报告了基于对全球95个国家、26个行业的1 144名业务人员和信息技术专业人士的调研结果。在超过一半的大数据项目中,受访者表示其所在组织采用了先进技术分析自然状态的文本,例如,呼叫中心对话内容的文字记录。这些分析技术包括解释和理解细微的语言特征,包括情绪、俚语和意图等,帮助企业了解客户当前的情绪状态,获得能够直接用于推动客户管理战略的宝贵信息。
对非结构化数据的开发和利用已经得到国家层面的重视。2012年7月6日,中国正式成立非结构化数据管理标准工作组,负责制定和完善中国非结构化数据管理领域的标准体系,制定相关国家标准,并参与非结构化数据管理的国际标准化工作,从而提升中国在非结构化数据管理领域的整体竞争力。
物联网
国际电信联盟发布的互联网报告如此定义物联网:通过二维码识读设备、射频识别装置、红外感应器、GPS和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。