“无所不能”的大数据也有应用挑战
大数据之风刮了许久,似乎该技术已经神乎其神。不过大数据技术在某些应用方面还存在着挑战。面对大数据,视频监控行业面临哪些难题?我们如何应用云计算、大数据相关技术来获取数据背后隐含的信息?未来的挑战和前景如何?我将从以上几方面发表个人观点,意在抛砖引玉、引发业界同仁在产业发展的进一步思考和讨论。北京监控安装。
一.视频监控存储及智能分析系统中的难题
根据IDC预测,全球在2010年已正式进入ZB时代,全球数据量大约每两年翻一番,意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。爆炸式增长的数据,正推动人类进入大数据的时代。
大数据包括社交媒体、移动设备、科学计算和城市中部署的各类传感器信息,其中视频是构成数据体量最大的组成部分。据IMSResearch统计,2011年全球摄像头的出货量达到2646万台,预计到2015年摄像头出货量达5454万台。一天产生的视频监控数据超过1500PB,而累计历史数据将更为庞大,在视频监控大联网、高清化推动下,视频监控业务将面临海量非结构化数据存储、数据共享、数据安全及数据利用四大难题。
(1)数据利用
摄像头7X24小时工作,如实记录镜头覆盖范围的发生的一切,仅仅记录信息是不够的,因为对于客户来讲可能大部分信息是无效。数据的有效性分为两个方面,一方面有效信息可能只分布在一个较短的时间段内,按照数学统计的说法,信息是呈现幂律分布的,也称为信息的密度,往往越高密度的信息对客户价值越大;另一方面是指深层次挖掘庞大的海量数据,关联得出有效信息。
视频监控业务网络化、大联网后,网络内的设备越来越多,利用闲置的计算资源,实现资源的最大化利用,关乎运算的效率。在视频监控领域,往往视频分析的效率决定价值,更低的延迟、更准确的分析往往是平安城市这类客户的普遍需求。随着数据量的增加,哪怕对TB级别的数据进行对视频内容的数据分析和检索,采用串行计算的模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。视频的分析和检索,不能依赖于传统的手段,巨量数据的效率优化,并行计算也许是解决问题的办法。
(2) 数据安全
平安城市、智慧城市的建设促使安防云存储技术的应用,智慧城市一大要求就是将视频存储数据相互之间进行联动、共享,例如在犯罪追踪时,公安、交通、民用行业等多范围的存储数据能够共享,而这种共享具备了云存储的特性;传统的存储技术无法满足社会发展需求,云存储的在安防领域的应用成为必然。
安防视频监控数据具有私密性高、保密性强的特点,不仅是事后追查的依据、而且更是后续数据分析挖掘的基础。因此我们说数据安全一方面是指不受到外界数据的入侵和非法获取、另一方面是指庞大系统的鲁棒性、体系容错机制,确保硬件软件发生故障时,数据仍然可以恢复、得以保存。面对海量数据的存储、共享,硬件和软件设备承载了极大的风险,因此我们如何构建大型、海量视频监控存储系统、数据分析系统以及容错冗余机制是第三大难题。
(3)海量非结构化数据存储
安防行业的大数据目前主要来源于智慧城市和智能交通等大型安防项目。例如,2011年全球两天的数据就高达1.8ZB,相当于文明起始到21世纪初全部的数据总和;2013年中国某一线城市一个季度产生的数据总量也在200PB。当前,智慧城市建设已成为地方政府推进城镇化发展的重要途径,而随着智慧城市的发展,对高清摄像机和智能化监控设备的需求会持续增长,智能交通行业将成为十二五政府投资的重点领域,这将使未来几年视频监控行业仍保持高景气度。此外随着智能家居、民用安防的普及,更多的用户会通过移动设备监看视频,于此同时会有更多的移动互联数据产生。2012年全国就拥有3.88亿移动互联网用户,预计2015年互联设备将达到150亿,2020年互联设备将达到2000亿。数据10倍速的增长,在带来巨大机遇的同时,也带来了很大的挑战。
按照IT产业的法则:在满足客户需求的前提之下,往往技术成本越低,其生命力往往越强。由于数据量的急速扩大,以及随之而来的大规模计算的需求越来越多,一味采用高配硬件,使得硬件投资成为客户不可承受之重。如何在满足需求的前提下,删除重复数据、降低硬件成本投资将成为海量非结构化数据存储的一个难题。
(4)数据共享
大数据需要通过快速的采集、发现和分析,从大量化、多类别的数据中提取价值。安防大数据时代最显著的特征就是海量和非结构化数据共享,用以提高数据处理能力。比如天网工程和智能交通就是最具代表性的案例,天网工程一般分为省市县乡镇等多级架构,智能交通图像也分布在前端卡口、区节点、市省国家级中心中,海量数据存储在不同节点、不同设备中,这给传统的数据管理和使用机制带来了极大的挑战。
与科学计算、互联网相比,视频监控的大数据处理难度尤大,首先,视频录像是更原始的非文本非结构化的数据,必须经过复杂繁重的分析处理才能提取出文本结构化的数据进行下一步处理;其次视频录像相对其它形式数据的容量要大几个数量级,对传输、存储和计算的带宽要求大。因此我们说数据高效共享是第二大难题。 |