摘要:大数据什么时候出来的? 1980年,美国著名未来学家阿尔文托夫勒(Alvin Toffler)最早在《第三次浪潮》一书中提出了大数据(BigData)的概念,并将其赞颂为第三次浪潮的华彩乐章。直到
大数据什么时候出来的?
1980年,***著名未来学家阿尔文托夫勒(Alvin Toffler)最早在《第三次浪潮》一书中提出了大数据(BigData)的概念,并将其赞颂为第三次浪潮的华彩乐章。直到现在,大数据在**决策部门、行业企业、研究机构等得到了广泛的应用,并实际创造了价值。
大数据的前世今生
报道、评价国内外创新性科学技术趋势、商业价值等核心内容,介绍上海在建设全球领先科创中心进程中的制度成果、技术成果、创业成果等。
在2011年麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》研究报告,高德纳咨询公司发布《2011年度新兴技术成熟度曲线》研究报告之后,经2012年***牛津大学教授维克托•迈尔-舍恩伯格(ViktorMayer-Schönberger)所著《大数据时代:生活、工作与思维的大变革》一书的宣传推广,大数据概念(Bigdata)迅速风靡全球,一夜之间“火”了起来,成为科研机构、高校、企业、**部门等各界的“新宠”,但也不乏质疑的声音。
近年来,随着大数据技术的成熟,大数据产业已经升级为***战略。当前,德国“工业4.0”、***“创新战略”、***“农业技术战略”、***“复兴战略”、韩国“智慧首尔2015”以及我国《“十三五”规划》都把开发运用大数据作为夺取新一轮竞争制高点的重要抓手,大数据时代已真正来临。回眸大数据的形成与发展,我们可以看到,大数据革命的历史同样是人类认知世界、改造世界的一个缩影。
大数据概念的前世今生
任何概念都是人类长期认识活动的结晶。“大数据”作为一个术语的历史虽然短暂,但是大数据概念的形成与发展却源远流长。顾名思义,大数据本质上还是数据。要理解大数据概念,就要知道什么是数据。所谓数据,简单地讲,就是用符号化的方式表达和记录信息,而语言、文字、数字和数学符号则是这种信息表达方式最早、最重要的形式,其中数与数据的关系最为密切。
信息从直觉表达开始到抽象表达体系的形成是一个漫长的过程。从语言的出现到文字的形成,历经3万多年,最早搭建起人类认识现实世界和自身存在的“信息”框架。随着人类语言系统的发展,特别是文字书写系统的诞生,大大提高了人类的认识能力,有效记录了不同的人类之间相互交流、交际的信息,形成了当今庞大的人类认知的知识集合——人类的文化世界。
同样,从人类的原始计数到数字符号的出现,再到现代数学符号体系的形成,也经历了一个漫长的过程。计数是人类关于数的认识的第一次抽象,在人类蒙昧时期,***古人有“结绳记事”“刻痕记数”。在公元前8000年至公元前3500年间,两河流域有苏美尔人的计数泥板。在人类漫长的生产劳动和生活实践中,由于“有无”“多少”“大小”“得失”等量的表达需要,出现了数和量的概念,这是人类关于数的认识的第二次抽象。公元前四五千年,尼罗河流域的古埃及人创造了十进制象形文数字,两河流域的苏美尔人和巴比伦人创造了六十进制的巴比伦数字。二进制的发现则较晚,是近代科学的产物。18世纪初,德国著名哲学家、数学家戈特弗里德·威廉·莱布尼茨(GottfriedWilhelmLeibniz)发现了用“0”和“1”两个数字表示的二进制数制运算规律。1854年,***数学家乔治·布尔(GeorgeBoole)借鉴了二进制的运算规则,把形式逻辑转化为一种代数运算,建立了布尔代数,为第三次科技革命的重要标志之一的计算机的发明与应用奠定了理论基础。
随着计算机应用的不断发展,各种各样的信息都可以用“0”和“1”表示,从而把信息变成了一种可以存储、复制、运算、判断的数字化信息,这就是现代意义上的数据概念。在计算机普遍使用的今天,数以及可以转换成数字的图形、表格、文字都是数据的组成部分。数据概念不再仅仅用于表征事物的特定属性,更为重要的是它已成为推演事物运动、变化规律的重要依据和基础。
大数据概念是人们在对数据的规模、结构、速度不断变化的认识过程中形成的。随着人类行为的日趋复杂而规模不断扩张,人们一直坐拥不断增长的海量信息,同时带来了信息保存处理的社会难题。1944年,***卫斯理大学藏书楼管理员弗莱蒙特·雷德(FremontRider)认为,***高校藏书楼的范围每16年就会翻一番,图书的数量将超出人们的管理能力。1961年,科学计量学奠基人普赖斯(DerekJohndeSollaPrice)通过研究科技期刊和论文得出,新期刊的数量将以指数方法增长而不是以线性方法增长,每15年翻一番,每50年以10为指数倍进行增长。1964年,哈里•格雷(HarryGray)和亨利•拉斯顿((HenryRuston)在***电气与电子工程师协会(IEEE)杂志《电子计算机学报》上发表文章表达了对知识快速增长的担心,并建议:“不发表或发表不超过2500字的文章以应对信息***时代的到来。”
1975年,***邮电部实施“信息流普查”计划,其后的调查报告指出,社会正在进入一个新阶段,在这一阶段中,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。报告预言了“碎片化信息时代”的到来。1980年,***社会思想家阿尔文·托夫勒(AlvinToffler)在《第三次浪潮》中前瞻性地指出,20世纪80年代计算机数据处理能力的大幅度提升将给人类社会带来革命性的影响,并预言说:“如果说IBM公司的主机拉开了信息化革命的大幕,那么‘大数据’才是第三次浪潮的华彩乐章。”1997年,******航空航天*的研究人员迈克尔·科克斯(MichaelCox)和戴维·埃尔斯沃思(DavidEllsworth)首次在论文中正式提出大数据概念及其存储所带来的被称之为“大数据问题”的问题,标志着大数据概念初步形成。
2001年,高德纳公司分析师道格拉斯·兰尼((DouglasLaney))把大数据的特征概括为3个“V”:Volume(数据体量大)、Velocity(高速处理速度快)、Variety(数据类型繁多),进一步揭示了大数据多样性多变性的数据特征。2008年,《自然》杂志推出了名为“大数据”的专栏,“大数据”开始成为互联网技术行业中的热门词汇。2011年,麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》,首次谈到大数据的采集与应用,大数据开始走出技术圈进入商业圈。2012年,舍恩伯格出版《大数据时代》一书,开大数据系统研究之先河,大数据概念开始在社会上广泛流行。
大数据技术的发展历程
社会的需求永远是技术发展的动力,大数据技术也是如此。所谓大数据技术,就是处理“海量数据”的技术。它是在人们不断解决“数字化信息问题”“海量信息问题”“非结构海量信息问题”等社会需求中逐渐产生发展起来的,大体上可分为3个阶段:大数据技术前期、大数据技术形成期和大数据技术突破期。
计算机的发明与应用要求人们把事物信息转化为可计算、可度量、数字化的数据。从20个世纪50年代到90年代初,随着1946年第一台数字电子计算机ENIAC的诞生和发展,人们开始普遍使用二进制中“0”和“1”两个数字来表达信息,采用电子线路来执行算数运算、逻辑运算和储存信息。大量用“0”或“1”代表的信号反过来又产生庞大快速的数据流,由此导致了涉及数字的转换、存取、处理、控制等一系列高技术的发展,如微电子技术、光电传输技术、数字压缩和编码技术、多媒体数据库技术等。1971年,英特尔公司生产出了世界上第一个微处理器芯片4004,它是人类第一次将高智能赋于无生命的设备,是人工智能和计算处理历史上的重要转折点。它的诞生使微处理器打破了由大型中央处理器一统天下的*面,从而将计算机带到办公室的桌子上。微处理器的发明发展,使得数字转化的速度、效率和范围大大提高,让计算机技术应用无孔不入。70年代中期,曾有人对计算机的各种应用做过统计,列出了6000多种应用,在这些应用中,直接对人类产生最大影响的就是数据库技术的应用。数据库技术是数据处理和信息管理系统的核心技术,主要通过研究数据库的结构、存储、设计、管理以及应用的基本理论方法,来实现对数据库数据进行处理、分析和理解的技术。其中,数据模型是数据库系统的核心和基础。计算机技术、数字化技术、数据库技术等共同构建了大数据的技术基础。
海量信息的处理使数据挖掘理论与技术不断发展。从20世纪90年代至21世纪初,随着信息数字化能力和数据库技术的不断发展,人们开始思考如何解决大数据的“数据丰富而信息贫乏”的问题,于是数据挖掘技术应运而生。1989年8月,在***底特律召开的第十一界国际联合人工智能学术会议上,数据挖掘(DataMining,也称KnowledgeDiscoveryinDatabase,简称KDD)概念被正式提出。从1995年开始,一年一度的KDD国际学术会议让“数据挖掘”一词逐渐在学术圈流行。数据挖掘指的是从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用信息的过程。主要的技术方法有面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊集、粗糙集、遗传算法、决策树、最近邻技术等。复杂的数据挖掘系统通常采用多种数据挖掘技术。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,人们对大数据技术研究主要集中在“算法”(Algorithms)、“模型”(Model)、“模式”(Patterns)、“识别”(Identification)等问题上,大数据技术开始形成并获得不断发展,人类处理海量信息的能力得到大幅度提升。
非结构海量数据的迫切需求让大数据技术取得突破。随着计算机、互联网和数字媒体进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,特别是以2004年Facebook创立为标志的社交网络的流行,直接导致了大量非结构化数据的涌现,使得传统的处理数据和海量数据的数据库技术难以应对。如何存储、查询、分析、挖掘和利用这些非结构化数据信息成为社会的又一个重大难题。为应对这一挑战,人们开始对数据处理系统和数据库架构进行重新审视,出现了各种非结构化数据处理技术,如基于NOSQL的非结构化数据管理系统、网络代价估算、多种支持模式演化等。2009年,谷歌公司软件工程师杰夫·迪恩(JeffDean)在BigTable基础上开发了全球级首个分布式数据库Spanner,标志着“云计算”(CloudComputing)、“大规模数据集并行运算算法”(MapReduce)、“开源分布式系统基础架构”(Hadoop)等大数据前沿技术理论开始走向成熟,并行运算与分布式系统成为当前大数据处理的主要技术方法并得到广泛应用。
大数据产业发展现状
2011年,麦肯锡公司发布的《大数据:创新、竞争和生产力的下一个前沿领域》研究报告,让“大数据”走进商业应用领域。2012年1月,瑞士达沃斯世界经济论坛发布《大数据,大影响》大会报告,让“数据就像货币或黄金一样是新的经济资产类别”成为产业界的共识。2015年,全球大数据产业市场规模为1403亿美元,我国大数据产业市场规模为1692亿元人民币,预计到2020年全球大数据市场规模将超过10270亿美元,我国大数据市场规模将接近13626亿元人民币。
***是世界上第一个发展大数据产业的***,也是世界各国大数据产业的领头羊。2012年3月,***奥巴马**发布“大数据研究和发展倡议”,宣布将投资2亿多美元以拉动大数据产业的发展,正式将大数据发展战略从商业行为上升到***战略,标志着大数据已成为当今时代的重要特征。2012年4月19日,***软件公司Splunk成功上市,成为第一家上市的大数据处理公司,这一年被***IT行业称之为大数据元年。在*****的推动下,EMC、IBM、惠普、微软、甲骨文等IT老牌巨头积极通过并购实现技术整合,推出大数据相关产品和服务,Splunk、Clustrix、Junar、DataSift等一大批大数据新兴企业也开始出现,形成了*****、企业、科研院校和非营利机构等利益相关、系统共进的产业发展*面。
受***影响,世界发达***纷纷制定大数据发展战略,***有《数据能力发展战略规划》、***有《创建最尖端IT***宣言》、韩国有《大数据中心战略》,欧盟有《数据价值链战略计划》。2012年7月,联合国发布《大数据促发展:挑战与机遇》政务白皮书指出,大数据对联合国和各国**来说是一个历史性的机遇,世界各国对大数据产业的关注达到了前所未有的程度。高德纳公司数据显示,2014年全球数据中心系统支出达1430亿美元,比2013年增长2.3%。大数据对全球IT开支的直接或间接推动达2320亿美元,预计到2018年这一数据将增长3倍。***国际数据集团(IDG)调查显示,世界各国70%的大企业和56%的中小企业已经部署或者正在计划部署与大数据有关的项目和计划。
***和***几乎在同一时期关注大数据产业。2008年,秦皇岛开发区确定把大数据产业作为龙头产业,提出建设“***数谷”的目标,在国内率先提出大数据产业概念。从2011年底到2012年上半年,国金证券计算机研究团队陆续推出3篇关于大数据的系列分析报告,首次在***资本市场系统、全面地阐述了大数据潜在的巨大社会意义和经济意义,开资本市场大数据之先河。2012年,首届数据科学与信息产业大会召开,标志着我国学术界、产业界和资产市场形成了共识,共同推进大数据的发展和落地。2013年,由宽带资本、用友软件、云基地、百度在线、阿里巴巴等与大数据密切相关的企业共同发起成立“中关村大数据产业联盟”,标志着大数据行业系统推进*面初步形成。
从2014年开始,我国大数据产业发展进入了快速推进期,呈现出3个特点。一是市场规模增速不断加快。易观国际数据显示,我国大数据市场规模达到75.7亿元,同比增长28.4%,但与全球53.2%的增速仍有不小的差距。二是国外大数据企业进入国内市场数量增多,除IBM、微软、谷歌、甲骨文、亚马逊等已经在***市场站稳脚跟的传统企业外,Teradata、Splunk、Cloudera、Tableau、Hortonworks、10Gen等大数据企业也纷纷入驻。三是大数据产业政策逐渐推升为***战略。2015年,我国将软件及大数据产业写入“十三五”规划,并印发《促进大数据发展行动纲要》。2016年,我国颁布了《大数据产业发展规划(2016—2020年)》。2015年,国内大数据产业高速发展,市场规模已达1105.6亿元,较2014年增长44.15%。其中,大数据基础设施建设、大数据软件和大数据应用分别占比64.53%、25.47%和10%。2016年,环保部、***办公厅、国土资源部、***林业*、煤工委、交通运输部、农业部均推出大数据发展意见和方案,地方**也纷纷出台有关大数据产业发展战略,国内大数据产业政策从全面、总体规划逐渐朝各大产业、各细分领域不断延伸,标志着***大数据产业政策已开始逐步落地。
当前,随着大数据技术被广泛应用到医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务等各个领域,大数据产业进入到蓬勃发展的全新时期。但是,大数据产业发展仍然面临着技术上的系统性和政策上的协同性等问题。
大数据火热背后的不同声音
“大数据”无疑是最受当今社会各界关注的时髦词汇之一,但人们对大数据的关注点并不相同。根据高德纳公司的新兴技术成熟度曲线研究报告,2015年和2016年大数据已连续两年没有出现在该曲线上,这说明大数据技术已脱离概念炒作进入应用阶段。根据媒体对大数据报道的内容,从技术社会学的视角看,人们对大数据的反思也从对技术不确定性的担心上升到技术的伦理价值判断。
大数据有误导结果的可能。大数据时代,“让数据说话”的盛行使更多的社会空间被量化,定量科学和客观方法的地位在一定程度上模糊了主观与客观之间的界限。***微软研究院首席研究员克凯特·克劳福德(KateCrawford)在其《对大数据的再思考》文章就认为:“数字无法自己说话。不论其规模有多大,数据集归根到底是人类设计的产物,而大数据的工具并不能使人们摆脱曲解、隔阂和错误的成见。”也就是说,大数据存在着偏见与盲区,有着“先天不足”。因此,一部分人认为,不仅某些数据并非中性,而且大数据测量对象的测量设计决策也源于设计者的主观诠释,大数据并不能完全准确地推出客观规律,被神化的大数据极有可能误导结果。
大数据不一定是好数据。互联网和各种社交媒体每时每刻都提供巨量的数据,这些数据掺杂着大量冗余的、混乱的、虚假的甚至是有害的内容,数据对象的价值密度被不断降低。但是,大数据倡导者仍努力从不确定中寻找确定性的结论,热情地拥抱着这种“混乱”。百度公司董事长兼首席执行官李彦宏在百度联盟大会上就曾表示:“现在每天产生大量数据,但很多是没有价值的数据,这些数据仍没有显示出足够的威力。”数据分析不可能不经过筛选而维持其完全原始的状态,这些数据尽管已经覆盖了数以百万计的用户群体,但依然有其*限性,真正需要的数据可能被更多混乱的海量“大”数据所掩盖和淹没。诸如此类的“魏则西事件”加剧了人们对数据“真伪”的担心,著名导演尤小刚在谈到利用大数据进行创作时就提醒说:“如果仅仅把浮于表面上炒作的结果放进去,很可能对文化建设造成某些破坏和误导。”
被剥离语境的大数据将毫无意义。数据在经过筛选简化套入模型时,其语境常常难以评估和保留。过去的社会学家和人类学家是通过问卷调查、访谈、观察以及对照实验来搜集关于人类关系的数据,并用这些数据来描述人类的“个人关系网络”。社交网站兴起后,大量研究者则常常是通过社交媒体去收集分析用户信息,借此描述人们的社交关系。尽管社交网络大数据是建立在联系的紧密度上,但联系的紧密度不等同于关系的紧密度,两个没联系的人也不一定没关系,两个有关系的人也不一定有联系。舍恩伯格在《大数据时代》一书中就讲到,只有能够想象并重建人们行为的发生语境,你所观察到的行为才有意义,缺乏对行为语境的了解,就不可能推出任何因果关系,也无法理解人们的行为原因。大数据面临处理语境问题的挑战。
大数据造成新的“数字鸿沟”。大数据时代,来自硬件的数字鸿沟在缩小,而来自软件的数字鸿沟在扩大。一是拥有数据的差别。例如,一些数据免费使用,一些数据有偿使用,还有一些数据严禁流出,这就导致了数据获取的差别;一些数据资源丰富且使用权限较大,而另一些却很少有机会拿到“数据通行证”,这就造成了数据储备使用的差别。二是公众利用数据的能力不同。在大数据时代,非结构化数据往往占有很大的比例,同样拥有数据并不代表着同样能够利用数据。世界经济论坛发布的《2015年全球信息技术报告》指出,各国之间的数字鸿沟正在扩大。在技术大步前进时,这个问题更加令人担忧。欠发达***有可能会更加落后,必须尽快采取具体行动,应对这样的*面。
文|王国强,***科协创新战略研究院研究员;杜影,***科协创新战略研究院研究助理;吴秋月,***科协创新战略研究院研究助理。
——文章选自《张江科技评论》
第一个提出大数据概念的公司是
第一个提出大数据概念的公司是麦肯锡公司。麦肯锡公司是世界级领先的全球管理咨询公司,由***芝加哥大学商学院教授詹姆斯·麦肯锡于1926年在***创建。自1926年成立以来,公司的使命就是帮助领先的企业机构实现显著、持久的经营业绩改善,打造能够吸引、培育和激励杰出人才的优秀组织机构。麦肯锡采取“公司一体”的合作伙伴关系制度,在全球44个***有80多个分公司,共拥有7000多名咨询顾问。麦肯锡大中华分公司包括北京、***、上海与***四家分公司,共有40多位董事和250多位咨询顾问。麦肯锡公司的经营范围1、公司的客户对象:面向总裁、高级主管、部长、大公司的管理***会,非盈利性机构及**高层领导就他们所关注的管理问题提供咨询。2、主要业务范围:为客户特别是为企业设计、制定相配套的一体化解决方案,战略开发,经营运作,组织结构。3、集中于客户可以量化的业绩改进,比如说改进销售收入、利润成本、供货时间、质量等。麦肯锡的咨询重点放在高级管理层所关心的议题上。工作内容属于战略、总体组织和相关政策领域各占1/3。但在***,战略和组织机构设计偏重大些。以上内容参考百度百科-麦肯锡公司
第一个提出大数据概念的公司是
第一个提出大数据概念的公司是麦肯锡公司。麦肯锡公司是一家全球知名的管理咨询公司,成立于1926,总部位于***纽约。作为一家领先的管理咨询公司,麦肯锡公司经常会对新兴趋势和技术进行研究和预测,而大数据的概念就是麦肯锡公司在2006年提出的。随着互联网技术的不断发展,以及各种终端设备的普及,数据的产生和收集已经成为了可能。麦肯锡公司认为,这些数据对于企业和**机构来说具有重要的价值,因为通过对这些数据的分析,可以挖掘出许多有用的信息和规律,从而帮助企业和**机构做出更加明智的决策。麦肯锡公司提出大数据的概念后,迅速引起了全球范围内的关注和热议。大数据的概念也迅速成为了各行各业关注的焦点,很多人开始意识到数据的价值,并开始探索如何利用大数据技术来提高自己的竞争力。大数据的概念的影响1、推动数字化转型大数据的概念促进了企业和机构的数字化转型。在大数据技术的支持下,企业和机构可以更加轻松地处理海量数据,并对数据进行分析和挖掘,从而更好地了解市场情况、客户需求等信息,实现数字化转型。2、引领创新和发展大数据技术为各行各业带来了新的创新和发展机会。通过对大滚拆数据进行分析和挖掘,可以发现许多新的规律和机会,进而推动行业的发展和创新。例如,在金融行业,大数据技术可以帮助银行等机构分析客户的行为和需求,推出更加符合客户需求的金融产品和服务。3、提升治理水平大数据技术可以帮大尘枣助**机构提升治理水平。通过分析大数据,**机构可以兄李更好地了解城市管理、社会舆情、民生服务等方面的情况,从而更好地制定政策和措施,提高治理水平。4、改变人们的生活方式大数据技术也正在改变人们的生活方式。例如,在疫情防控方面,大数据可以帮助相关部门追踪疫情发展情况,制定更加科学的防控措施;在交通出行方面,大数据可以帮助导航软件等工具预测路况和拥堵情况,帮助用户更好地规划出行路线和时间。5、挑战和安全问题大数据技术的广泛应用也带来了一些挑战和安全问题。例如,数据隐私保护、数据安全等问题需要引起更多的关注和重视。同时,大数据技术的使用也需要考虑到数据的真实性和可靠性等方面的问题,避免出现误导和误判。以上内容参考百度百科-麦肯锡咨询公司
智能机械时代来了,芯片和大数据概念哪一个更有机会?
知识就是权力,这是西方自古相传的格言,那么如果从科学技术的角度来讲,任何生物体如果掌握了知识,就等于说拥有了智能,掌握了权力,人是智能的生物体+知识,这种组合成了地球的统治者就是很好的例子,最近以ChatGPT为代表的AI大模型及其初步应用“一石激起千层浪”,之所以到处都能听到类似“太神奇了”这样的感叹,就是因为机械代替了人+知识+智能,构建了可能比人类更聪明的一种“新生物”,大家说能不令人“大呼奇妙”嘛?!
当然,科技总是要进步的,这种“新生物”的产生发展,可能再一次地推动人类拥有更多的“闲暇”时光,并为人类社会服务,那么围绕着ChatGPT、GPT4.0、百度文心一言等相继发布新品之时,资本市场也生出了相当多的概念,简单说可以分为两个部分,一个是以软件为内容的大数据处理赛道,另一个则是以硬件为内容的芯片赛道,那么,从资本配置的角度来讲,在科技变革的列车上,哪一个赛道跑得更快呢?或者说大数据和芯片概念谁更有机会呢?我们不妨来讨论一下:
其次,大数据作为信息化时代的新兴领域,其应用范围也非常广泛。大数据可以为企业提供更加精准的市场分析、用户画像、商业智能等服务,为**提供更加精准的决策支持、公共服务等服务,为科学研究提供更加精准的数据支持等等。随着大数据技术的不断发展和应用,其应用前景也非常广阔。
不过,从两者的发展趋势来看,芯片的发展前景更加光明。一方面,随着新技术不断涌现,芯片的应用领域会更加广泛,例如人工智能、物联网、5G等领域的发展,都需要更加先进的芯片技术支持。另一方面,芯片作为信息产业的基础设施之一,具有非常重要的地位,其发展对于整个信息产业的发展具有至关重要的作用。而大数据技术虽然也有着广泛的应用前景,但是其发展需要更加完善的数据隐私保护、数据安全等方面的技术支持,而这些技术问题目前仍然存在较大的挑战。
我们从大数据概念板块的历史走势来看,它的确定性明显要弱于芯片主题,走势更加的波动震荡,也反映了大数据领域发展所遇到的干扰因素更多,波动的幅度更大。
综上所述,虽然芯片和大数据都是具有广泛应用前景的领域,但是从两者的发展趋势来看,芯片的发展前景更加光明。无论是从应用领域、技术创新还是市场需求等方面来看,芯片都是一个非常重要的领域,其发展前景非常广阔。
总之,硬件技术一旦相对固定了变化其实是相对缓慢稳健的,这也就构成了稳定性,而软件技术因为数据是动态的,而且也因为我们提到采集等问题上的敏感度,所以往往较比芯片概念表现波动,因此,不同风格的投资者可以根据概念板块不同的特征风格来选择配置,但是投资有风险,入市还需谨慎。
Python和大数据有什么区别,学哪个以后好就业?
大数据是目前互联网流行的技术语言,处理大数据的编程语言比较有优势的也很多,比如java、python、go、R语言、Hadoop等等,按道理来说每种编程语言都可以处理大数据,只是处理的规模不一样而且,但是现在比较受欢迎的数据处理编程语言是java与python。
Python是从最初的2016人工智能开始爆发,从而在短短两年之内能赶超java。随着python的发展,最大赢家无疑是python。未来大数据是对于一家企业有多重要,通过对数据的分析,可以了解市场需求、发展方向,对公司未来的定位,把数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征。自从python热度赶超java之后,python在大数据方面的优势逐渐被人们认识,但是java作为20多年成熟的编程语言,在大数据处理方面已存在已久,依然是程序员开发比较喜爱的编程。java在大数据处理方面还是比较倾向软件应用与网站数据,包括游戏数据处理,特别是金融服务数据处理,一直都是java的强项;python有着众多免费科学算法库,优势在人工智能大数据处理,当然也有使用Python在银行的基础架构中处理财务数据。可以说java与python在大数据处理各有优势。
其实无论学什么语言,只要学精用精都很好就业。
大数据时代通俗解释
大数据时代就是被大数据充斥着的时代,生活中无处不在都存在着大数据,运用到方方面面的的数据,这就是最通俗的讲法吧人们每天产生数据,所有数据汇总起来就是大数据,运用大数据刻画每个人的用户画像,在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。
大数据和Hadoop什么关系?为什么大数据要学习Hadoop?
视频加载中...
关于大数据安全问题的研究----科学前沿学术沙龙
我国互联网规模已经处于国际第一,信息化建设正处于高速发展阶段,从购物、社交、金融、商业、交通运输、生产管理,到工业4.0,一切都离不开网络。基于导航卫星的位置服务,无论是在军事还是民用上都有广泛的用途。随着我国北斗导航卫星系统的不断发展完善,正在越来越多地得到应用,成为我国的重要信息基础设施。网络的应用产生海量数据,位置服务也产生大量数据,不仅需要高效处理与分析这些数据的算法和能力,数据安全更是成为当前社会的重大问题。本次沙龙重点围绕网络大数据安全问题进行讨论,提出了若干迫切需要解决的问题。为了实现建设数据强国的目标,应当尽快开展有关大数据安全的技术、管理与法律的研究。
余德浩:今天沙龙的题目是"关于大数据安全问题的研究",我们邀请到吕金虎研究员和金雅芬研究员来做主题报告。吕金虎研究员是一位杰出的青年学者,他主要从事复杂网络、控制与识别的理论与方法和网络大数据的研究,是***重点研发计划首席科学家、***自然科学基金创新研究群体负责人,曾获何梁何利科学与技术进步奖、两项***自然科学二等奖。他今天的报告题目是"网络空间安全与位置大数据"。金雅芬研究员从上世纪八十年代初开始从事数据库理论和应用研究,参与了为国产小型机设计的第一个数据库管理系统的研发工作。从年开始,她从事互联网应用与安全管理问题的研究,一直是***科学院管理信息化专家组的成员,对院所开展网络应用与网络信息安全的管理等方面的问题进行过多年的研究。她今天的报告题目是"关于大数据安全问题的研究"。
一、吕金虎:网络空间安全与位置大数据
谢谢各位老先生,在座的许多都是我的老师。在这里作报告,我感到诚惶诚恐。下面分享我对网络空间安全问题的一些看法。
1、互联网的发展历程
大家可能知道互联网的重要性,过去20年显得越来越重要,网络空间成为继陆、海、空和太空之后的人类第五疆域。现在所有的东西都从单个跳到网络框架下,互联网被认为是人类过去50年来最重要的发明。
互联网的发展是由需求驱动的。当初第一代互联网是军事需求,***人围绕军事需要发展的互联网,后来发展到万维网、电子商务,现在我们***提的"互联网+"。整个世界就是这样,经济是搭建在互联网上的经济,和实体经济深度融合,工业互联网、能源互联网、车联网,等等。这时会给互联网带来一些挑战,包括安全、可控可管、能耗、可扩展性等非常重要的一系列问题。
互联网从"消费型"领域扩大到"生产型"领域。以前的互联网我们只是上上网、做做舆论,现在的互联网包括购物、所有的生产线。我国古代有四大发明,现在大家知道的新的四大发明,高铁、支付宝、共享单车、网购,都是以互联网为依托的产业。包括大家知道的工业4.0,***制造2025,都是依附在网络上面。未来20年,***工业互联网至少带来18万亿左右GDP增量,互联网与实体经济融合是经济发展的新引擎。
***互联网经济占GDP比重(iGDP)不断上升,2013年iGDP升至4.4%,***为4.3%。尽管我们过去受制于人,但是我们现在发展不一样,2013年到2025年间,互联网在***GDP增长中贡献可望达到7%到22%。
"互联网+"就是互联网与各行各业的深度融合。互联网与实体经济深度融合。***制造2025,弱点是"互联网+"怎么"+"起来。精准医疗等有待进一步发展,主要挑战是安全可靠实时性,服务等级区分,大数据的处理能力,这是一系列的挑战。
图3与实体经济融合对互联网提出了更高的要求,带来了更多的挑战
"互联网+"将推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。
"互联网+"也给***带来了新的机遇。比如说汽车,我们在现代汽车技术上想超越***或者欧洲几乎不太可能,因为人家沉淀了几十年发展的经验。比如说汽车里面的发动机,包括电子系统、驱动系统这些东西,不是靠三两天,投入大量人力就能赶上来的。但是新能源汽车是弯道超车的有效途径,新能源汽车的体系和传统体系是完全不一样的,不需要那么复杂的驱动。互联网也是一样的,我们掌握了未来互联网核心技术,就能在世界经济科技竞争中赢得主动权,赢得与大国地位相称的未来网络空间主权。
习**说了"我国要建成战略清晰、技术先进、产业领先、攻防兼备的网络强国。"现有互联网核心技术长期被国外把持,但是互联网理论和技术处于变革期,我国互联网规模已经处于国际第一,***信息化建设正处于高速发展阶段,未来网络技术是我们网络强国建设的重要机遇!
3、***网络空间安全环境的现状和存在的威胁与挑战
随着互联网的广泛深入应用,危害网络安全的强度和泛度也在不断增加。***网络空间安全现状中的问题不容忽视。
互联网逐步演变为各国军事上相互攻击的工具,***成立了网络司令部,利用"震网"病***攻击了伊朗核设施,导致伊朗浓缩铀工厂内约1000多台离心机报废。***国安*监听了35个***和地区的领导人,监听德国**通讯。如果你用iPhone、国外产的手机,所有的数据都可以自动备份到云端,云端就能把你手机所有数据备份一份在***,通过数据分析来知道你的活动轨迹、兴趣爱好、在什么岗位、家在哪、小孩在哪上学,都给你弄清楚,非常可怕。现在为什么**办公规定不让使用Windows10?原因就是Windows10只要一上网就会把所有数据都自动备份到***去了。如果***的经济命脉都到你那里了,要想把这个***经济搞垮,打击就会是非常精准的。这些都是非常重要的问题。使用人家的设备,你对它的东西都不可能所有都十分了解,存在很大风险。所以我们***军口用的东西必须是原原本本是国产的,如果是不可控的,就会留下很多隐患在里面。在军队、军网以外的,(外国厂商)让你去开发软件、平台,然后为它所用,整个是一个很大的系统。这个系统是半公开的,可对全球***进行监控。大家知道通讯只要经过一下,就给你把数据搜出来了。人家有能力分析数据。为什么他能知道很多信息,而我们不知道?大家知道前段时间比较清楚的,巴黎的反恐,巴黎发生恐怖袭击之下,***人就告诉他是哪几个恐怖分子。网络安全问题对我国经济和***安全造成重大威胁。
网络空间安全有很多问题,主要的稍微归纳一下:一个是密码技术。第二是防火墙,反病***、入侵检测、安全评估,包括后门问题。去年***大选里面出了问题,就是别人用一个病***入侵了民主*的选举系统,就把民主*的所有的敏感信息挖掘出来影响大选。
经过20年的发展,人们都离不开网络以后,网络安全的威胁更多是**利益推动,***行为,包括恐怖组织。例如ISIS就是通过互联网招兵买马,鼓励大家参与极端组织报复社会,军事组织的对抗,意识形态的对抗等。网络安全对***安全影响的泛度和强度不断增加。
世界上人造的最大网络就是互联网。现在所有人都离不开互联网,所有的经济也离不开互联网。以前我们排斥互联网,包括我们***的银行系统,对网络转账非常排斥。但是阿里巴巴搞了这么方便的支付宝来占领***市场,现在倒***银行改革,现在转账不用到银行去,轻轻松松就可以免费转。这方面的技术发展得非常之快,所以对网络的深度利用成为***重大战略。
网络空间安全的问题涉及到数据的发布、存储和使用,3个过程当中都有危险。我们经常用手机,你要记住尽量少用免费WiFi,否则人家会轻轻松松进到你的手机里去。大家要记住没有免费的午餐。
网络空间安全对维护***主权和保障经济安全具有重大战略意义,对众多产业具有巨大影响。目前国际上尚缺乏一套完善的网络空间规则,谁掌握了制定"游戏规则"的权利,谁就掌握了网络空间话语权和制高点。当前迫切需要发展网络大数据的数据与隐私保护基础理论。经***学位***会批准,我国今年已经把"网络空间安全"设立为一级学科。***还设立了***网络空间安全重点专项计划,开展网络大数据的数据与隐私保护基础理论研究。同时,从安全产业发展方面,加强安全产业的政策引导,包括加强相关政策的落实、引导安全创新、加强金融扶持以及优化人才培养;优化产业生态环境,包括优化安全产业融资环境、营造公平竞争市场环境、充分发挥安全产业平台和行业力量;找准技术方向和关键领域,聚焦于加强基础安全技术能力攻关、加强面向云计算、大数据、智能制造等安全研发;打造龙头企业集群、打造自主"专精特新"的技术产品布*。
位置服务跟每个人都密切相关。我们在这个世界上经常要回答"你在哪"、"你想去哪"、"怎么去"这些最基本的问题,这就需要位置服务。现在的"位置服务"实际上就是"定位、导航、授时"服务,它是通过卫星导航系统实现的。位置服务产生了大量数据,就是位置大数据。位置服务集社交网络、云计算和移动互联应用于一体,造就泛在的位置服务大系统、大产业,改变了人的生活、生活和生存方式。
当前世界上有四大导航系统,***的GPS,欧洲的伽利略(GALILEO)系统,俄罗斯的格洛纳斯(GLONASS)系统,我国的北斗系统。以前大家对***北斗不自信,觉得没不好用,但是经过这些年技术发展,我们北斗非常好用了,现在我国规定所有军事领域,所有***的重要**部门、关系到***命脉的部门,都必须要用北斗系统。这关系到我们***的安全和整个国计民生的问题。
现在我们的北斗系统是二代系统,主要服务于我国及周边地区。到2020年,我们将要建成的三代北斗系统是全球卫星导航系统,能够覆盖亚太地区甚至更大的区域,预期精度可达米级、亚米级,是一个融全球标准服务和区域多模增强服务于一体的卫星导航系统。我国的北斗系统有一个特别的功能,即在亚太区域内短消息通信功能,短消息可与互联网互通,可用于救助和应急搜索等许多事情。
位置服务的对象很广,我们的目标是建成满足实时、连续、广域服务的空天地一体化时空基准基础设施。天地一体化网络通过卫星建立互联网,和地面互联网互联,所有的都互联互通。将来可以在天上打电话,可以知道在天上什么位置。精密定位很重要的应用就是高铁,高铁跑得很快,轨道都有专门检测的,如果超过多少高铁可能就会翻,如果定位精度到了毫米级就能检测出来哪里出了问题。汽车互联网市场规模是4000个亿。***投了几百个亿在做这个事情,我相信不久将来我们能做到的。
位置大数据,包括卫星测绘数据、空间媒体的数据、用户轨迹。***两年前用手机信号分析禽流感传播的时间和途径,因为你用手机就知道你经常到哪去,从哪到哪,人口流动规则能分析出来。比如说你经常上网查感冒*,可以分析禽流感传播规律,这是在以前是不可想象的,但是现在现实变成可能。
位置大数据有不同需求,航海就需要的比较低,10米就够了,但是如果你做测绘、火山预测、精密工程形变,要求就各不相同。三峡大坝,过去传统做法是靠人去巡视,2个小时去巡视一下。后来委托武汉大学开发了一套软件,在坝面装了一个定位系统,装了一个监控,每个砖在每时每刻的变化都显示出来了。
随着互联网、物联网、人工智能、大数据存储和分析技术的发展,建立完整的、高精度的、室内外一体的位置大数据传感网络,综合利用自然语言处理、图像处理、信息检索等方法,提取互联网多媒体中的位置信息,建立其与互联网媒体的内在关联,在经济建设、国防安全方面,都有很多重要的应用。
人类活动的信息80%是与空间信息有关的,位置服务需求进入了环境认知、个性需求、社群行为监测分析、国情全面、实时、协同性和公众式监测的新时代,现在我们的时代个性需求,获取你的信息还知道你有什么兴趣、爱好。大家知道数据还没有立法,包括出租车公司数据获取,可以分析到很多东西,可以对你的隐私构成很大挑战。大家知道微信是不加密的,如果信息传输出去很容易就被获取到,没有保护措施。我们***前段时间出现泄密,可能看过新闻的,我在开会时候拍一下,拍一个截面发给同事,就下载下来,这个过程当中就泄密了,这个非常可怕的。
时空位置大数据为智慧城市、智能交通、智能物流、精准农业的实现提供了实时、精准、智慧的保障.位置服务大数据还涉及人的心理、认知与行为科学,也涉及其它人文科学和社会科学。当然,位置数据的安全问题,也是互联网空间安全的重要问题。
二、金雅芬:关于大数据安全问题的研究
刚才吕教授做了一个内容丰富非常好的报告,我听了最大的感觉就是网络安全与位置大数据非常重要,因为它与军事和国防有密切的关系。我今天要讲的内容是关于开展大数据应用中出现的安全问题。我的报告分六个部分。
1、大数据的起源与应用的发展
我们先来看大数据的起源。我是搞数据库的,1979年大学毕业论文就是关于如何设计一个数据库管理系统。现在搞大数据的人讲,我们的大数据跟以前不一样,过去是小数据,现在是大数据。我个人认为小数据也是大数据的一个子集,过去是以处理文本数据和结构化的数据为主,而现在更多的是处理半结构化和非结构化的数据,数量更大,产生的速度更快,数据类型更多。仅从数量上来说大与小意义不大。
1.1大数据的起源
什么时候开始有大数据这个名词的?有人说是1997年第一次出现了大数据这个名词。
1997年,在第八届***IEEE关于可视化的会议论文集中,MichaelCoxheDavidEllsworth发表的"ApplicationControlleddemandpagingforoutofcorevisualization"论文提到:"我们将这个问题称为大数据"。这是在***计算机学会的数字图书馆中第一篇使用"大数据"这个术语的文章。
2004年,Google在"操作系统设计与实现会议"上发表了关于Google文件系统与MapReduce的论文,被视为大数据处理技术发展的里程碑。
2006年,Apache软件基金会正式启动开放源码项目"Hadoop"以支持MapReduce和Hadoop分布式文件系统的***发展,促进了大数据处理技术的快速发展。
2010年,IBM沃森超级计算机每秒可扫描并分析4TB数据量。在***著名竞赛电视节目中击败两名人类选手夺冠,这标志着大数据处理能力的成功。
1.2大数据发展的重要事件
2009年10月《第四范式:数据密集型科学发现》出版;
2012年5月联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》;
2014年5月***白宫发表《大数据:把握机遇,保存价值》和《大数据与隐私的技术观点》报告;
2014年***成立了大数据联盟、还举办了N个大数据会议、成立N个大数据中心和学院;
大数据一开始提出的时候并没有引起人的关注。大约在2010年,人们发现这个东西不仅有价值,而且很重要。由于它的重要,***发起了一个大数据研究和发展计划。从2010年到2012年,大数据就变成了***高度重视的一件事,成为***的主导的活动。很多研究人员开始转入到这个方向。我们和***比只晚起步了2到3年。
1.3大数据的发展趋势
下面的这张图是高德纳公司发布的新技术发展趋势图,可以看出,在2013年,大数据成为热点到达了高峰,所以把人们把2013年称之为大数据元年。但有的文章把2015年作为大数据元年,大家观察的角度不同。但是这个趋势图的观点是被广泛接受的。2013年大数据出现的频率很高、成为很热的关注点。2014年就开始往下走,不是说不重要了,而是说这个问题到达了最高峰,已经被人们广泛的认知,后面的事情就是要去开展深入的研究和实际应用了。
计算机科学先驱、图灵奖获得者微软公司的科学家吉姆·格雷认为,受信息技术的影响,几乎有关科学的所有事物都在变化,实证、理论和计算科学都受到数据泛滥的影响,因而出现了"数据密集型"科学模式,其目标是使世界上所有的科学文献联机,并实现互操作。微软公司于2009年10月发布了《第四模式:数据密集型科学发现》论文集,首次全面地展现了快速兴起的数据密集型科学研究。我们过去搞数据库也没有提到数据密集型科技。现在叫数据科学,这是包括计算机科学、统计学和通讯技术等多个学科结合形成的一门交叉学科。由于它的强大、应用非常广,就要变成一个单独学科分支。和控制论、自动化一样,最早也是数学的一个分支,后来发展壮大了,就单独分离出来了。现在已经有一部分大学成立了数据学院,而不是统计学院,因为它是一个涉及多个学科领域的交叉学科,而不只是涉及数据分析一个方面。大数据的确是非常重要。
我的看法是,实际情况是大数据的理论研究和大数据安全问题研究是还比较缓慢的,大大滞后于应用,所以应用中出现了很多的问题,有关的技术、管理、法律的研究工作进展非常缓慢。
1.4大数据在**层面得到高度重视
大数据在**层面得到了高度重视。***2012年投入2亿美元研究大数据,欧盟差不多跟***同时,2010年提出开放数据战略。***在2015年9月,***发布了一个促进大数据发展的行动纲要,提出加快建设数据强国的口号。我们的缺点是缺少数据资源的积累,这是很大的弊端。我们搞数据库这么多年,80年代我们就搞,我们积累了多少数据库?***数据库系统是建设了很多年的,但是人家一直注意数据积累。***到底建设了多少个数据库系统?这些数据库又存储了多少数据?数据应用情况怎么样?这些现在都是说不太清楚的。两年前还在进行调查和逐级上报数据进行统计,也没有看到发布调查的结果。这是我国信息化建设存在的一个很大的问题,是要着力去解决的。现在***提出大数据发展战略,建设数据强国,要全面推动我国大数据发展和应用,这是非常好的。这个目标若能够真正实现,我国的信息化就有可能大幅度的提升。
定义1IDC(InternetDataCenter):大数据指的是数据量大于100TB,数据量年增率大于60%,采集的是高速数据流,且包含结构化与非结构化的数据。
定义2MBA智库:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
定义3麦肯锡:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集(并不是要超过特定TB值才能算是大数据)。
第一,大数据已经成为经济转型发展的驱动力。第二,大数据是重塑***竞争力的一个新机遇,如果大数据搞好的话,我们的信息化排名可以从以前70、80名前进到20名左右。第三,大数据是提升**治理能力的新途径,用数据说话、用数据决策、用数据管理、用数据创新,提高管理的效率和为人民提供更好便利。
当前,大数据的主要来源是:社交网络(博客、微博、微信),移动网络和各种智能终端,宽带和IP网络,物联网、各种传感器、RFID(射频电子标签),视频设备,等等。例如城市的摄像头产生的动态视频,一个中等城市宁波市摄像头的数量就达数百万,北京、上海就更多了。还有智能手机产生的语音文件、图像文件、视频文件,使得数据量爆发性增长。各种传感器数据,例如温度、***度、颗粒物浓度,还有卫星遥感数据,位置数据等等。
大数据的保存是一个很大的问题。例如城市摄像头产生的视频数据,保存的时间一般是三个月、有的半年,最多是一年。如果要查看去年发生的交通事故和案件信息视频资料时,数据已经被清掉了。如果是存储长期保存着,不知道什么时候就有用了。等你有能力加工分析的能力时,你就可以拿出来分析。而且你根本不知道什么时候会发生什么案件,是不可预知的,你不知道哪个时间段的视频记录以后会有用。
数据来源的多样性:计算机、网站、社交网络、信息系统、物联网传感器;
数据终端的多样性:台式机、笔记本、智能手机、视频设备、传感器;
数据结构的多样性:结构化、半结构与非结构化;
数据类型的多样性:文本、数字图片、视频、流数据、图数据。
大数据的价值:不真实没有价值,不分析也没有价值。
随着网络大数据应用的深入发展,数据安全成为十分重大的问题。商业网站的海量用户数据是企业的核心资产,成为了黑客甚至***级攻击的重要对象。重点企业数据安全管理面临更高的要求,必须建立严格的安全能力体系,需要确保对用户数据进行加密处理,对数据的访问权限进行精准控制,并为网络破坏事件、应急响应建立弹性设计方案,与监管部门建立应急沟通机制。
下表是2016年世界上发生的十大数据泄漏事件:
几个典型案例的情况:
2016年8月13日******安全*网络"武器库"遭遇黑客组织侵入。黑客组织"影子中间人"宣称将攻入******安全*网络"武器库""方程式组织",并泄露其中部分黑客工具和数据。根据斯诺登提供的文件显示,这些泄露的工具的确是******安全*软件。******安全*的网站也因此瘫痪了近一昼夜。事后几日,斯诺登在其社交网站上表示,此次事件是由于国安*三年前留下的网络漏洞所致,但一直以来国安*方面从未对此进行修复。
2016年6月,世界最大的反恐资料库WorldCheck资料曾外泄,220万个可疑恐怖分子和与犯罪组织有关的人员的个人资料在网上出现,不但如此,这些数据还分别以3.5比特币(2345美元)以及10比特币(6706美元)的售价在暗网公开售卖。
(3)***职业社交网站LinkedIn数据泄露1.67亿个用户的信息。
2016年5月19日,***职业社交网站LinkedIn宣布一名叫"peace"的黑客组织在黑市上以5比特币的售价公开销售1.67亿个用户登录信息。这些数据来自2012年LinkedIn发生的一次大范围的数据泄露事件,其中有1.17亿包括电子邮件和密码。当时公司方面曾花费100万美元展开调查,但未真正意识到问题的严重性,才在几年之后造成十分***劣影响。事后LinkedIn已经给用户发送了电子邮件要求更改密码,并对从2012年起就从未修改密码的用户要求强制修改密码。
2016年9月21日,全球互联网巨头雅虎宣布有至少5亿用户账户信息在2014年遭人窃取,盗取内容包括用户姓名、邮件地址、电话号码、生日、密码等,甚至还包括加密或未加密的安全问题及答案。2016年12月14日,雅虎再次发布声明,宣布在2013年8月,未经授权的第三方盗取了超过10亿用户的账户信息。2013年和2014年这两起黑客袭击事件有着相似之处,即黑客攻破了雅虎用户账户保密算法,窃得用户密码。
2014年到2016年是大数据的快速发展期,也出现了一些安全方面的问题。
2014年12月25日大量12306用户数据在网络上疯狂传播。12306网站之所以被"撞库"得手,根本原因是其账号安全体系存在缺陷。12306手机APP的登录接口存在漏洞,黑客可以轻易绕过账号安全防护措施,无限次尝试自动登录。此前网上流传的13万余条12306用户密码都是由黑客"撞库"获取,如此巨大的登录请求数量,12306都没有及时发现并屏蔽。很多用户在不同网站使用的是相同的账号密码,因此黑客可以通过获取用户在A网站的账户从而尝试登录B网站,这就可以理解为"撞库"攻击。
(2)浙江特大侵犯公民信息案,7亿条个人信息遭泄露。
据法制日报报道,浙江省松阳县人民法院一审判决一起特大侵犯公民个人信息案,该案涉及7亿条公民隐私信息被泄露,8000余万条公民信息被贩卖。后经查明,涉案的王某辉2016年2月入侵某部委医疗服务信息系统,私自将该系统内的部分公民个人信息导出并出售。涉案的库某于2016年9月入侵某省扶贫网站,窃取了该系统数名高级管理员的账号和密码,对系统内大量公民的个人信息数据进行下载和贩卖。
自2014年初至2016年7月,上海市疾病预防控制中心工作人员韩某利用其工作便利,窃取中心每月更新的全市新生婴儿信息(每月约1万余条),并出售给黄浦区疾病预防控制中心工作人员张某某。直至案发,韩某、张某某、范某某非法获取新生婴儿信息共计30万余条。
2015年初至2016年7月期间,范某某出售上海新生婴儿信息共计25万余条。2015年6月、7月,吴某某从大犀鸟公司秘密窃取7万余条上海新生婴儿信息。2015年5月至2016年7月期间,龚某某通过微信、QQ等联系方式,向吴某某出售新生婴儿信息8000余条,向其他人出售新生儿信息共计7000余条。2017年2月8日,上海市浦东新区法院以侵犯公民个人信息罪,分别判处韩某等8人有期徒刑七个月至两年三个月不等。
2016年12月,有多家媒体报道京东数据外泄这个事件。在黑市传出了一个12G的数据包,其中包括用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度,数据多达数千万条。据称,这12G的数据是来自京东。
2016年8月19日召开的打击跨国电信网络诈骗案件通报会上***部刑侦*负责人介绍,与大数据有关的案件频发,个人信息307亿余条,其中内鬼作案次数是黑客作案的近4倍。
***部会同最高人民检察院、最高人民法院制定发布了《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,健全完善网安与各警种案件协作配合机制,依托网络犯罪举报平台充分发动群众举报犯罪线索,以串线索、打团伙、断链条为重点,不断加大打击整治力度。
4我国大数据应用中典型案例与安全事件的分析
徐玉玉案发生在2016年8月,她被诈骗电话骗走了9900元上大学的费用。当发现自己被骗后,与父亲一起去***报警,回家途中身体出现不适入医院抢救,8月21日抢救无效***。***机关出具的***原因分析报告认为,徐玉玉应系被诈骗后出现忧伤、焦虑、情绪压抑等不良精神和心理因素的情况下发生心源性休克,心肺复苏后继发多器官功能衰竭而***。
徐玉玉用18岁的生命唤醒了人们的安全意识和道德良知。过去像这样的小额案件一般不立案(金额一定要大于某个金额才能立案)。跨境案件因追查困难也不追查。从徐玉玉案件这个案件开始,有关部门处理个人信息泄露问题的态度有了一个重要转折。这是徐玉玉用18岁的生命换来的变化。
大数据成为黑客网络攻击的重点目标。自2016年4月***部部署开展打击整治网络侵犯公民个人信息犯罪专项行动以来,截至9月21日,共查破刑事案件1200多起,抓获犯罪嫌疑人3300多人,其中银行、教育、电信、快递、证券、电商网站等行业的内部人员270多人,网络黑客90多人,缴获信息290多亿条。但是这个数据是部分数据,不可能统计全,破了案的是1200多起,还有没破的呢?公民个人信息泄露,已成为电信诈骗犯罪高发的助燃剂。
住宿记录、名下资产、乘坐航班,甚至网吧上网记录都能被轻易查到。"信息裸奔"令人不寒而栗,行走在大数据的社会,个人信息安全值得我们每个人关注。我们***开展大数据应用存在很严重的问题,我就发现很多公司企业在超范围的使用客户的信息。比如说装修,我给装修公司的信息,装修公司就卖给销售家具的,家具在卖给谁等等。所以就成了一个有上下游供应的东西,很多东西没有法律道德意识,不是在自己业务范围内使用用户数据,把数据泄露给别人。
下面我们来看徐玉玉案件的基本情况和暴露出的一些问题:
2017年7月19日,山东省临沂市中级人民法院对这一案件中的被告人陈文辉等人诈骗、侵犯公民个人信息案一审公开宣判,以诈骗罪判处主犯陈文辉无期徒刑,剥夺**权利终身,并处没收个人全部财产,以侵犯公民个人信息罪判处其有期徒刑五年,并处罚金人民币三万元,决定执行无期徒刑,剥夺**权利终身,并处没收个人全部财产。陈文辉及其他罪犯的犯罪事实及判决结果如下表所示:
在这个事件中发现的问题是:
(1)黑客为犯罪分子提供盗取的个人信息,是罪犯最大的帮凶。
杜天禹18岁,四川宜宾人,他通过QQ先后10多次向陈文辉出售山东考生信息,非法获利1万4千多元。2016年4月,杜天禹利用安全漏洞侵入了"山东省2016高考网上报名信息系统"网站,下载了60多万条山东省高考考生信息,高考结束后在网上非法出售,总计获取赃款5万多元。就这样个人信息从黑客手中就到了骗子手里。
诈骗团伙主要组织者陈文辉,15岁时退学,便离开老家安溪外出打工。2015年年初,陈文辉在网上找到了以助学金为名对学生进行诈骗的剧本,所以他想诈骗在网上就能找到剧本,欺骗性更大,在人们警惕性不高的情况下很容易得手。
(3)虚拟运营商不严格执行实名制的规定,罪犯购买虚拟号段。
实施电信诈骗,有两样作案工具必不可少,一个是电话卡,另一个是银行卡,而这两种卡按规定是要实名才能办理的。但是由于虚拟运营商单纯地追求利润,并不严格地执行实名制的规定,罪犯了解到购买171和170的电话卡不需要出示身份证,只要付钱就能办理,因此陈文辉选择了171开头的虚拟号段。这说明在虚拟运营商这个环节就出现了漏洞。非实名电话卡掩藏了骗子的真实身份,使坏人有空子可钻。
(4)非实名的银行卡和电话卡一样,在网上也可以买到
当骗子一旦诈骗得手,就需要银行卡去提现。而这个环节也和电话卡购买的的情况差不太多,就是非实名的银行卡和电话卡一样,在网上也可以买到。在QQ群里就可以购买到非实名银行卡。这么方便,诈骗犯几乎是一路畅通,毫不费力就能达到诈骗的目的。
QQ群成为罪犯之间联系与进行交易的一个主要场所。几个罪犯都多次提到,他们是在QQ群里进行联系和买卖数据的,完成个人信息大数据的交易的地点和场所就在QQ群。
只要有人付钱,什么信息都能买到。还有人出售2015-2016年打包数据。一个网名叫七友的人发布信息称,银行数据,个人数据,100块打包一万条。一个叫"诚信数据"的人主动向记者兜售车主信息,豪车车主标价400元一万条信息,普通车车主300元一万条。"诚信数据"为了证明自己的"诚信",主动给记者发过来多条车主信息验货,包括车主的姓名、车牌号、手机号、车架号、发动机号。记者拨打这些车主的手机发现这些信息全部是真实的。此人声称自己还出售个人全套信息,从身份证复印件、家庭成员、户口本复印件、到网络账户名都在其中,全套信息的价格是每套3元。浏览这些QQ群可以发现,公民个人的金融信息是信息贩子的热卖品。一个网名叫"风驰"的人,直接叫卖银行储户信息,其中包括公民在银行的户名、卡号、身份证、密码、手机号,还特意注明是今年9月份的最新数据,并且知道账号里的余额。最新调查数据表明,从2010至2016年公民个人信息泄露达到1.6亿条,其实这个数字也不准确,这是已被破案的结果,还有那些没有破案的事件,因此这个数字只是一个下限,实际数字会更大。
QQ群是否真的隐藏着贩卖个人信息的"黑市"呢?记者在QQ群搜索栏里输入了"数据买卖"和"一手数据"进行搜索,结果出现了数百个QQ群。就是说有数百个从事"数据买卖"的QQ群,说明了问题的严重性。这些群都标注着"数据买卖、数据购买"、"洗料、拦截料、数据交易"。记者申请加入了几个群,很快就获准通过。在这些QQ群里公民的个人信息被称为"数据"和"料",各种私密的信息,公然在群内发布,明码标价,叫买叫卖。一个网名"大宝健"的人发布信息称,银行、信用卡、老年保健、网购、电购数据应有尽有。
记者可以追踪到的信息,平台安全管理人员难道就不知道?罪犯之间的联系与交易信息难道不知道?只能说是管理者也是在睁一只眼闭一只眼。
(8)网络社区的管理是否也严格执行了实名制注册?
由于在网络应用出现了一些安全方面的问题,前几年有关部门就提出和大力倡导网络社区的管理要实行实名制,由于各种原因,在一些社区这个制度并没有被严格的执行。一些社区始终存在非实名注册的问题,一直没有彻底解决。
从上述分析中,我们看到了至少有七个环节出现了管理的漏洞,这样罪犯想实施诈骗,有很多空子可以钻,基本上没有什么难度,很容易得手。这也是为什么网络诈骗案件增加很多的原因。因为犯罪分子并不需要掌握什么高技术手段也能得逞。这些案件说明,个人信息泄露引发的*扰密度已经达到相当严重的程度,公民个人信息遭侵害程度触目惊心。而与这些相对应的,是管理的薄弱,民众防范意识不强,保护意识薄弱,维权动力不足。从对徐玉玉案件的分析,我们可以看到在多个环节都出现了问题,由于多个环节的不尽职、不尽责,致使个人信息泄露,个人信息的非法获取与买卖才造成了人的生命和财产受到危害。人民日报就此发表评论:相关部门是否已丧失最基本的监管职责与职业道德?
搜索引擎、安全管理软件、操作系统、浏览器、游戏软件、购物、社交等软件都是采集并使用用户信息,成为个人信息泄漏的源头。微软利用Windows10系统自动搜集用户信息的功能,搜集了过多的用户数据,这一问题已经引起了国际上的关注。欧洲人很警惕,如果你微软不改的话就不让用你的东西。欧盟通过了新版《数据保护法》,强调本地存储和禁止跨国分享。
(2)涉案团伙规模化,个人信息贩卖已形成了地下产业链。
经过4个月走访摸排和缜密侦查,蚌埠警方查明了一个入侵互联网公司服务器窃取出售公民个人信息的犯罪团伙,涉及安徽、北京、辽宁、河南等全国14个省、市,涉案人员近百人。这个犯罪团伙已经形成了互联网黑灰产业链条,可以说是盗抢销一条龙。"在这个组织中,有人专门负责窃取公民个人信息,有人通过技术手段把这些公民个人信息进行整理建库,还有一部分人会把这些整理建库完成的数据直接拿出来使用,有出售的,有交换的,有数据变现的……"。
有人大代表对电信诈骗案件的利益分配问题进行了数据统计分析,得到了下述结果。这也可以部分地解释了数据泄露问题存在的原因:这是巨大利益(222亿)下的选择。这也说明了这个问题必须在各个环节进行全面监管才能得到有效遏制。
从发现的问题看,有的企业内部的员工受金钱的诱惑,走上了从事贩卖客户信息的犯罪道路。卖一条信息20元、30元到40元,把信息出卖给商家,甚至诈骗团伙。下面是几个案例:
犯罪嫌疑人王某说:中间商通过微信添加我为好友,他知道我是在顺丰快递上班,问我用手机号能不能查到地址,就是快递地址,我说寄过快递的是可以查的,然后他给我手机号给他查。一条是30块钱,他用微信红包发给我。
河南***平安银行的员工甄某,同样是在利益的驱使下,利用职务便利,从银行内部复制了大量的客户征信信息进行售卖,涉及到的客户个人信息包括:姓名、工作记录、保险记录以及信用贷款等详细信息。
顺丰快递公司江苏分部的王某,从事快递工作已有5年多时间。从2016年5月开始,他利用职务上的便利,从公司内部系统大量复制客户个人信息进行售卖,这些个人信息涉及到客户的姓名、电话以及家庭或单位的详细地址。
京东和腾讯的安全团队联手协助***部近日破获了一起特大窃取贩卖公民个人信息案。根据***部透露的信息,该案共抓获涉案嫌疑人96名,其中涉及交通、物流、医疗、社交、银行等个人信息50亿条。有人是多次流窜作案,偷了一家再到下一家。
近年来,互联网公民个人信息泄漏事件频频发生。保障公民信息安全,首先立法要跟上。当前互联网发展很快,对经济社会的正面推动作用非常显著,但同时也带来了一些个人信息安全问题,归根到底要依法治网。大数据的安全问题涉及**、相关企业、网络运营商、服务提供者,以及数据产生者、使用者等方方面面,必须对各自的安全责任有明晰的政策界定。
大数据安全管理包括技术、管理、法律三个方面。目前的情况是,技术、管理与法律都滞后于应用。应该先从管理入手,再解决技术与法律的问题,实行分级保护等级保护,加强专业的网络安全与数据安全管理人员的培养。
大数据安全主要表现在以下四个方面:
(1)网络安全:大数据与网络密不可分,针对大数据的网络犯罪行为日益猖獗,目前我国针对大数据的网络安全防护不够,无论是软件还是硬件大多使用国外的产品或技术,容易造成信息泄露。
(2)系统安全:在大数据时代,云平台是大数据汇集和存储的主要载体,云平台数据安全是保证数据安全的重要环节;去旅游,住宿饭店,上社交网络、购物等都可能泄露个人信息。
(3)终端安全:数据的搜集、存储,访问,传输必不可少地需要借助PC、移动等终端设备,攻击终端设备可能获得操作大数据的权限。
(4)数据安全:大数据时代,看似无用的数据,经过大数据分析技术极有可能转化为由高价值的信息资产。这种信息一旦泄露,将严重威胁个人隐私安全,甚至对***经济走势,**稳定产生影响。
因为数据是资产,是宝贵的资源,加强数据安全管理,一是要明确数据安全治理目标,解决"云、管、端"三类数据的违规监控和泄漏防护问题,对涉及敏感内容的数据存储、传输、使用过程进行全方位监控、审计、实时防护,防止敏感数据泄露、丢失,确保数据的价值实现、运营合规和风险可控。
二是要建立数据安全治理的保障机制,包括确立数据安全治理的战略,健全数据安全治理的组织机制,明确数据安全管理的角色和责任,建立满足业务战略的数据架构和架构管理策略;识别政策、法律、法规要求,跟踪相关标准规范的进展并采取措施予以积极落实。
三是要采取相关技术措施,加强对敏感数据的管控。首先要开展数据分级分类,对敏感数据进行识别定义,为采用技术手段实现对敏感数据的安全管控提供基础;在数据分级分类基础上,建设数据安全管控系统,对传统环境和云计算环境下的数据进行深度内容识别,并通过展示界面,实时、动态展示敏感信息分布态势、传输态势、使用态势及整体安全风险态势;还要对涉及敏感内容的数据存储、传输、使用过程实现全方位监控、审计和实时防护。
调查结果显示,虽然当前个人信息泄漏问题突出,其背后黑色产业链的曝光也引发了社会关注,但是公众对很多场景的信息修漏问题的感知度依然不足,安全意识薄弱,因此加强对这些信息的保护是相关部门的当务之急。
个人的数据是怎么泄露的呢?随着人们对网络应用的广泛依赖,只要用户上网就可能会泄露个人信息。例如:上网购物,提供了电话、姓名和单位或者家庭地址;使用搜索引擎泄露了目的地和乘什么交通工具;手机的朋友圈,提供了与家人和朋友的联系;买机票和火车票,提供了电话和送票的地址;网络应用:博客、微博、微信;参加会议和培训提供了个人的信息;看病挂号:健康信息、推销*品;银行、保险、理财;买房、装修、家具;买车、保养;旅游信息;玩游戏,等等,每件事都可能成为信息泄露的来源。
但是在日常生活中,许多用户的安全意识淡漠,例如:很多用户使用的是弱密码,例如,123456,111111等;多个应用系统使用同样的密码,如邮件、购物、银行等;有的人还将密码写在机器上。
什么叫"撞库"?就是利用被攻破了的系统的用户数据,当作钥匙去开另一个系统的门。这样的撞库成功率是很高的。用户的密码越简单,就越容易破解。多个系统用同一个密码,而撞库的成功率就越高。因此每个用户都有责任保护系统的安全,不要是用弱密码。所以用户一定不要用简单的密码,不要多个系统用同样的密码。如果将密码写在机器上就等于没有密码。
信息泄露,***失的不只是金钱。你的个人身份、账户、位置、轨迹、社会关系、人际交往等等敏感信息都可以通过大数据分析出来。如果有人想找到你,只需要两个条件:你上过网,留下过痕迹;你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,***专家就可以很轻松的找到你。有时看起来没***失钱,但是***失个人信息的麻烦是更大的。特别是一些重要的人群,像吕教授这样的重点人物,都可能是重点跟踪的对象,因为你研究的课题是非常重要的。
据2017年1月公布的《***互联网络发展状况统计报告》显示,截至2016年12月,我国网民规模已达7.31亿;《***网民权益保护调查报告2016》显示,54%的网民认为个人信息泄露严重,84%的网民亲身感受到个人信息泄露带来的诸多不良影响。由此可见,信息安全形势严峻。
公民个人信息和隐私安全问题。大数据的汇集不可避免地加大了公民个人信息和隐私数据信息泄露的风险,在大数据时代,想完全屏蔽外部数据商挖掘个人信息非常困难。
(1)很多系统的管理人员,不能及时地更新升级打补丁;
(3)系统被黑和数据被窃取了都不知道,发现问题很晚,过了若干个月才知道。
(4)系统使用缺省的账户和密码,不修改账户名和密码;
(6)安全问题上报之后无人继续跟踪处理,不去寻找问题的来源,不会采用有效的追溯的方法。
当前,一些互联网相关的企业联合起来,实行大数据的协同管理。这是一项防范信息泄漏的行之有效的措施。
京东案中盗窃个人信息的郑某鹏曾在多家知名互联网公司的安全部门工作,并利用职务之便,窃取用户个人信息,进行职务犯罪。为防治企业内部的这种职务犯罪,近日京东、腾讯、百度、沃尔玛***、宝洁、联想、美的、小米、美团点评、唯品会、李宁、永辉超市、佳沃、鑫荣懋等知名企业与***人民大学刑事法律科学研究中心共同发起了"阳光诚信联盟"。该联盟旨在通过互联网手段共同构筑反腐败、反欺诈、反假冒伪劣、打击信息安全犯罪的安全长城,共同提升联盟成员内控部门的履职能力和员工的职业道德建设,共同打造诚信经营、放心消费的商业环境。
"阳光诚信联盟"约定以"诚信经营"为使命,以开放的心态吸纳各行业成员共同推广廉洁自律、奉公守法的经营理念。联盟将建立信息共享机制,设立专属网站,实现联盟成员之间在反腐败等方面的信息互通,并向公众公开联盟工作成果。行业失信员工信息将互通(黑名单)可以避免连续流窜作案。京东将建立失信员工的查询通道,其他联盟成员在招录员工时可重点关注,并在法律法规允许的范围内对涉案人员可采取拒不招录。联盟将以坚定的决心、坚决的举措打击腐败行为,这既是对失信员工的约束和惩戒,也是让员工在职场发展中获得阳光透明、公平竞争的机会。联盟切实发挥共同监督、携手拒腐的作用,共同打造一个良好的商业环境,推动整个社会的诚信建设。
最近,很多快递公司选择使用隐私面单,住址和电话号码隐藏几位,这样就拿不到全部信息,只能拿到一部分。比如顺丰的"丰密面单"、京东的"微笑面单"、圆通的"隐形面单",菜鸟网络也联合EMS、百世快递、中通、申通等主要快递公司共同推动使用"隐私面单"。隐藏了快递单上的部分个人信息,从而达到加密效果,防止其他人从单子上窃取消费者的个人隐私。当然到库里一查,肯定还会有全的信息,所以说这是一个*部解决问题的方法,但是总比没有的好。
工业与信息化部的《电信和互联网用户个人信息保护规定》,针对电信业务经营者、互联网信息服务提供者规定了较为全面而系统的个人信息收集和使用规范、安全保障措施以及相应的法律责任,是一部重要的个人信息保护的专门规范。这个文件为个人电子信息确立了相对全面的保护,也为其他领域的法律法规提供了可供参照的样板,被认为是目前最为重要的个人信息保护规范之一。
全国人大***会于2012年12月28日通过的《关于加强网络信息保护的决定》,针对"个人电子信息"的保护作出了较为系统的规定,明确"个人电子信息"就是"能够识别公民个人身份和涉及公民个人隐私的电子信息",并对收集、使用、保存个人电子信息作出了系统性规范,还规定了违反义务的主体需要承担相应的民事、行政和刑事责任。
2016年5月,两高联合发布《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,明确侵犯公民个人信息罪的定罪量刑标准。
2016年6月,《网络安全法》正式生效,首次从法律层面规定个人信息保护的基本原则。其中第七十六条规定:"个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证号码、个人生物识别信息、住址、电话号码等。"这是首次在法律层面上确立一般意义上"个人信息"的概念,为个人信息保护的体系化制度建设提供了基础。
2016年7月,***发改委等八部委印发《关于促进分享经济发展的指导性意见》,明确强调依法严厉打击泄露和滥用用户个人信息的不法行为。例如刑法第253条规定非法出售或提供个人信息的主体限于"***机关或者金融、电信、交通、教育、医疗等单位的工作人员",而实际情况是此类人员被定罪并不多见。有法院将出售小区业主个人信息房地产公司的工作人员也列为犯罪主体。单纯的侵犯个人信息罪的定罪量刑也较为轻微,大多为一年以下有期徒刑或拘役并处罚金,通常适用缓期执行。
2017年3月15日通过的《民法总则》第111条规定:"自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。"这是继刑事、行政立法之后,立法机关将个人信息的保护纳入民事基本法总则中的开创性之举。
目前我国针对个人信息保护尚未形成统一的综合法律规范,而是用一些具体地规定。有的是法律,有的是行政法规、部门规章、地方性法规和规章,以及各类规范性文件等,这样多层次和多领域的规范实际上形成了一个内容分散、体系庞杂的个人信息保护模式。要治理网络环境,就要加大惩治,还应该从法制层面掐断信息泄露的源头。
解决大数据安全最突出的问题,我个人认为目前最要紧的是首先解决个人信息泄露的问题。由于有很大比例是由于内鬼盗窃和泄露个人信息,所以第二个要解决的是发现和处理内鬼窃取信息的问题。之后要解决的是黑客攻击的问题。然后是建立全社会的协同大数据安全管理体系的问题。既要抓内鬼,也要追查黑客,把这些人的活动范围和行踪等进入黑名单,让他们无法继续从事类似的犯罪活动,限制他们的活动范围。要建立全社会的协同大数据安全管理体系,我们过去不协同,你搞你的,我搞我的,相互没有联系,也不配合,但是罪犯之间都有配合,有上下游形成灰色产业链。
大数据安全管理,需要多个环节的配合处理和配套的管理制度与法律来保证,过去分散各自管理的问题是无法解决大数据安全问题的。人们认识到"数据像石油一样是核心的战略资源",作为核心战略资源的数据显然是不能够随便存放的。这里有两个重要的问题:一是安全管理责任分担的问题。信息安全风险存在于数据的全生命周期之中,从数据采集、存储、处理到应用,技术思路、产品开发、用户使用、服务管理,各个环节均要分担相应的安全责任。还有为了数据安全要严格的划分不同的人可以访问的数据范围,在管理上也要落实责任到人。哪个环节是什么责任,哪个业务是什么责任都必须要规定的很明确。像银行要把住资金流通的这个关键环节,这是最后一个关卡,守住这一关就很重要。二是数据加密保存的问题。数据要加密存储,数据库不能再裸奔。有的案件就是因为破解了加密算法而盗取了用户信息,所以加密的算法要足够的安全。
在法律层面上,我们目前迫切需要研究制定与大数据安全相关的法律。现有法律比较宏观,针对性不强,不能解决实际问题。我们需要更加系统地研究和完善的个人信息保护的法律,改变过去多头和分散治理和立法的*面。现在虽然有网络法,个人信息保护的法律条款等,但这些与大数据相关的法律,还不能很好地避免和解决实际问题,目前看实际效果还不明显。因此不管是从管理入手也好,还是抓立法,都需要进行很深入的研究。
数据立法要研究和解决以下问题:(1)数据的所有权问题;(2)个人隐私的保护问题;(3)数据共享的问题,谁来决定数据可以让谁共享,如何确定可共享范围等;(4)数据价值的分析与分级管理与保护的问题;(5)数据质量的管理(包括数据的真实性、准确性、完整性和可追溯性,防止数据被篡改);(6)数据归档与保存时间的问题等。有很多数据是需要长期保存的,但是实际应用中,由于空间有限就只能做短期保存。我认为很多数据都应该长期保存,如果短期保存不利于破案。
以上是我在实际工作中发现和接触到一些问题,我在研究我国的信息化发展的过程中进行了长期的跟踪,发现了技术、管理方面存在的一些问题,觉得有必要对这些问题开展进一步的研究。大数据安全管理问题不解决,也不利于大数据应用的发展。要变亡羊补牢为未雨绸缪,要有充分的准备应对各种可能出现的问题。
说到数据立法,这里我还要讲一段历史小故事。2017年11月12日是华罗庚先生诞辰107周年纪念日。华老在80年代写过一篇文章,当时他关心的是数据质量问题。他是说如果数据是假的,怎么能做统筹,怎么正确地作出决策的问题。数据不真实,制定的计划与作出的决策就可能是错的,所以他在30多年前就在考虑数据立法的问题,提出要通过数据立法来保证数据的质量。这个思想是非常有前瞻性的,体现了一个科学大家的远见与洞察力。
华罗庚说:"回顾过去十多年的实践和体会,我觉得在管理上用得着的方法可以概括为三十六个字:
我们从前进行的工作,可以说是根据这三十六个字所做的最基本的尝试。"
说到大统筹,这个思想是第一重要的,具有现实意义。现在我们推进大数据、物联网、云计算的应用与发展都要有统筹规划与顶层设计,不能单点推进,互不关联。他还提到了几点,如质量、数据和建系统等这些事情在信息化的时代都是很重要的工作任务,是我们目前正在抓的和将要做的事情。我觉得大科学家很伟大,他早就洞察到了未来要面临的困难和要解决的问题。这些是在今天的沙龙上,我想把华老的这些思想提出来与大家分享的。
余德浩:我们听了两个非常精彩的报告,下面大家进行讨论。在座许多都是这一行的专家,请大家发表意见。
史玉凤:汶川大地震的时候我们有一个飞机撞山了,这个跟大数据有没有关系?
吕金虎:撞山跟飞机本身有关系,但是找它的时候我们卫星不行,我们***当时的卫星分辨率不够,天气不好的时候照不到地面的情况,采集不了信息。后来是武汉大学李德仁院士采集数据处理之后,找出了飞机出事的位置。最近我国发布了能够看到***机场跑道的卫星图片,说明对地的分辨率到米了,告诉***人我们***也有高分率的卫星数据了。
史玉凤:我们没有用***的GPS?
吕金虎:那个时候不会对你开放的,你技术不行。现在对你开放是因为技术行了,这是一个竞争的关系,你有能力了就给你开放,没有能力就不开放。
陈光亚:问吕教授的一个问题。以前接触大数据比较少,你报告里面提到算法的问题,是传统算法还是现在的智能算法?
吕金虎:用的是优化算法。比如说有100个站点,组网型不变,获取数据有一个要求,数据500