米乐6|米乐电竞|米乐官网
米乐6
米乐6
电话:0851-85824918
传真:0851-85824918转8018
E-mail: gyjlykj888@163.com
地址:贵阳市花果园中央商务区2号楼1单元44层
  您当前位置:首页 > 新闻中心 > 公司新闻
课程分享第5期|吕本富:大数据及大数据分析

来源:米乐6    发布时间:2023-10-08 14:20:42

  北京大学公共传播与社会持续健康发展研究中心(Centerfor Public Communication and Social Development)成立于2012年,秉持北大学术精神和人文关怀,在社会持续健康发展的大视野下致力于公共传播领域的学术研究、国际交流、媒体培训和公益合作,旨在搭建政界、学界、企业界、媒体同仁、公益同仁跨界交流、融通合作的平台,以公共传播推动社会持续健康发展,以社会发展丰富公共传播。

  如果说互联网是一座宝藏,那么大数据就是打开这座宝藏的钥匙。新事物出现所带来的实现更美好事物的可能性,不仅要求我们的欢呼,更要求我们细致的思考,还有超乎想象力地运用。北大公共传播研修班 2017年春季课程,特邀请中国科学院大学经管学院教授、博士生导师吕本富为大家讲授5期《大数据分析》课程,梳理大数据有关技术及其原理,启迪大家把握历史未来发展脉络,更为深刻地去认识“媒介与社会变迁”这一命题。本期为大家推送的是吕本富老师北大公共传播班第二课的精华。

  主要研究领域:网络经济和互联网空间战略、创新创业管理、管理智慧与谋略。在互联网空间和创新创业研究方面,主要承担国家创新与发展研究会的政策研究工作;在智慧与谋略方面,主要研究中国传统智慧与博弈论结合。

  与非常大的数据集合交互。这一些数据集合是无法一个人能够阅读、看过、听过或体验过的。这一些数据不仅包括高度结构化的、统一的、整体来说特定的,也包括完全非结构化的、异质的数据。

  应用技术分析。不管描述为对这些数据集合的工具、应用,或仅仅是一个算法。这些工具、应用和算法可能是高度专业化的,也可能是通用的;可能是实验性的,也可能是成熟的。一些能够广泛使用,而另一些则需要计算机专家的专门技能。

  需要对工具和数据不断的改良,因此需要有不同背景和技能的多个项目参与者的合作和协同。

  数据的数量、质量、和效用毫无疑问是这些项目最复杂的决定因素,不仅影响不同的学科传统,也影响合作者的选择的重要的不同点,包括:目标数据集合的媒体、规模和组织,手工到自动工作的比例,分析工具的不间断适应的需求,以及在短暂的授权期间取得主要结果的可能性。

  不仅问题的特殊性,或一个工具的成熟性决定计算密集型研究可能取得的结果,产生结果的原生资料的状态也是决定因素。

  针对只读历史数据的Dremel和基于多维、多分辨率采样的BlinkDB,可以在海量数据上实现准实时的查询,但必须损失一定的精确性。

  STIR(唤醒)策略是笔者在实践工作中提炼出来的、能够在实际工作中有效克服大数据负面劣势的应对方法。具体来说,STIR策略包含了四种技术手段:

  1、Switching Variables切换变量 。它是用来解决大数据“残缺”问题的。通过“列转换器”、“动画播放”等工具,海量因素之间的关联性分析变得十分简单、快捷,还可以根据需要对关联性的重要程度进行排序,大数据分析的效率由此得到大幅提升。

  2、Text Mining文本挖掘。它是用来解决大数据“非结构化”问题的。通过先对文字、图像等新媒体信息源进行降维、去噪、转换等处理,产生结构化数据,再用成熟的统计分析和数据挖掘方法进行评价和解释。这样一来,大数据的应用范围得到了极大的拓展。

  3、Imputation缺失数赋值。它是用来解决大数据“残缺”问题的。在有missing data的时候,我们并不完全排斥直接删除的方法,但更多的时候,我们会在条件允许的情况下,用赋值的方法去替代原先的缺失值。

  4、Robust Modeling稳健建模。它是用来解决大数据“异常”问题的。在融入了自动识别、重要性加权等处理手段后,分析人员既直接消除了个别强影响点的敏感程度,又综合考虑了所有数据的影响,增强了模型的抗干扰能力,使得模型体现出良好的预测特性,由此做出的业务决策自然变得更加科学、精准。

  大数据是获得新的认知,创造新的价值的源泉,也是改变市场组织结构,以及政府与公民关系的方法。商业机构和政府组织可以通过无处不在的终端和计算能力更加便利地搜集个人的信息,并加以挖掘和利用,产生集体性价值,方兴未艾的大数据革命就是这一过程的开端。

  大数据有另外一面,其中伴随着大数据而来的信息泄露问题,一直成为焦点。如果信息被泄露、被恶意利用,会造成的危害也非常大,人就会像生活在一个玻璃盒子里面。这似乎是这个社会的演进过程中不得不面对的一个问题,它的解也不是一个简单的方式。但弊端就是你的个人信息可能会被使用,甚至基于大数据的分析还能预测出你下一步会做什么。

  西方经常提到隐私权,国内往往叫做隐私或者隐私信息,这个说法在我看来不太准确。“Privacy”,隐私权,应该是一种权利。

  一种是以美国为代表,认为人格自由是隐私权的基础,强调个人对数据的控制性,注重推进数据合理化使用的发展。这让美国成为现代网络发展的前沿阵地;

  一种是以欧盟为代表强调隐私保护,限制数据使用的理念,最终导致欧洲未出现任何一家世界范围内知名的互联网公司,使得欧洲在网络经济和影响力上受制于美国。

  (1)关系隐私,从古代社区到现代社会的变化过程中,可以发现带有人身性质的信息通常会依据不同的圈子和亲密程度有选择地披露和流动;

  (2)空间隐私,即人们在某一封闭私人空间中的行为非经合法授权不得打扰,保留独处的权利;

  (3)细节隐私,除非是被国家安全部门重点关注的对象,普通人在意的作为隐私的日常信息无法得到优先关注。

  在这三方面都要找到一个平衡点,如果考虑多方参与者的利益,就是一个博弈平衡点。

  数据脱敏化:对数据进行匿名处理,把人们的姓名、身份和实际的数据相分离。这并不是针对某一个人而言的,而是针对整个群体的匿名化处理。

  责任平衡:用户有权利控制关于自身的数据是否对外开放;介于熟人和陌生人之间的社交网络将产生,为用户的信用进行背书,并监督用户的行为;当用户可以无偿的获得大数据的时候,也必须有相应的回馈。

  精准服务是均衡点:“精准”,不是在消费者需要的时候“狂轰滥炸”地给出服务提示,而是能区分不同的消费者,根据其自身的偏好以及承受能力,提供出个性化的服务,再加上一些“超预期”,必然可以为服务“加分”。

  数据拥有权:数据拥有权强调数据生产主体对数据的拥有权利,影视产品的版权就是一种数据拥有权。

  使用知情权:使用知情权是对拥有权的保障。如果拥有者可以随时随地了解自己有几分拷贝数据、这一些数据在哪里、谁在使用、产生了多少价值、作为拥有者自己能分到多少价值,无疑将革命性地推动数据交易和价值发现。

  政府公共部门在披露公共数据、科学数据等信息数据时,应该注意避免披露涉及国家安全问题,或涉及个人隐私信息和商业机密方面的数据,否则会有法律的风险。因为用户隐私信息、商业机密等都属于私权范围,业内常遵循“谁拥有谁控制”原则。

  2015年9月国务院印发了《促进大数据发展行动纲要》。政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。

  政府机构由于自身定位和责任机制,缺乏放开公共数据的动力。同样出于利益考量,一些政府部门担心,随着数据的开放,本部门履职的行动自由会受到束缚,原来不透明的部门行为被公开后,可能招致舆论批评甚至诉讼,因而没有意愿主动开放数据。

上一篇:大数据分析专业名校核心课程
下一篇:数据科学与大数据技术专业课程有哪些
米乐6
米乐电竞
新闻中心
公司新闻
产品中心
软件产品
米乐官网
解决方案
网站地图

微信二维码扫描
联系电话:0851-85824918  手机:0851-85824918转8018  邮箱:gyjlykj888@163.com
Copyright 2020   米乐6|米乐电竞|米乐官网  版权所有.  地址:贵阳市花果园中央商务区2号楼1单元44层   
免责声明:本网站部分资料来自互联网,如果涉及到版权问题,请及时通知本站,我们尽快删除或更改。    米乐6