大数据技术对传播研究方法的影响与挑战
2020-05-11
来源:步旅网
大数据技术对传播研究方法的影响与挑战 ■ 苏林森 易伟芳 【内容摘要】 基于数据挖掘的大数据技术对传播研究产生了深刻的影响,本文在列举一些利用大数 据进行传播学研究的案例之后,比较传统传播学研究和应用数据挖掘技术进行传播学研究在研究目的、 手段、逻辑等方面存在的区别,论文最后还分析了用数据挖掘来分析传播资料存在的问题和挑战,包 括技术难题、隐私保护问题、数据低可信度与开放性、理论缺乏和网络受众代表性不足等问题,只有 突破这些不足,才能充分发挥大数据在传播学研究中的作用。 【关键词】 大数据;传播研究;媒介;影响;挑战 引言 多采取随机抽样或固定样本,以问卷调查、内容分析、实 近年来,基于数据挖掘的大数据技术在传播领域产生 验法等定量研究或深度访谈等定性研究方法为主,但传统 了一系列成功的应用,如美国The—Numbers.com公司拥有 调查成本越来越高,难度越来越大。互联网和社交媒体的 过去几十年美国所有商业电影在内的大约3000万条记录数 广泛使用使人的行为和信息取向通过网络反映出来,在技 据库,在好莱坞影片上映之前就能利用海量数据和特定算 术支持下,研究者通过对人们“电子踪迹”的识别、发掘 法预测出一部电影的票房 ;曾于2008年12月8日申请破 和利用,直接将网民心理和行为转化为可识别的海量数据。 产保护的芝加哥论坛报开发实时流量监测(Real—time Traffic 在社会多元化、受众个性化、传播渠道多样化等背景下, Metrics),实时监测网上新闻被点击、转发情况等信息,并 样本量有限的传统抽样研究难以捕捉到受众的细分信息, 生成图表,该报还开发“数码新闻港”(Digital Hub),根 如传统调查中年龄30岁以下、大学以上教育水平、年纯收 据受众需要在不同时间向不同介质的媒体上发送新闻提要 入10万元以上的城市女性观众就很少,甚至可能没有,而 或全文,从而使报纸有的放矢地满足受众,这些数字化战 这种细分研究因为大数据技术而成为可能,使数据挖掘技 略帮助该报于2012年12月31日宣布结束破产保护状态 ; 术成为传统传播研究的有益补充。 基于百度搜索量,中国人民大学舆论研究所提出和构建了 需要强调的是,所谓利用大数据进行传播学研究所进 社会暖度指数、社会舆情运行压力指数、社会幸福度指数 行的“普查”并不等同于人口普查中的“普查”,而是针 等指数,通过指数高低来“刻画”公众感知整个社会温暖 对某一特定对象或主题的数据抓取,如观看某一部影视剧 程度的“温度计”@……大数据技术使传播研究方法产生了 的观众数据、某一类微博用户数据等等,使用较多的“滚 深刻的改变,也存在亟待突破的问题。 雪球”式在线网民数据抓取得到的样本并非随机样本,其 质量并不一定比传统抽样得到的样本质量高,因此数据挖 二、大数据背景下传播学研究方法的转变 掘并不能代替传统抽样调查。 相对于以抽样调查为主要方法的传统传播学研究,利 2.研究的目的差异 用大数据进行传播学研究在方法上发生了革命性的变化, 传统的以抽样调查为典型研究方法的传播学研究,其 主要表现如下: 首要研究目的是探索因果关系,因果关系的成立需满足三 1.大数据的全体数据代替了抽样调查的随机样本 个必要条件:第一,时间的先后顺序,即先因后果;第二, 利用大数据进行传播学研究和传统的传播学研究最大 因果变量的共变关系,即原因变量出现变化时,结果变量 的区别是,利用大数据进行传播学研究可通过对海量数据 也要随之变化;第三,非虚假关系,即因果变量之间的关 的“普查”代替传统的“窥一斑见全豹”式的抽样。 系不是其他变量造成的。而大数据研究首先关注相关关系, 传统的传播学研究在测量受众态度、认知和行为时, 如网民的搜索量和电影票房之间并无因果逻辑关系,只存 现代传播2014年第11期(总第220期) 99 _l重量墨日 塾塑 搓企生查 在相关关系④。与此相适应,传统的传播学研究既可以用来 描述现状,也可以用以解释传播理论,或进行受众预测等, 而利用大数据来研究传播现象主要用于预测,更多用于商 业领域,也有少数基于大数据的传播学研究根据“大数据” 找到一些过去没有讨论或无法讨论的理论问题,如社交媒 息变得连贯增强了研究结果的可读性⑨。 过去结构性的数据收集成本、时间耗费比较多,大数 据来自于生活的自然流露,包括在生活中的购物行为、搜 索行为、表达行为等等,这些都反映着人的真实生活状态, 因此大数据的数据来源本身随着数字化记录、存储和传输 技术的日臻完善而变得非常丰富,而且其数据的采集几乎 体中的“议程设置”现象研究。 3.大数据下的传播学研究放弃对精确性的追求 从传统的传播研究所依赖的“小数据”到大数据的一 可以与信息的发生同步,获得数据信息的成本又很低 ,与 传统调查常介入研究对象不同,大数据分析多采用实时或 流处理,调查方式是非介入式的,相对客观,如google流 大变化就是后者放弃对精确性的追求。第一,由于传统抽 样调查样本量有限,调查人员需尽力保证收集到的每个样 本数据都是精确的,抽样调查的核心就是如何减少(但不 感趋势预测是分析全美几十亿条互联网检索关键词记录, 来监测流感是否爆发,其结果发布比美国疾病预防控制中 心(CDS)还早两周,这种快捷的结果预测更适合互联网 时代对传播研究的需要。 归纳起来,从研究方法看,利用大数据进行传播研究 可避免)错误的发生,在收集数据的时候,抽样调查专家 会采用种种策略来减少错误发生的概率,在数据分析之前, 也要对收集到的数据进行清理补充,这样会耗费大量的人 力;当采用大数据技术收集海量数据时,这种防错和纠错 和传统的传播研究如表1所示。 方法就行不通了,不仅因为这样耗费巨大,也由于保持大 规模数据收集标准的一致基本不太可能,而拥有更大数据 表1 传统传播研究和大数据传播研究方法差异 差异 依据样本 数据结构 数据复杂性 研究细分 立足点 量所能带来的商业价值远远超过耗费巨大才能增加的一点 精确性,如某一微博粉丝量很少的时候差异很大,这时需 显示精确数字,500个粉丝比400个粉丝多25%,但当微博 传统研究 随机样本 结构化数据 处理单一数据集 细分有限 探求因果关系 大数据研究 全体数据 非结构化数据为主 处理迭代增长的数据集 细分充分 探求相关关系 粉丝量很大时,只需显示近似值:121万,再显示1209989 则没有必要。但从统计推断看,采用传统概率抽样调查获 取的样本能减少抽样过程中的人为误差,样本的随机误差 是可知可控的,从而保证样本的代表性,而通过大数据采 样获取的数据往往是非概率抽样(如“滚雪球”抓取数 据),样本不具代表性,误差往往较大且无法估计; 第二,与传统结构化数据不同,互联网上只有5%的数 字资料是结构化的,其他95%的非结构化数字资料,如图 片、音频、视频等,很难像传统的传播学研究所主要依赖 的结构化或类结构化数据那样精确化,只有接受混杂性, 大数据挖掘分析才成为可能; 数据分析方式 结果呈现 集中式分析 可视化图表少 分布式分析 可视化图表多 精确性需求 数据分析速度 研究目的 追求精确性 批处理分析 描述、解释及预测 放弃精确性 实时或流处理 主要用于预测 研究逻辑 数据获取 归纳式 介入式 演绎式 非介入式 第三,根据“平均人”假设,数据越多,其平均值就 越倾向于固定的平均值,单个资料可能是错误的,但总体 三、利用大数据进行传播学研究面临的挑战 的平均数据倾向于定值,如针对某一类网民收入资料的数 字挖掘中,有的网民倾向于减小收入水平,而有的则可能 增大自己的收入水平,最后得到的平均值往往倾向于某一 接近实际的定值。 除上述差异外,由于研究手段的差异,传统传播研究 和利用大数据进行研究在结果展示上存显著差异,传统研 究结果多依赖图表来表示,而利用大数据进行传播研究的 结果较多采用可视化方式进行展示,信息可视化工具包括: 图表、图解、图形、表格、地图、动画和列表等,以可视 运用大数据技术进行传播学研究具有巨大的价值潜力, 但作为一项新近发展起来的技术,仍然存在一系列的问题 和挑战。 1.传播学研究的技术困境 传统的传播学研究采用抽样调查或访谈形式,研究所 依据的数据量有限,因而数据库相对比较简单,但基于大 数据进行传播学研究所依据的数据资料多来自互联网、新 兴社交媒体等所产生的大量非结构化数据(图1),如文 本、图片、HTML、音频/视频等,有价值的信息隐藏于这 化方式呈现的信息不再是枯燥、乏味的,让看似琐碎的信 100 些非结构化数据中,则需要专门软件进行分析。 现代传播2014年第l1期(总第220期) 麴塑盟垡 基企生查Il量圜与结构化数据相比,非结构化数据不方便用结构化数 3.数据源的开放性与数据可信度问题 据的二维数据库来表现(即每一列表示一个变量、每一行 表示一个记录),不利于检索、查询和存储,增加了数据丢 失的可能性,因此,数据多样化和急速膨胀所带来的数据 体量的巨大和数量格式的复杂对传统分析软件和存储提出 了很大挑战,大数据分析要求作出的实时或在线处理需求 目前,数据源的开放性不足,权威大数据源常常掌握 在政府及大公司手中,国家必须从制度和机制上给予保障, 这方面,美国的做法值得借鉴。2012年3月22日,美国耗 资2亿美元启动“大数据研究和发展计划”,把大数据研究 上升为国家意志 。与此同时,数据的质量也至关重要,但 也是传统数据仓库技术面临的挑战。与数据处理需求相伴 随的是对海量数据跟踪分析软件的研发,既需要高额成本, 也需要专门人才,这些都是极度匮乏的。 如果不注意甄别,数据也会欺骗。可信度问题首先表现在 伪造和刻意编造的虚假信息,如网上个人信息的质量和准 确性较低且多未经验证;其次为编造数据,如各类点评网 站的虚假评论等等;再次是数据失真,这既包括数据采集 中出现的人工干预导致数据失真,也包括数据更新后早期 数据不能反映真实情况 。对这种类型的数据收集、分析和 使用后产生的分析结果可能会导致错误的决策,出现网托、 网络水军、良莠不齐的网络公关公司等产生的数据更不可 信,甚至会得出错误的结论。 结构化数据 非结构化数据 4.大数据下传播学研究的代表性问题 基于数据挖掘的大数据研究数据多来自互联网或以互 图1 结构化数据与非结构化数据 2.传播研究中的隐私保护困境 联网为基础技术的各类终端,其存在较严重的问题,主要 表现在如下四方面: 大数据时代,个人的隐私越来越少,尤其是在社会化 第一,大数据分析所主要依据的网民行为并不能代表 媒体平台上,日常生活已经进入一种可见的、透明的、不 设防的生产状态中(刘涛,2014),这使得隐私保护越来越 受到挑战。大数据和智能软件相结合后将会产生巨大的数 据,比如网页、浏览习惯、传感器信号、智能手机位置跟 踪、基因信息等让个人隐私无处藏身。2013年6月5日, 美国中央情报局职员爱德华·斯诺登爆料,自2007年起, 全体受众行为。据中国互联网信息中心(CNNIC)《第33 次中国互联网络发展状况统计报告》显示,截止2013年12 月底,中国网民达6.18亿,但其普及率仅45.8%(CNNIC 《第34次中国互联网络发展状况统计报告》显示,截止 2014年6月底,中国网民达6.32亿,普及率46.9%),即 超过一半的人不能上网,这些人就被排除在大数据分析 之外; 美国情报机构启动“棱镜计划”(PRISM),在九家互联网 公司中进行数据挖掘,监控的种类包括信息电邮、即时消 息、视频、照片、语音聊天、视频会议、文件传输、社交 网络资料、登陆时间以及存储数据,“棱镜门”事件引起外 第二,更关键的是,非网民与网民之间存在较明显的 结构性差异,如6.18亿网民中,农村网民占28.6%,30岁 以下网民占57.2%,而据国家统计局的数据显示,截止 2013年底,全国人口中农村人口占近一半(46.27%),30 岁以下人口占41.24%,网民表现出明显的年轻化、城镇化 倾向; 界对美国国家安全局电子监控项目的顾虑,从而致使美国 云计算产业损失350亿美元 。 除了个人隐私泄露,基于数据挖掘获取的个人信息和 对人们状态和行为的预测让个人隐私更防不胜防,几乎任 何类型的数据就像人的指纹,都能用来识别创造它的人, 如通过分析用户的社交媒体信息,可以发现用户的年龄、 性别、消费习惯和兴趣爱好等“简历”信息;通过某个网 民所有网购记录,可以分析出该网民的婚姻状况,甚至可 以推测某位女性网民是否怀孕;通过网民在网上下载的电 第三,大数据分析的资料为活跃网民数据,而并不能 代表全体网民。网民分经常发帖、评论的活跃分子和沉默 的“潜水者”。Fu和Chau(2013)抽取了29998个新浪微 博用户,发现其中近六成(12774个用户,占57.4%)的 用户从未发过贴,在发过贴的用户中,近九成(86.9%) 的用户最近七天从未发过原创贴 ,虽然作者并没有进一步 研究活跃网民和“僵尸”用户的属性区别,但两类人群很 可能存在系统性差异,因此基于活跃网民的数据挖掘不能 代表全体受众; 第四,传统调查中经常出现的误差在大数据分析中同 影、用手机发出的定位信息,甚至是你被监控摄像所拍下 来的步态都可以作为识别依据“按图索骥”⑧,而且,被 记录并保存下来的受众信息往往在被加工后用作商业 推销。 现代传播2014年第l1期(总第220期) 101 -l量雪臣囝 塑 垡 搓企生查 样存在。以上误差属非抽样误差,基于数据挖掘的大数据 传播现象的主要研究者是传播学者和计算机学者,前者虽 分析常需要抽样,传统调查中的抽样误差就同样存在。如 对传统受众理论比较熟悉,但多忽视了理论验证或建构, 2013年7月9日,虎嗅网发布消息称新浪微博的活跃度已 只专注于用新颖的数据挖掘技术,后者往往对数据挖掘较 降至2011年初水平(图2),第二天(7月10日),数据提 熟悉,但缺乏传播学理论,难以对人类的传播规律进行深 供方知微公开向新浪致歉,称该数据“不足以说明整个 入的因果阐释。目前大数据在传播学中的应用也多以实践 微博平台的发展状况”。造成该偏差主要有三点抽样误差: 应用为主,这种重技术轻理论的传播研究在受众至上的传 (1)样本偏差:只分析部分粉丝大于1万的用户;(2)属 播业界或许有一定的商业价值,但对于传播学学术研究则 性缺失:只采集微博发布量数据,不含转发、评论等互动 不可取。传播学研究的最主要目的是发现人类传播行为的 数据;(3)终端迁移:主要采集Pc端的数据(新浪微博 规律,增加这方面的知识,一个有理论价值的传播研究, 用户移动端登陆比例已近80%)@。显然,这种非概率抽样 也一定是有应用价值的,反之,仅做实践应用而缺乏理论 会产生很大的误差,当然,目前仍缺乏理想的网络抽样方 视角的传播研究难以产生理论贡献。 法来解决网络抽样误差问题,在线分析常用的“滚雪球” 法获得的样本同样不具代表性。 四、结语 大数据技术给整个新闻传播领域带来了革命性的变 I1量. -。 . ̄i iii i iit i化,尤其是深刻地改变了传统的传播学研究方法和理念。 叩霸 穗 但如同任何新事物一样,基于大数据的传播研究并非一帆 ’ r…’ 1 风顺,在实际中是一把双刃剑,基于大数据的传播研究面 临新的技术、伦理、理论等挑战,同传统的传播学研究一 兰 莘莘 茎 釜 军 茎; ;; ; 茎; ; 样,基于大数据的传播研究只是一种工具和手段,只有趋 利避害,充分利用新技术拓展研究的领域和问题,发展新 图2新浪微博活跃度(2011—2013) 媒体环境下的传播研究理论,才能充分发挥大数据在传播 5.大数据分析存在明显重技术轻理论的现象 学研究中的价值。 基于大数据的传播学研究对理论的关注严重不足,明 (本文系北京交通大学基本科研业务费项目“互联网语境 显存在重数据轻理论、重相关轻因果、重挖掘轻阐释、重 下中国新闻报道议程设置功能研究”(项目编号:2014RC024) 软件轻开发的“四重四轻”现象。目前基于大数据来研究 的研究成果。) 注释: ①参见网站:http://www.the—numbers.tom/。 ②陶志强:Ck数据背景下的报纸转型样本——以芝加哥论坛报、佛山日报的大数据应用为例》,《新闻与写作》,2013年第9期。 ③喻国明:《呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大数据分析》,《编辑之友》,2013年第 5期。 ④关于这一点学术界存在较大的争议,部分学者认为相关关系在一定程度上反映了因果关系。 ⑤苏林森等:《大数据对新闻生产的影响》,《科研信息化技术与应用》,2014年第3期。 ⑥喻国明:《大数据方法与新闻传播创新:从理论定义到操作路线》,《江淮论坛》,2014年第4期。 ⑦匡文波:《新媒体理论与技术》,中国人民大学出版社2014年版,第226页。 ⑧ 《大数据时代,我们还有隐私吗?》,《中国计算机报》,2012年9月17日,http://teeh.163.eom/12/0917/12/ 8BJQL234000915BD.html。 ⑨喻长志:《大数据时代教育的可能转向》,《江淮论坛》,2013年第4期。 ⑩冯登国等:《大数据安全与隐私保护》,《计算机学报》,2013年第10期。 ⑩Fu,K.W.,&Chau,M.(2013).Reality checkfor the Chinese microblog space:A random sampling approach.PLOS ONE,8(3). ⑩《知微收回“新浪微博活跃度下滑”道歉称数据不全面》,《新京报》,2013年7月11日,http://news.xinhuanet.com/newmedia/ 2013—07/11/c116493351.htm。 (作者苏林森系北京交通大学语言与传播学院副教授;易伟芳系中国青年政治学院新闻传播系2012级硕士研究生) 现代传播2014年第ll期(总第220期)