首页 > 思想政治 > 社会主义 >

对社会化媒体资源长期保存的思考(2)

作者:涂海丽唐晓波更新时间:2014-12-15 12:44 点击:次

【论文发表关健词】关键词：社会化媒体数字资源长期保存

【职称论文摘要】

3 对社会化媒体资源长期保存的思考 3.1 社会化媒体资源是否有必要长期保存社会化媒体资源是否有必要保存的问题是近年来数字资源长期保存研究领域争论的焦点之一。否定者认为，社会化媒体上的信息大多由用户生成，

　　3 对社会化媒体资源长期保存的思考
　　3.1 社会化媒体资源是否有必要长期保存
　　社会化媒体资源是否有必要保存的问题是近年来数字资源长期保存研究领域争论的焦点之一。否定者认为，社会化媒体上的信息大多由用户生成，主要是记录日常生活的琐事、所感、所想、对时事的评论，价值稀疏，信息质量良莠不齐，这些内容没有保存的必要。另外一些专题知识，分布广泛，更新速度快，而且重复、无序内容较多，很难收集和辨别源头，不易保存。研究机构Pearanalytics 对Twitter的抽样调查显示，有40.5%的信息没有价值[19]。MarketWatch 网站科技专栏作家John C. Dvorak总结了Twitter作为新闻源有报道片面、缺乏分析等七大不足[20]。《广州日报》载文称，微博已经从一个社交平台变成许多垃圾信息、八卦、恶搞甚至谣言的集散地[21]。央视《朝闻天下》栏目就曾报道了微博造假现象，引发了网民热议。一些信息技术专家也认为，博客随网络产生，保存意味着脱离产生背景，在保存条件不具备情况下，没有保存的必要[22]。
　　认为微博等社会化媒体资源有必要保存主要从其保存价值角度进行论证。历史学家Dan Snow认为，正是博客中记录的那些琐碎、枯燥的细节对几百年后的人们来说才意义非凡[23]。美国国会图书馆认为Twitter的价值主要有三：直接提供因Twitter引发的事件的第一手资料，可称为一个新闻聚合发布器，记录当时普通人的社会生活[24]。有人从“生产成本”降低这点推算有意愿写有价值微博的人是博客的4 倍，加上“消费成本”的降低，认为微博的传播力是博客的200 倍[25]。从这个意义上来说，由博客进化而来的微博应比博客具有更大的保存价值。西方国家对微博的研究价值已经有所认识，并已开展保存工作。OCLC 董事会主席Larry P. Alford称收集社会媒体信息是学术图书馆的使命之一[26]。我国学者徐宽、任河认为微博等社会化媒体上个人发布的信息由于是“未经证实、非正式、效用价值难确定”的信息，严格来讲不在长期保存之列，但部分内容对公众产生了很大影响，客观反映了一段历史时期的社会状态和现实，具有时代感，也可列为记录历史的内容，需要保存下来[27]。笔者同意这些观点，同时认为：社会化媒体资源作为一种凝聚了开发者和用户智慧的有用数字资源应该长期保存下来，正是因为社会化媒体的信息大多由用户生成，给予了用户极大自由表达对社会现象所持观点的权力，留下了一个时期内的历史记忆，虽然价值稀疏，但可以通过人工智能等手段发掘其重要价值，发现其运动规律，这将给企业更好了解顾客需求及学术研究提供重要情报;由于社会化媒体的开放性和易用性，一些重要新闻或热点可以第一时间在微博、微信等社会化媒体工具上实时发布和进展跟踪，便于找到信息发布的源头，为后续溯源及可能涉及的法律纠纷提供凭证;一些专题知识，如百科知识，正是由于在线用户的贡献，使得知识内容更加完善，也正是由于社会化媒体这个开放平台，使得知识共享和知识的获取变得更加容易，这些珍贵的资源不能因为难以保存而丢弃，而应该尽快解决保存的技术问题。总之，社会化媒体第一次将全人类聚集在一起去分享自己的知识，凝聚了全人类的智慧，对后世来说是一笔重要的数字文化遗产，但社会化媒体资源更新速度太快，生命周期极短，如果不对社会化媒体资源进行长期保存，将永无再现机会，对我们及后世造成无法弥补的缺憾。
　　3.2 是否所有的社会化媒体资源都要保存
　　保存是为今后的利用服务的，没有人能够回答现在网络上的哪些资源今后会用到，哪些资源绝对不会用到，这是摆在社会化媒体资源选择面前的一大难题。赵俊玲认为，网络信息资源缺少像文献出版过程中期刊社这样的一层过滤机制，一些重复的、低俗的、甚至垃圾信息充斥着网络，因此网络信息资源的保存不得不面临资源选择的问题[28]。网络资源保存研究的学者们对于保存哪些网页的问题各持见解，统一的认识是保存重要的网页，但是哪些网页重要本身不好判断。有的学者认为为了不遗漏重要信息，应该尽量多、大范围地保存各种形式网页。徐宽、任河提出数字资源保存的内容要具备客观性、科学性、原创性、代表性和可操作性的要求，并进一步将长期保存的网络资源划分为科学数据类、公共记录类、技术设计类、共用软件类、科学文献类、原创文体类和私人发布类七大类[27]。学者们的这些研究为社会化媒体资源的选择提供了很好的借鉴，笔者认为，社会化媒体资源中的技术资源属于技术设计类资源，应该全部保存，存在争议的是内容资源。对于在当时产生重大关注和影响的科学数据、事件、原创体、私人发布的内容资源，由于转载、复制、引用较多，应该去重后保存;但用户关注信息，如评论、跟帖等，由于体量大、价值稀疏，无需保存原始数据，利用现在成熟的情报分析技术对这些信息进行价值挖掘，如情感分析、舆情分析、可视化分析等，对处理之后的二次信息进行分类与其处理技术进行保存，并进行后续的数据监护、实时跟踪数据变化，根据社会化媒体信息的生命周期特性进行周期性抽取、统计、汇总等处理之后进行保存。另外，可以利用一些网络自动保存工具，按照规则要求，自动获取和选择要保存的资源。
　　3.3 社会化媒体资源由谁来保存
　　社会化媒体资源比其他数字资源更新速度更快，生命周期更短，量大异构，这就注定了其保存的难度，不是哪一个机构能够胜任的。纵观包含博客、微博等网络资源长期保存的实践，可将保存主体分为三种类型：国家层面、组织联盟和项目。国家层面一般由国家图书馆主导，广泛吸纳档案馆、博物馆、高校图书馆等机构参与。如澳大利亚国家图书馆启动的PANDORA项目2005年将博客纳入长期保存的范围[29];2010年，美国国会图书馆与Twitter签订协议，将Twitter平台上所有公开信息长期保存[30]。组织联盟是在国际或区域合作前提下，形成以图书馆为主，档案馆、文化遗产保存单位等机构参与的格局。像英国网页归档联盟UKWAC收集了几十个博客，但仅对部分时期的部分博客内容（不包括链接）归档[31];互联网档案馆（美国的非赢利性组织）已经保存了自1996 年以来的550 亿份包含部分博客的网页[17]。项目形式的保存主要对网络资源从保存策略、技术、方法等方面进行深入研究，一般都有基金支持，选取的保存对象体量有限，以提供研究实证数据为目的，提出的策略、方法等需要实践的检验。如美国NDIIPP资助的Web at risk项目开发了网页保存的WAS系统。目前，图书馆保存的大都是版权和产权明确的重要数字资源，而网络环境下，数字资源可以无限转载和复制，版权和产权不那么容易识别，因此图书馆数字资源保存模式在社会化媒体资源保存问题上受到新的挑战。另外收集社会化媒体资源的工作是一项非常复杂的工作，涉及到用户和网站，而用户只管信息发布不管保存，网站是技术提供和用户信息及用户发布信息的保存者，可以说是网络版权所有者，因此提供社会化媒体平台的企业参与社会化媒体资源的保存显得理所当然。但是，社会化媒体平台种类繁多，此起彼伏，谁能担此重任呢？目前法律法规没有明确界定，学术界也没有统一看法。以美国数字信息保存特别工作组为代表的责任主体学派和以澳大利亚学者为代表的非责任主体学派都认为保存信息的主要责任者之一应该是信息形成者[32]。但是博客等社会化媒体的信息形成者多数为个人，依赖个人对社会化媒体资源进行保存显然是不可行的。笔者认为，应该由图书馆为主导，吸纳那些对社会化媒体资源保存的重要性有足够的认识、有意向参与这项公益事业、数字保存技术有保障的网站平台运营商参加。这些企业提供的网络数据采集、云存储及智能搜索等技术，与现有的图书馆等已经开展数字资源保存的机构组成联盟，分类保存、分工协作，共同承担包含社会化媒体资源的网络资源的长期保存工作。 (责任编辑：论文发表网)转贴于八度论文发表网: http://www.8dulw.com(论文网__代写代发论文_论文发表_毕业论文_免费论文范文网_论文格式_广东论文网_广州论文网)