民乐音频数据库的安全建设研究

作者:李经 更新时间:2017-07-18 14:46 点击:
【论文发表关健词】民乐;元数据;安全
【职称论文摘要】
民乐数字化保护是当前非遗保护工作重点之一。论文提出了民乐音频元数据和分类与代码标准规范,并研究设计了安全、可靠的民乐音频数据库。

          中图分类号:TP392 文献标识码:A
1 引言
民乐是中华文明珍贵而不可或缺的重要部分,但随着文化和科技的高速发展,许多民乐因无人问津而面临失传。在数字技术高度发达的当下,许多机构开始应用安全、可靠的数字技术开展对民乐音频的采集、展示、传播。但是,也出现了资源分类混乱、服务标准较低等问题。本文探讨建立一套安全、可靠的民乐音频数据标准,设计搭建民乐音频数据库,为保存、展示和传播民乐提供有力的数据支撑。
2 民乐音频元数据与分类标准
民乐数字化保护过程中,音频采集元数据标准不统一的问题严重制约了民乐数字资源交流、共享和利用。在音视频采集标准方面,国外DVL[1]、ViDe[2]等项研究较有代表性,国内姚星星等[3]也做了一些通用性音视频标准的研究。以上研究内容,虽然较好地描述了普通音视频的物理属性和内容属性,但却无法满足民乐数字化保护和传播的具体需要,如民乐对演奏乐器、演奏人、演奏流派,以及传播过程中所需元数据的描述。因此,本文重点研究了适用于民乐音频资源的元数据和分类标准。
2.1 民乐音频资源元数据标准规范
本标准的研究旨在提供一个对民乐音频资源进行实体性描述的数据标准规范,为民乐音频资源的采集、传播以及数据库建设提供基础性标准。研究内容主要包括:(1)设定资源对象的范围,并对资源对象进行解析;(2)对所需著录的元数据信息做分类和定义描述;(3)结合当前已有的著录常规,对各元素的著录方式做进一步的推敲和设定。
本标准包含27个一级元数据和19个二级元数据,部分元数据如表1所示。
从表1中可以看出,民乐音频资源元数据为冗余型元素集合,使用者可以根据需要选择性的填写部分元数据。
2.2 民族乐器分类与代码标准规范
民族乐器是民乐资源采集和传播过程中的核心元数据,其分类和代码标准在学界尚无统一标准。我国民族乐器形式多样、种类繁多,最早见于《周礼·春宫》的“八音”法是按材质分类,分为“金、石、土、革、丝、木、匏、竹”,当下国内则习惯按照演奏的方式分为吹管、拉弦、弹拨、打击四大类。以上分类法虽然形象直观,但考虑到当前国际文化交流的通用性、实用性、广泛性,为了便于民乐数字化保护和国际传播,本文通过四级编码规则将国际乐器分类通用的发声原理法和我国传统演奏方式法相结合,进行了全新的分类和编码。
《民族器乐音频资源分类与代码标准规范》采用6位数字代码表示,代表四层含义。其中,第1位表示物理发声原理,按照国际惯例将民族乐器分为弦鸣、体鸣、膜鸣和气鸣四种;第2位则按照演奏形式分为弹拨、打击、弓拉、互击、唇震、嗓震等;第3位则按照乐器形状分为直腔、弯腔、钟形、饼形、异形等;第4-6位表示民族乐器名称,如图1所示。
通过以上分类和编码规则,本次研究对超过1000多种民族乐器进行了分类和编码。
3 民乐音频数据库存储架构设计
中国民樂传承千年,在不同时期出现的众多音乐大师和民间艺人,留下了为数众多的传世之作和经典曲目,同时在现当代也出现了众多通过改编、移植、吸收借鉴优秀传统曲目与探索现代作曲技法的新型作品。因此,民乐音频采集的场景多样,如黑胶、卡带转换,户外采风、录音棚录制等;民乐音频用户需求多样,如在线试听、下载播放,学术研究或教学需要等。根据以上情况,民乐音频数据库必然呈现音频资源总量大、单曲版本多、单个文件体量大等特点,如何提供安全、便捷、高效、保真的文件物理存储架构和逻辑存储架构成为本文研究重点。
3.1 民乐音频数据库物理存储架构设计
经测算,民乐音频数据库将录入曲目超10万,文件数量超30万。为便于音频资源的组织和管理,依据音频文件物理属性及应用场景不同,本研究将民乐音频划分为三类,分别为入库类、研究类和试听类:入库类指采集的原始音频,单个音频体量极大,主要用于资料存档,一般不对公众开放;研究类音频指磁带、黑胶等数字转化后形成的音频文件,通常用于理论研究和高端鉴赏,对专家、学者以及民乐爱好者开放,单个音频体量较大,对数据库访问速度要求较高;试听类应用于民乐宣传推广,对社会公众开放,文件体量较小但数量大,对数据库资源组织和管理挑战较大。
不难发现,民乐音频的分类,与数据的冷热关系密切。传统数据库单一存储架构在数据安全、响应时间、存储成本等方面存在不足,难以满足民乐音频数据库文件分类管理的需求,因此,本研究采用磁盘阵列与光盘库、带库混合的存储策略对音频数据分级存储,使用存储区域网络(SAN)保障应用与存储之间的数据交互[4],采用兼顾容灾性和运维便利性的同城异地磁盘阵列进行数据备份。
采用分级存储策略,即使用光盘库、带库存储入库类以及部分研究类的冷数据,使用磁盘阵列存储研究类和全部试听类访问需求较大的热数据,克服了单一形式组织管理数据资源对系统性能造成极大挑战,同时节省了大量的硬件资源。
为了解决存储和应用之间的资源压力,本研究采用存储区域网络架构(SAN),通过光纤交换机连接各存储阵列与服务器主机,通过IP网络划分出存储私网,使服务器可以独立、安全访问私有网络存储的策略。相比较其他网络存储技术而言,SAN提供了更高的数据设备性能连接、更高的数据存储速度、更高的可靠性,增加了对存储系统的冗余连接,便于系统存储的容量调节、资源调配。
3.2 民乐音频数据库逻辑存储架构设计
基于民乐音频元数据,本研究收录的民乐音频资源由两部分内容构成:一是音频、图片等非结构化数据;二是用于描述民乐基本属性的结构化数据,因此,本研究采用HDFS与LUCENE相结合的逻辑存储架构。

      相比于集中式文件系统,HDFS容错性更高,MAP和REDUCE的过程可以有效降低系统对硬件设备的性能要求,通过高并发的方式可以大幅度提高应用在大数据集上的计算效果。同时,分布式架构可以及时满足数据库的扩容需求,易于扩充节点,调整存储。 

  LUCENE作为APACHE基金会开源的全文搜索引擎项目,与HDFS兼容性较强。 与关系型数据库相比,LUCENE在大规模文本检索方面表现突出。民乐音频数据库整理了百万级的元数据记录,其中,包含了大量段落级描述性文本数据。应用传统的关系型数据库,很难及时响应检索任务,尤其在复合检索时,响应时间会随着表操作的复杂度呈指数增长,严重影响民乐音频数据库的整体性能和用户体验。LUCENE采用Key-vzlue(键值对)的形式存储记录,通过建立倒排索引,可以在系统发布检索任务时,大幅缩小检索范围,提高检索效率。 (责任编辑:论文发表网)转贴于八度论文发表网: http://www.8dulw.com(论文网__代写代发论文_论文发表_毕业论文_免费论文范文网_论文格式_广东论文网_广州论文网)

发表评论
本站模板均经测试成功,请放心下载,遇到任何问题或者需要购买付费论文请联系本站。
表情:
验证码:点击我更换图片