中国世界中世纪史研究网   [考研指南]  [研究动态]  [佳篇共赏]  [资料汇编]  [学人风采]  [中国世界中世纪史学会概况] 
[共享资源]  [资源链接]  [学术焦点]  [新书评介]  [史学理论]  [资料大家译]  [雁过留声] 
当前位置:中国世界中世纪史研究网 - 研究动态 - 拥抱“大数据”对历史研究的挑战(上)

拥抱“大数据”对历史研究的挑战(上)
来源:易文网 作者:本站编辑 [日期:2018/10/10] 浏览:

拥抱“大数据”对历史研究的挑战

2018-5-30 15:24:40 来源:易文网

(代序)



梁启超先生在谈到史料对于史学发展的重要性时,把史料喻为“史之组织细胞”,认为“史料不具或不确,则无复史之可言”。傅斯年先生也强调,若要不断地使史学发展、层累,就必须不断地收集资料、挖掘资料。近代以来,研究者一直孜孜不倦地扩充史料来源,扩大研究范围,“上穷碧落下黄泉,动手动脚找材料”即体现了对获取研究史料的重视。随着科技的进步,尤其大数据时代的来临,史料的获取、存储、交流、再生产等诸多环节发生深刻变化,一个突出的表现就是数据库的蓬勃发展。英国著名学者魏根深(Endymion Wilkinson)在其著作《中国历史研究手册》(以下简称《手册》)的弁言中介绍了《手册》的四个重要目标,其中之一就是“突出利用电子资源对中国历史资料进行传播、归类和分析,这些资料上起商代甲骨文下到最近的中外学术研究”,还提到《手册》选择了225个数据库(此外还有数以百计的原始资料及参考著作的电子版),并强调“中国历史和考古研究领域在过去的十年中飞速变化,数据化亦改变了人们研究的方法,本书试图跟上这些新的发展”。

就国内而言,2010年以来,仅国家社科基金支持的、以数据库建设为核心的文史研究项目就不下70项,这两年来增长尤甚。资料的数字化改变了历史研究的资料来源,数字资源的采集、加工和处理对研究成果的取得作用日益显著,如何理解历史学在大数据时代下的发展就成了一个重要的课题。

首先,我们来回顾一下国内史学类数据库的发展历程。尽管数据库技术滥觞于20世纪60年代末,但是直到80年代,国内的人文学科才逐渐开展数据库的建设工作。就史学类数据库的建设来看,迄今大体可以分为三个阶段:

第一阶段主要为数字化制作、整理阶段,重点在于资料的输入与整理,制作成电子光盘。如在1985年,台湾“中研院”历史语言研究所便启动了“汉籍电子文献资料库”的建设工作,内容包括“二十五史”“十三经”以及超过2000万字的台湾史料、1000万字的大正藏、道藏、清代经世文编等大型类书、丛书,收入典籍达460多种,计4亿多字。此阶段使用的范围更多限于电脑单机,改变了知识的存储形式,体现了携带方便、易于查询等优势,完成了从旧时的汗牛充栋到如今大容量可移动介质的重大转变。

第二阶段始于20世纪90年代中后期,在互联网兴起后,各类数据库的建设和上线层出不穷。如中国知网、超星图书馆的上线为论文和图书的查找提供了巨大的便利。就专业的历史类数据库的开发而言,尤为突出的是北京爱如生公司研发制作的“中国基本古籍库”,该库分4个子库、20个大类、100个细目,精选了先秦至民国的历代重要典籍,总计收书1万余种,全文超过17亿字。其他一些主要的全文数据库,如书同文古籍数据库、中华经典古籍库也广受欢迎。全文数据库比较直观,就像把一本纸书变成电子文本,然后我们在这里面抓取所需文本,其中原理跟搜索引擎颇为类似,而且也不需要什么培训就可以上手使用。此外还有一些专题类型的数据库,如中国金石总录数据库、东方杂志全文数据库等也已陆续上线。除了相对商业化的文献数字化机构,还有各公共图书馆、高等院校等都有为数不少的古典文献数据库,如中国国家图书馆的电子文献也比较丰富,有数字善本、甲骨世界、碑帖菁华、敦煌遗珍、西夏文碎金等经典文库,另有其他各色常见的古典文献。

 

    第三阶段主要为关系性数据库的出现和建设。关系性数据库注重利用数据库内在内容再发现并分析文本间的关系,帮助研究者理解人物、文献的脉络,这是近年来人文研究类数据库的发展趋向。目前在史学界有较大影响力的是哈佛大学燕京学社、台湾“中研院”史语所、北京大学中古史研究中心合作的“中国历代人物传记资料库”(China Biographical Database Project,简称CBDB)。CBDB早在20世纪80年代由美国宾州大学郝若贝教授(Robert Hartwell)开始建立,1996年郝教授去世,将其捐赠给哈佛大学燕京学社。2005年,上述三家单位开始共同开发,截至2016年5月数据库共收录约370726人的传记资料。CBDB相较于一些企业开发的全文数据库来说,在数据结构上更加复杂、精细,可以进行地理空间、社会网络分析、群体划分、统计分析等研究,但需要多种软件的结合使用(如QGIS、PAJEK等),甚至需要进行专门培训。由项洁教授领导、台湾大学数位人文研究中心开发的台湾数字历史图书馆(简称THDL)也是此方面的杰出代表。项洁、陈诗沛、杜协昌:《台湾古契书全文资料库的建置》,第三届台湾古文书与历史研究学术研讨会,逢甲大学历史与文物管理研究所,2009年3月14日,第1—19页。该数据库主要收录台湾地区契约文书及台湾总督府档案,台湾大学数字人文研究中心并不拥有这些资料的版权,而是以授权复制或者录入为电子文本的形式建立这一数据库的知识产权。THDL中提供词频分析、上下手契关联分析、人物相关性分析等不同功能,还可以部分地实现契约空间分布的展示。THDL提出了数据库建设的理念,即数据库的主要功能是为研究者提供研究环境并帮助研究者发现问题,而非仅仅是储存与检索。涂丰恩、杜协昌、陈诗沛、何浩洋、项洁:《当资讯科技遇到史料——台湾历史数位图书馆中的未解问题》,载项洁:《数位人文研究的新视野:基础与想象》,台湾大学出版中心2011年版,第21—44页;项洁、翁稷安:《数位人文和历史研究》,载《数位人文在历史学研究的应用》,台湾大学出版中心2011年版,第11—20页。另外,上海交通大学建设的《中国地方历史文献数据库》基于针对性设计的元数据结构提供交叉导航、数据统计等多种功能,这些功能不仅可以帮助研究者找到自己所需的文献,更可能帮助研究者发现新的研究议题。

    可以预见的是,未来的数据库肯定会朝着开放性、共享性、可视化方向去发展。大规模的数据化历史资料平台建设,为整个学术界提供了更丰富灵活而有效的研究资源,而且随着海量的图书、报纸、期刊、照片、绘本、乐曲、视频等人文资料的数字化,更多的专题性数据库或以独立的形式或以合作的方式在如火如荼的建设中,诸如华东师范大学沈志华教授主导的关于冷战档案数据库的建设、上海大学陶飞亚教授主导的关于汉语基督教书目文献数据库的建设都各有特色,值得关注。它们不仅是历史研究的重要基础,也越来越被其他相关学科所看重。

    二

    各种类型数据库的广泛使用,极大突破了研究者获取资料的局限性,带来了研究上的一些显著变化。关于数据库的使用对历史研究的影响从2011年曹树基就开始涉及,见曹树基《数据库:历史研究的社会科学化》一文,其中讨论了数据库使历史研究社会科学化的问题,参见《中国社会科学学术前沿(2010—2011)》,社会科学文献出版社2011年版,第171—177页。另梁晨、董浩、李中清的《量化数据库与历史研究》一文也涉及了量化数据库对历史研究的改变,参见《历史研究》2015年第2期。仅从材料的获取角度而言,各类数据库的使用令各种类型史料得以进入研究视野,接近“竭泽而渔”的地步,同时也扩展了史学研究的材料范围,方便了多时段、多角度的研究。研究人员足不出户就可以查到各地的藏书状况及学习资源,国内外开放的网络数据资源使知识获取更为便捷迅速,这在十多年前几乎是无法想象的。

 

    尽管各类数据库的建设和使用如火如荼,但就目前而言,国内文史类相关数据库仍然存在诸多不足。首先,从材料的把握度上看,以“大数据”为代表的数据资源来源更加广泛,信息质量参差不齐。文献数字化也是各自为政,由于版权及产权的原因,数字化文献分散于不同公司、不同研究机构中,而且重复建设的现象严重,不但功能单一,数据往往只是某个类别、某一专题,数据分散以致难以实现多元化及整体化的研究对比与分析。如《申报》电子版,至少存在湖南青苹果数据公司版、北京爱如生公司版和台湾中国近代报刊数据库等三种检索系统。数字化古籍文献整合势在必行,打破数据库建设“小、散、乱”杜晓勤:《国学大数据时代来了》,《光明日报》2013年9月16日第15版。、各自为政的局面,已经形成学术界共识。其次,少数民族古籍数字化过程中也存在着诸多问题。我国历史为多民族共同造就,除了汉语材料之外,还保留了众多少数民族古籍,少数民族古籍的多样性和模式化与数字化过程之间存在矛盾,数字化过程的安全问题、字库不健全问题、著录困难等解决起来难度也颇大。另外,中文光学字符识别软件(Optical Character Recognition,OCR)的开发不够,中文识别软件的开发相对还是较为滞后,亟须技术创新和突破;国内古籍数据与境外汉籍数据库的打通融合;同时当前史学类数据库的建设存在重复化和个人市场开发不充分、学商合作不充分等一些问题,也亟待改进创新。

    尽管存在不足,但数据库建设对于人文学科愈益重要,数据、文献等信息加工方式的改变使得人文学科的建构知识流程与研究方式、方法也出现重大改变,可以说数据库的使用和发展正深刻地改变着史学研究。当然大数据的研究并非局限在数据库上面,数据库的使用仅仅是运用工具的一种变革,更多的改变将会体现在研究思路、方法乃至研究范式的变化上,因行文关系,在此重点谈论了数据库的建设。

    第一,体现在历史研究的内容。由于海量的资料涌现使得史学研究如同技术领域一样,需要不断地推进数据分析的能力。在诸多人文学科中,这种能力对注重文献的历史学研究而言尤为重要。面对大数据,研究者在处理分析数据的过程中将会充分发挥以往的研究模式与个性化、学术性的经验优势,以创造出不同于以往的认知对象的方式。这将大大拓展人对于数据材料的应用水平,为创新提供更多的可能。

    第二,从研究的主体形式来看,之前的史学研究更多是个人的工作,个体的活动和兴趣爱好的体现。而数据库的建构以及对庞大数据的处理,仅仅靠一个人很难完成,需要数名研究者形成合力才能做到,历史研究中的搭建史学学科团队现象日益突出。在香港科技大学李中清团队参与研究的南京大学梁晨就认为:“鉴于我们研究组的自身经验,组成由不同学科背景的研究成员密切互动的专项研究团队,实现跨学科合作,是一条切实可行和较有成效的道路。”梁晨、董浩:《必要与如何:基于历史资料的量化数据库构建与分析——以大学生学籍卡片资料为中心的讨论》,《社会》2015年第2期。这也是目前国外学者应对大数据变化的方式——注重团队工作。或许是传统思维的限制,国内人文学科的学术团队建设较弱,但也已开始迎头赶上,部分高校建立了学术研究中心,如北京大学成立量化历史研究所,以面对大数据所带来的史学新革命。

    第三,从历史研究的方法来看,量化史学的研究方兴未艾、持续发酵。定量方法的使用使得历史学的研究成果增加了定量的特征,增强了人文科学中的科学属性,这不仅使传统定性研究中的模糊认识得到量化验证而更趋于严谨和精确,而且还可以获得仅靠定性分析难以达到的认识,从而有效弥补了中国传统历史研究中定性分析不足的缺憾。运用计量史学方法还可以帮助研究者揭示历史规律,发现并预测历史趋势,明确强化史学研究的价值。

    第四,从历史学与其他学科的关系来看,由于研究内容、方法所带来的变化,各种人文社会科学的互相依赖和渗透趋势将日益强化,历史学不断汲取政治学、经济学、社会学等学科的相关知识和方法,其研究观念亦渗透进其他学科之中,将会有更多的交叉学科和边缘学科出现,学科之间的边界有可能日益模糊,同时也将为专业研究者提供更为广阔的空间。如最早提出“e考据”概念的台湾清华大学的黄一农教授的研究,黄教授以“e考据”的学术方法和学术态度不断开拓研究领域,从天文研究跨越到科学史、中西文明交流史乃至红学领地。

    第五,从历史书写的完成和传播来看,借助于各类数据库以及网络提供的材料,一批非职业历史学家异军突起,彻底打破了原有的史学生态,导致史学话语权向大众转移。无数个“当年明月”凭借着数字技术的便利,似乎正在发挥着比职业历史学家更大的影响力。朱绍杰:《专家解读国际历史科学大会:史学研究大变革》,http://culture.china.com/11170621/20150920/20429509_1.html。随着资料获取的日益快捷,可以预见历史的书写、传播方式将会更加多元化,出现更多的争议。

下一篇:第二十届全国史学理论研讨会在北京举行上一篇:舒健:拥抱“大数据”对历史研究的挑战(下)
评论留言交流 (仅限注册用户,请先注册或登录)

 
  【注意】 发表评论必需遵守以下条例:
 1. 尊重网上道德,遵守中华人民共和国各项有关法律法规
 2. 承担一切因您的行为直接或间接导致的民事或刑事责任
 3. 本站管理人员有权保留或删除其管辖留言中的任意内容
 4. 本站有权在网站内转载或引用您的评论
 5. 参与本评论即表明您已经阅读并接受上述条款
最新用户评论留言
点此查看更多评论
 
   最新文章
   热门文章

   相关文章