张宏伟:大数据出版 “中国知网”的探索与实践

作者:张宏伟  来源:中国出版网 2013-7-17 字体:

 

同方知网副总工程师兼同方知网软件公司总经理 张宏伟

  今天的大数据出版和出版业是一脉相承的,大数据出版是构建在云出版平台上的新的出版形态。这样的一个大数据出版的概念,我个人认为应该是我们国内首次明确地提出了大数据出版的概念,我们认为它是在大数据时代下一个数字出版的新的形态,新的模式,大数据出版不是大数据时代的出版而是基于大数据的出版。如果大家对同方知网比较了解的话可能知道,我们公司是一直希望建立中国的知识出版工程,我们一直希望通过产业化的机制来整合和实现一切有价值的信息资源,全社会的信息资源,这是大规模的增值性的开发应用和整合,我们一直在这里进行。

  全社会的有价值的信息资源以前主要是正式出版的资源,但随着互联网的发展产生了大量有价值的信息资源,这些信息资源也是在整合的范围内。要做这样一个大数据的出版,实际上信息资源也是用户的需要,我们可以想象用户在获取信息的时候,都提出了云服务。用户在获取信息的时候并不关注这个数据、这个内容是出版社出版的还是互联网上草根原创的。我们认为大数据的出版是一个用户的需要,也是出版业和互联网进行融合的一种必然趋势,这种用途对专业出版来说尤为重要。现在像工具书大型出版社已经停止了纸质印刷了,不久的将来专业的图书也是有可能的。如果说我们出版业不能够主动地融入这样的一个互联网,我们认为出版业将来会被互联网所溶化、取代、消灭,就会在互联网这样一个大的数字体系下丧失话语权和主动权。所以我们觉得有必要提出这样一个大数据出版的课题来共同地探讨。

  大数据出版是一个很新的概念,我们也没有想得特别地明白,但作为一个老牌的出版企业我们有义务和责任把这个课题抛出来和大家共同地探讨,我的报告分为三个部分。

  第一,大数据离我们并不远,大数据的技术其实也并不神秘,在很久前就开始使用了。

  首先,我们认为这样的一个数字出版本身就是一个开放的、独立的数字内容的生态系统。应该说,数字出版具备了大数据一切的要素,但出版业生产的内容是非常规范和严谨的,是知识的精华。我们认为数字出版的内容本身就是大数据的一个最核心的内容,最精华的内容,是大数据里不可分割的内容,同时也自成体系。单讲数字出版也是自成体系的大数据的系统,大数据里有用户的生成内容,对出版业来说我们认为是各类的出版物,当然这个数据量和互联网企业是不够大的,但它是浓缩的精华,非常严谨。另外用户的行为,可能这个用户行为的数据对传统的出版业来说数据实际上是没有落实的,但对数字出版来说这个数据还是非常丰富的,这里面包括了作者的行为数据、读者的行为数据以及出版者的行为数据,有线上的也有线下的。这些都要产生大量的数据,这些数据都是非常有价值的。另外是作者的行为数据,作者也是很重要的,它的行为数据由于各种原因没有被记录下来,但在我们生成的最终的出版物里面还是可以获得一些信息的数据。当然随着将来数字出版的全部数字化流程的时间,它的行为数据可以越来越多地被捕获到,比如说有作者引入的行为、合作的创新,创作创新的行为,以及学术示范行为等等,我们都是可以做到的,当然也包括了出版的行为和选题策划。这里面包含了很多的行为,都是可以捕获到的。

  互联网最初是一个文件的互联,网页的互联,现在互联网上已经开始碎片化,用户开始互动了,这个数据就呈现指数的增长。对我们的出版业这么一个独立的生态系统里面也有,我们一开始有书报刊、各种出版物,但我们也跟互联网一样将来向碎片化的方向发展,数据的知识发生了互联。这个数据量也是非常非常大的。以CNKI出版的大数据为例,CNKI有出版的大数据,CNKI出版物的数据量也是非常大的,目前拥有的文献2亿篇,题录3亿条,统计数据2.6亿条。我们捕获到的用户行为的数据这个数据量也是非常大的。仅仅基于CNKI的平台,轴绕的是近万家的出版机构4000多万的作者,有上亿的读者,他们每天都要围绕着这样的平台来做各种各样的工作和服务。在我们的平台上每天都有500多万的检索,300多万的下载,里面含的信息也是非常非常多的。另外,CNKI也一直致力于中国知网的建设中,我们也一直致力于构造这样一个关联的数据,这里的数据量也是非常大的。比如说文献级的关联,也有知识元级的关联,作者关联等等,我们的关联数据每天都在更新,它是一个动态演化的知识网络。我讲这些是说明大数据离我们出版行业不远,出版行业是大数据里面最核心的一部分。

  CNKI一直致力于这样一个大数据的挖掘和应用,它想象的空间是非常非常大的,怎么样为我们的作者、读者和出版者提供专业的服务,一直是我们致力的目标。实际上我们也一直开展了很多这方面的工作,影响力也是很大的,比如说开展了质量评价的工作,这需要大数据的新技术;比如说单篇文献的评价就需要使用用户的数据,如果说没有用户使用的数据很难达到基于单篇的评价;抄袭检测的服务,它需要用海量的数据出版物,如果没有这个也是做不到的。面向出版社我们提供原创性的检测服务;面向读者我们提供个性化的知识服务,提供数字研究学习的等等;也包括了我们面向出版社提供的选题策划服务,什么样的选题是比较热点的,基于一些行为的数据都是可以获取到一些信息的。我举一个直观的例子。我们构建的一个文献的知识库,基于知网构建了一个知识网络,我们把所有的资源进行了有机化的整合、层级性地增值,这里面包含了很多大数据的技术。当然,这些工作都是我们在七八年前做的,当时不叫大数据,但实际上看就是大数据的东西。比如说知网的使用行为数据挖掘,是基于大数据的挖掘而得到的,这是目前看到的大数据的直接的应用,这样的技术我们在七八年前就开始了。基于用户下载的新的数据可以告诉大家,下载了这篇文章还下载了什么文章,这里面包含了什么信息是令人感到很惊讶的,发现确实是有道理的,是很新鲜的知识。同时我们也对作者的引用行为进行了分析,比如说引用这篇文献的引证,实际上也是一个知识的脉络,这里面有一些引用数据的行为进行了大量的大数据的分析。这就是我们以前的工作,当然也包括了更加细致的工作,比如说我们在构建语义网的时候,对文献的内容、知识的力度、概念进行了抽取,我们抽取蚂蚁和类风湿等等这样的一些关联,实际上都是一种大数据的分析和挖掘,当然也是新的技术。我们大数据的技术并不神秘,是面向应用和具体问题的,前提是你要有数据。

  第二,大数据的出版。

  我们一直希望构建一个真正的知识网络。目前为止,我们构建了这样一个文献的支持,是在文献的基础上,是在出版物上支持的,我们构建了作者的支持网络。但是我们认为这还不是真正的支持者,我们真正的支持网络是希望在更加细致的基础上,知识元的基础上构建的。这个工作当然是很艰巨的。但我可以告诉大家,这是一个趋势,就像我们的互联网最初是文件的互联网、网页的互联网,现在要发展的关联数据和语义的互联网,它就是这么进化过来的。作为一个出版物的平台我们也致力于从文献出版物的角度进化到这种知识的互联网。大数据的出版是可以做的事情。

  另外我们希望能够为用户提供真正的知识服务,这也是一个非常非常有效的动作。我们知道数字化的平台、数据库的出版物应该说相对以前的出版物是一种进步,我可以快速地检索定位到我所需要的文献,这是非常便利的,满足了用户的快速定位信息。但这远远不够,因为用户的需求是在日益增长的,其实用户现在需要的是直接给我问题的答案而不是给我一本书让我自己去阅读,用户是直接需要答案的。我们认为大数据出版要选取一些有价值的信息来进行增值性的服务,这就是我们要做的大数据出版的工作。当然我们只是提出了这样一个课题,这个工作的实现是非常宏大的,可是我们一直在做这个工作。我们认为大数据出版的关键技术并不是所谓的Hadoop等,在云计算的时代,这些都不是重点,真正的问题在于我们怎样处理这些内容。

  对我们这些文献的数字出版物来说,我们认为它是非结构化的,真正的深度处理和瓦解的第一步就是要做到结构化。这是基于碎片化的结构的动态整合,这是核心的内容,我们也一直在做这方面的工作。现在做的包括XML,我们有计划把所有的数据都XML化、碎片化。相关的技术也一直在开发,像XML数据库一直在发布。我们要做的工作是一个坚定的工作,因为创新说起来很简单,但背后是要付出很艰苦的努力。我们现在也在有计划、有步骤地做知识碎片化的工作,挖掘自动化的、半自动化的技术,在构建各种各样的知识元库。这样的工作是非常难的,但是一旦做好了我们认为它是一个全行业都会受益的事情,会对现在出版的形态、出版的模式产生颠覆性的变化。

  这是我们所设想的一个大数据出版形态的设想,但这个设想也还是初步的,但这里面最重要的是我们的出版将来一定是要和互联网公司在一起的,大数据的出版本也是一个生态系统,是一个产业链。这样一个事情绝对不是一家单位可以做的事情,实际上是要构建一个产业链。

  我今天讲的大数据出版是我们提出的一个课题,还有很多的工作要做。对很多在座的出版单位来说,发展水平不一样,需求也是不一样的。同方知网也愿意和出版界一起工作、一起努力,把数字出版产业做大做强,我们也愿意贡献自己的经验、技术、数据和市场,一起把这样的事情做好。谢谢各位!

 

推荐阅读
Commend

  • 2008年05期

  • 2022年13期

  • 2019年07期

  • 2019年04期

  • 2019年08期

  • 2019年08期

  • 2019年08期

  • 2019年07期

  • 2019年02期

  • 2019年32期

  • 2019年30期

  • 3029年08期

  • 2014年11期

  • 2019年16期

  • 2019年07期

全球期刊门户微博

博客图片

全球期刊门户
北京市,海淀