电子书格式问题的本质

作者:百道新出版研究院  来源:百道网 2012-8-13 字体:

  【百道研究】本文选自“电子书格式标准的选择与解决方案”,系原文第一节。全文载于百道新出版研究院2011年7月发布的《百道数字出版咨询月报•基础版》。“电子书格式标准的选择与解决方案”解读了各种电子书格式的异同,优劣势以及如何转化的问题。本节选部分仅对电子书格式作刚要性的介绍。

  1、什么是电子书的格式问题

  简单地说,电子书格式是对使用电子书时的文件编码方式、内容组织结构的一种约定。电子书的格式不仅限定了图书内容的展现形式,更事关图书内容的存储和管理。

  在基于纸质印刷的传统出版模式下,书稿的电子文件也有所谓“格式”问题,但那只存在于原稿的处理和编辑加工阶段,经过印前处理及印刷之后,内容和载体结合成一个独立的、完整的产品,人人可以阅读。

  而电子书(或数字内容产品)则不同,由于读者的阅读总是需要借助阅读终端(包括阅读器、平板电脑、手机、电脑等),因此每一个电子书产品就都存在着与软硬件的对口和兼容问题。这就是电子书的格式问题。

  目前,由于阅读终端或平台的复杂性,产品类型的多元化,再加上原有排版系统的不统一,使得电子书格式的选择问题变得复杂。

  在传统出版模式下,图书的版式是展现给读者的阅读外观,但这种固化的外观除了对应纸质印刷,并不能满足其他多种形式的阅读平台,也不能满足数字阅读习惯中所包含的个性化需求,如自定义界面、简单交互等等。

  但如果简单地放弃固定版式(如采用纯文本格式),对阅读终端的适应性增强了,但因为降低了结构化水平和设计含量,从而不符合通过增进内容质量和艺术性提升读者阅读体验这一出版业的价值定位。更何况,对于复杂的图书产品(专业书类),内容元素中本身就有高度格式化的成分(如公式、复杂符号、图表等),不能随意改变。

  可见,格式要解决的问题,就是在这两者之间取得平衡。一个好的格式方案,应该能在保留版式的前提下,获取一定的柔性。

  目前,传统出版迈向数字出版的第一步(电子书1.0时代),可行的路径往往是:基于现有的成熟模式,给产品增加一种数字版形态,以迎合数字阅读终端的涌现。所以从现实角度看,我们面对的与其说是格式问题,不如说是格式的转换和对接问题。

  因此,在现有的书稿排版文件的基础上选取一种或几种格式标准进行转档,才是眼下需要决策的问题。

  2、电子书格式的划分

  内容类电子文件本来就有多种格式(针对多种不同的字处理或排版软件),这些格式伴随着电子书的起步和发展,并随着阅读终端的演变和发展,出现了多种格式并存的状况。有关通用标准还在逐步成熟的过程中,国内这方面更显落后。所以,这造成了使用中的电子书格式达到100余种之多。

  同时,一些格式还在衍生新的格式,例如亚马逊kindle的azw格式即是以mobi格式为基础,再加以修改衍生出来的。

  格式虽然繁杂,但我们如果从通用性的角度来看,可以将其简单地分为以下四类。

  第一类:基础格式。包括XML。

  以这种格式为数据基础,辅助相关工具或方法可以很容易的转换为其它电子书的格式,其特点为:与具体电子书格式无关,与展现形式无关、与平台、设备无关,可结构化存储内容,非专有格式,易于编写和修改,且具有良好的可扩展性和移植性;

  第二类:开放/通用格式。包括TXT、HTM、EPUB、PDF、DJVU等。

  具有高普及率和高认知度的格式,同时它的数据介绍方式透明,结构规则公开且可利用,这种格式的标准通常是由官方或国际性标准组织认定和维护的。

  第三类:半开放格式。代表性的有方正 CEBX。

  相对于私有格式而言,这种格式有一定开放性,但是出于商业利益以及对自身知识产权的保护等因素,会保留一定的核心技术。同时这种格式专利权、商业使用权都掌握在制定格式的机构手中,第三方的机构很难参与到完善格式的标准制定之中以及推出相关的免费或商业软件。

  第四类:私有格式(专用)。包括亚马逊的 azw、索尼的BBeB、超星的PDG等。

  这类格式必须在某种专用的阅读器或软件的支持下方可使用,同时它的数据介绍方式不透明,结构不公开且不可利用,这种格式通常是软件公司或某个机构为达到输出控制、版权保护、专利保护的目的而形成的。

  3、各类电子书格式的对比

  除了开放程度(通用度)方面的差别,我们还要知道这些格式在功能特色上的不同,因为这涉及到电子书产品所能实现的种种特性。下面我们以几种常见的电子书格式如 EPUB,PDF,CEBX,TXT,App(Application Program)等为例,来做一介绍。

  (1)重排效果

  对于一本电子书来说,很多时候是要兼顾不同的阅读终端的,所以电子书的重排效果(即对屏幕尺寸的自适应或称“流式”)的能力尤为重要。目前阅读器的尺寸从5寸到10寸屏不等,如果想在各种尺寸的阅读器上版式保持一致,那么就需要电子书的格式有很好的自适应性,在字号不变的情况下,可以自动随着屏幕的尺寸重排内容(增加或减少书的页数),而不是让读者手动调整字号来阅读。

  目前重排效果比较好且利用率较高的格式是EPUB。基于流式排版(而非版式排版)的pdf也可以自适应屏幕。扫描版的PDF和由排版文件直接转档的PDF重排效果最差。

  (2)版式的支持

  版式是用来描述书籍的开本、排式、版面、插图等信息的,在电子书的排版方式里可以分为“版式排版”和“流式排版”,它们的侧重点不同,如PDF更倾向于版式排版,EPUB更倾向于流式排版,我们来看看这两种排版方式的不同之处。

  版式排版:即传统排版,版面确认生成后是固定的,无法在阅读过程中随着缩放而自动重排(页宽、页高已锁定)。

  流式排版:与版式排版不同,此模式对文档里的文字图表进行特定的处理,保留原始的编辑元素,用户在阅读软件里不仅能看到编辑后的排版风格,还可以随着显示屏的大小和缩放比率的变化自适应地调整版面,以使行宽或页宽保持在一个视野内。

  (3)结构的支持

  结构包含书的元数据信息(如标题、作者、出版社、ISBN、出版时间)、目录、版权声明、封面、用户的书签、最后阅读位置的记录等信息。很多常见的文本格式本身不是为电子书而产生的(例如TXT),所以无法对这些信息进行结构化的存储,它们不能算是真正意义的电子书格式。缺少结构支持的电子书对于将来数字化管理、流通也会产生一定的障碍,这些书就如同没有条形码的纸质图书,无法用扫码器识别,只能靠人工辨别。对于读者而言,没有目录、封面,无法加书签、加标注也会造成很差的阅读体验。

  (4)数字版权管理(DRM)的支持

  DRM主要通过技术手段来保护电子书不被非法使用、传播、拷贝。这项技术通过对数字内容进行加密和附加使用规则对数字内容进行保护,其中,使用规则可以用来判断用户是否具有阅读全文、打印、拷贝等权限。

  PDF、EPUB等格式在定义标准时,就已经含有版权保护的接口规则,方便使用者,在此基础上进行版权保护的技术处理。不过目前的平台商基本都是用自己的加密算法,这就导致了即便格式相同也无法在不同的阅读器之间通用。例如,A、B两个网站都卖EPUB格式的电子书,我从A网站买的EPUB书,用B网站提供的支持EPUB格式的阅读器同样无法阅读。

  有些格式自身不支持DRM,如TXT、HTML等,对于这样的文件,目前的版权保护方式多采用对内容加壳加密的方法来实现,基本是靠阅读软件来解决加解密的问题,与格式无关。

  (5)交互功能、富媒体(音频、视频)的支持

  交互与富媒体功能目前多出现在3.0类型的电子书里,如苹果AppStore中的一些应用程序(App)类型的电子书,在输出音频和视频的同时也可以与读者直接进行互动。

  另外,今年(编注:指2011年)2月份EPUB 3发布的第一出版草案中提到,将会增加交互功能与富媒体的支持,这意味着将来的电子书会有更丰富的呈现形式。

  附:“电子书格式标准的选择与解决方案”全文概要:

  一、电子书格式问题的本质

  简单地说,电子书格式是对使用电子书时的文件编码方式、内容组织结构的一种约定。电子书的格式不仅限定了图书内容的展现形式,更事关图书内容的存储和管理。

  内容类电子文件本来就有多种格式(针对多种不同的字处理或排版软件),这些格式伴随着电子书的起步和发展,并随着阅读终端的演变和发展,出现了多种格式并存的状况。有关通用标准还在逐步成熟的过程中,国内这方面更显落后。所以,这造成了使用中的电子书格式达到100余种之多。

  二、格式选择以及XML及EPUB的优势

  具体来看,XML和EPUB是目前的首选。

  XML(Extensible Markup Language)即所谓“可扩展标记语言”。

  EPUB是基于XML的一个开放标准,由国际数字出版论坛(idpf)提出。。

  三、现存的技术解决方案

  方案一:利用软件转档。

  方案二:外包给转档公司来做。

  方案三:基于章节、段落的XML转档。

  方案四:基于主题的XML转档

  四、出版社的优选方案

  一般而言,少数有实力的大型出版机构可以考虑自行解决格式转换的技术问题。大多数出版机构,特别是中小出版机构,应优先考虑和使用外包,即和技术服务公司合作解决。

  五、数字出版的全流程方案

  (一)基于XML的全流程内容资源管理

  (二)后期的多渠道发布

  本报告完整版发布于2011年7月。

推荐阅读
Commend

  • 2008年05期

  • 2022年13期

  • 2020年12期

  • 2020年07期

  • 2021年01期

  • 2021年01期

  • 2021年02期

  • 2021年01期

  • 2019年02期

  • 2021年06期

  • 2021年05期

  • 3029年08期

  • 2014年11期

  • 2021年04期

  • 2020年10期

全球期刊门户微博

博客图片

全球期刊门户
北京市,海淀