PDF转EPub插件
PDF转EPub插件是一个运行在Adobe Reader环境中的工具性软件。在用Adobe Reader打开PDF文件后,对PDF文件自动解析,将字合并为段落,标记插图,最终将内容输出为html格式并再转为Epub格式。
自动解析
自动解析收集PDF文件中所有的内容,如文字,图像,图形等元素,根据坐标将一个一个的字合并成行,然后再合并为段落,另外在自动分析阶段,还可做一些常用的批量操作,如
分析上下标,全角转半角,合并相邻图像,根据文字块的坐标判断其对齐方式.最终将分析数据保存为工程文件。由于这个操作比较耗时,可以调用预处理来批量对指定目录下的文件进行统一的分析,以节省时间。分析完成以后,页面上的元素都被被标记。如下图:
正则表达式管理
在文字整理过程中,如自动分割,拆分和搜索过程中,经常需要使用正则表达式。为此有一个独立的模块来管理正则表达式。可以给常用的正则表达式起一个易记忆和识别的名称,以方便区别和调用。对于一些简单的正则表达式,如“以xx开始”或“以xx结束”诸如此类的不值得起名的表达式,采用“填空”的模式编写。以方便对于不熟悉正则表达式的人员使用。
搜索
搜索是此软件中功能最多最复杂的部分,但也是使用最多的功能,使用好搜索功能,可以将许多琐碎的操作快速的完成。例如,可以使用搜索功能将所有匹配指定条件的块列出来,然后对它们统一的操作,如设置对齐方式、拆分,设置字段等。
调整顺序
软件提供了多种排序策略,如在选择多块时,可以调整选择块内部的顺序,将选择的块放到开始,将选择的块放到最后。对于很复杂的版面,只需要几个操作就可以整理好。
拆分与合并
拆分与合并也是经常使用的功能,特别是拆分。为些设置了多种拆分策略,如普通拆分、水平拆分、垂直拆分、十字拆分。熟练使用拆分,可以简化操作步骤,快速整理复杂的版面。
除了手动拆分外,软件还设计了自动拆分功能,主要是针对期刊类型的文件,使用自动拆分功能可以将“关键词”、“中图分类号”、“文献标识码”等这些被合并在一起的内容拆分了独立的块。
整理参考文献
参考文献的整理是最复杂和耗时的部分,特别是当一个文件内部包含多篇文章时(如期刊类型的文件)。所以软件提供了优化的处理策略快速整理参考文献,即可以通篇整理,也可以一块一块的整理。
其它支持
段落持续
当一个段落的内容不能合并到一个块中时,如跨页的段落、双栏时跨两栏的段落,此时可以使用段落持续进行标记,则在输出时将会作为一个段落输出。
跳页块支持
跳页块经常出现在期刊类型的文件中,如“下接xxx页”,此时一篇文章的内容不是出现在连续的页面上。使用跳页块设置则可以将这种类型的文章输出到一篇文章中。
目录整理
目录整理主要是针对原始文件中包含目录(有些制作要求保存原始的目录)。使用目录整理可以快速将复杂的目录自动合并/拆分为一条目录一个块的状态,无论是页面在后还是在前。
标注关联
可以将文章内部的“标注”标记后,在输出html文件时,在文章的后面输出标注,并在引用点与标注之间创建链接。
字属性
可以为字设置上标、下标、加粗、斜体、下划线和删除线属性。
输出
可以选择多种输出类型,如下图:
Epub的效果如下图:
输出HTML表格
即可将表格输出为图像,也可以通过人机交互制作成HTML表格,并最终输出为HTML格式。如下图:
书签制作
使用书签制作功能,可以快速的完成书签的制作,比Adobe Acrobat中的创建书签要方便许多。它以文字整理时设置的标题为基础,在经过简单的修改后即可创建书签。