想把自己的书籍扫描成PDF,什么样的扫描仪比较合适?

[复制链接]
zjcba 发表于 2023-10-5 17:47:13|来自:中国 | 显示全部楼层 |阅读模式
和知乎上很多朋友一样,我也是个爱买实体书的人。主要是技术类的书籍,经常需要翻阅。这两年用 ipad 感觉非常方便,希望能把自己的书籍扫描后做成 pdf 放到 ipad 里。但我对这方面并无经验,大家能否推荐一款合适的扫描仪?

如果能满足以下条件更好:
    最好不需要把书拆掉,非破坏性的扫描速度够快,操作便捷能够兼容 Mac 系统(因为我的主要工作环境都在 Mac 下)

非常感谢大家
全部回复5 显示全部楼层
danssion 发表于 2023-10-5 17:47:46|来自:中国 | 显示全部楼层
感谢各位知乎小伙伴的点赞分享、收藏感谢以及评论反馈。

你们的鼓励与支持是我不断进步的动力。

为了答谢知友以及更好的帮助与服务大家,作者在知乎上开了专栏「扫描图书并将其制作成高质量的PDF文档」,希望大家继续喜欢。


                              后期会将所有的内容都转到专栏上面。


Foxit Reader Online扫描图书并将其制作成高质量的PDF文档<hr/>WuZhengqiang:0.0  关于本专栏的几点说明
WuZhengqiang:0.1 本专栏的相关声明以及特别鸣谢WuZhengqiang:0.2 本专栏的文章架构WuZhengqiang:0.3 本专栏用到的资源合集WuZhengqiang:0.4 新的开始以及原文章更新维护记录                                  未完待续,敬请期待。

WuZhengqiang:0.5 本专栏文章可以下载到本地观看。

<hr/><hr/>说明:
                               知乎打乱了我文字排版,

                             可以下载教程到本地观看

                        也可以在网盘中查看我分享的工具

https://youngqfbr-my.sharepoint.com/personal/kcofatbf_x1_tn/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkcofatbf%5Fx1%5Ftn%2FDocuments%2F%E5%A6%82%E4%BD%95%E5%B0%86%E7%BA%B8%E8%B4%A8%E4%B9%A6%E7%B1%8D%E5%88%B6%E4%BD%9C%E6%88%90%E7%94%B5%E5%AD%90%E6%96%87%E6%A1%A3&originalPath=aHR0cHM6Ly95b3VuZ3FmYnItbXkuc2hhcmVwb2ludC5jb20vOmY6L2cvcGVyc29uYWwva2NvZmF0YmZfeDFfdG4vRW1zQVNNX2JKOVJIZy1zaV9GbHZwT2dCWGppSnlHVnJVLWotckdnQTZaM0s5QT9ydGltZT1fSUZTUUtOZzEwZw百度企业网盘-企业云存储解决方案-协同办公目录

一、前言        4
1   制作电子文档的目的:        4
2   制作电子文档的方案要求:        4
3   关于电子文档质量的说明        4
二、可行的方法        4
1.  专业设备法        4
2.  工作台法/自制图书扫描仪        4
3.  扫描类App直拍法:        4
4.  各种方法如何选择        4
三、扫描仪方案        5
1.  普通扫描仪:        5
2.  馈纸式扫描仪:        5
3.  方法总结:        5
4.  信息来源:        5
四、高拍仪方案        6
1.  专业书籍扫描设备-立体式书籍成册高拍仪        6
2.  平面式书籍成册高拍仪-紫光 E-Scan 180        6
3.  平面式书籍成册高拍仪-成者科技的设备。        6
4.  普通平面式高拍仪-得力15152高拍仪        7
5.  其他高拍仪        8
6.  方法总结;        8
7.  关于曲面问题的说明与解决方法:        8
7-1 说明        8
"https://www.zhihu.com/question/46979886/answer/831959156#_Toc25180643">7-2 解决方法(认真看):        8
="https://www.zhihu.com/question/46979886/answer/831959156#_Toc25180644">五、工作台法(自制图书扫描仪):        9
1.  普通工作台        9
2.  改进方案1:使用俯拍支架搭建工作台        9
2.1 设备介绍:        9
2.2 存在的问题;        9
2.3 优缺点:        9
3. 改进方案2:使用俯拍支架+厚玻璃板+V形/半V形支架搭建工作台。        10
3.1 设备介绍:        10
3.2 优缺点:        10
4   其他图书扫描方案。        10
5   注意要点:        10
六、扫描App直拍法        11
1.  图片排序        12
2.  剪裁与优化        12
2-1 目的:将拍摄的原始图片转化成规格相同、质量较高的单页。        12
2-2 软件:ScanTailor Advanced(高级扫描裁缝)        12
2-3 软件:ComicEnhancerPro:        13
3.  合并图片生成PDF电子文档        13
3-1 软件或者工具:        13
3-2 压制PDF        13
4.  OCR文字识别        13
4-1 全文可复制检索        13
4-2 截图OCR识别文字        14
4-3 关于OCR文字识别的特别说明:        14
5.  添加书签目录        14
5-1 软件:PdgCntEditor        15
5-2 软件:PDF补丁丁        15
6.  将PDF格式的电子文档制作成Word格式文档        15
八、作者心声与相关声明        16
1.  作者的心声        16
2.  权利声明        16
九  附录        17
1   本文使用的软件资源合集:        17
2.  附录:图书资源下载网站以及搜书引擎        17
3.  文章更新的版本。        17
<hr/>一、前言

1   制作电子文档的目的:
为了充分利用闲暇时间,方便在电脑/移动设备上看书,
为了可以复制文字,以便做笔记将书本读薄将书本学懂弄透
为了可以在电子文档/网页上快速检索到自己想要的内容。
为了更好的保存图书,买掉纸质图书以供回款。

2   制作电子文档的方案要求:
将纸质的书籍制作成可供复制检索,带目录书签的质量较高的电子文档。
制作的成本要低
制作的速度要快
电子文档的质量较高:

3   关于电子文档质量的说明
根据你的需要选择文档的质量。不要一味追寻高质量。这里面有很多问题是无底洞,深究起来没完没了。个人搞不定,也没必要。
制作电子图书之前,优先在网络上搜索,查看一下有无其他人已做好的资源质量好的直接用。质量差的,可以优化一下,下文六-2中有教程链接
文末有一些较好的图书资源下载网站以及搜书引擎。
<hr/>二、可行的方法

分析各位网友的回答和方案,方案主要有以下几种,各有利弊。依次进行分析和介绍:
1.  专业设备法
购买专业设备进行扫描工作。常见的设备有扫描仪高拍仪两类。

2.  工作台法/自制图书扫描仪
利用已有摄像设备搭建工作台进行拍摄/扫描工作
搭建普通工作台
搭建平面工作台
搭建V型/半V形工作台

3.  扫描类App直拍法:
拿着已安装扫描APP的手机对着书拍。

4.  各种方法如何选择
        支持拆书,馈纸式扫描仪最为方便省事。成本2500元左右。
        不支持拆书,千元以上的预算,推荐书籍成册扫描仪,成本2000元左右。
        不支持拆书,千元以下的预算,推荐自己搭建工作台(自制图书扫描仪)。只需要一定的动手能力,成本百元内但是效果可媲美千元高拍仪。手残党可以淘宝选购别人已经做好的工作台-普通平面式高拍仪,销量最高的就是这种。
        这里不太推荐普通平面式高拍仪,它存在很多问题。下文进行详细分析与说明,这也是本文的精华所在。
        这里只是作者的个人想法,仅供参考,购买需谨慎,一切问题概不负责。
<hr/>三、扫描仪方案

1.  普通扫描仪:
千元以下的扫描仪一般都是平板式的。它的缺点很明显:
操作不便:普通扫描仪,每次扫描都需要开关盖子
如果图书比较厚或者夹得比较紧,那么书脊处的扫描效果可能会不理想。零边距扫描仪到是可以解决这个问题,但是会贵很多
扫描仪的扫描效果非常清晰,基本可以做到无损,无变形。这是因为扫描仪是真的扫描,从上到下一点点的扫。而高拍仪只是拍摄图片,具体效果受多因素影响,比扫描仪差很多。与此同时,最大优点也是缺点,扫描仪的速度都很慢,千元以下的设备以300DPI扫描A4纸面,时间基本都在都在5S以上。




2.  馈纸式扫描仪:
需要拆书,破坏图书。但是效果非常好,速度也快。一天下来可以处理几万页。
方便省事,书拆后放入,喝杯茶等待一会即可生成得到一份电子文档。
机器比较大,而且很贵,基本>2KRMB。完全接受不了,没有详细了解,需要的话,自己去淘宝问吧。

3.  方法总结:
扫描仪的优点在于扫描效果非常好,扫描之后即可快速得到一份高质量的电子文档。价格也便宜,普通平板扫描仪500元内可解决。唯一的缺点是慢。别抬杠,1S内双面扫描的的工业级扫描仪你买不起。

4.  信息来源:
这里包括下面的价格信息都来源于淘宝和京东卖家。
<hr/>四、高拍仪方案

1.  专业书籍扫描设备-立体式书籍成册高拍仪
其实我们需要的东西都有专业且成熟的解决方案,限制我们的不是想象力,而是金钱(上万)。参考下图,资料来源中关村报价网。上面的产品可以满足你的一切要求,但你买不起。因此扫描图书量力而行,根据你的需要和能够接受的成本选择合适的方案。
这里有个较便宜的立体式书籍成册高拍仪:紫光E-Scan 3000。大家可以看看,看一下这个高拍仪的样式与模型,我们后面要用到。






2.  平面式书籍成册高拍仪-紫光 E-Scan 180
①相比较其他其他高拍仪,此款比较突出的功能(根据淘宝详情页)。
曲面展平和自动去除手指印
激光定位辅助立体展平,机身可发射4束激光用于检测书籍页面的弯曲程度,对曲面图像进行展平修正,并自动去除手指印,输出完全展平的图像,不需要再靠玻璃板来压平曲面了,省事很多。曲面问题,本节末尾再进行详细说明。
外接快门按键和自能分页
手持外接快门按键,拍一次得到两张图片,大大加快了速度。
无需电脑,可独立操作,直接将图片扫描至U盘/SD存储卡内,很方便是吧。
②想知道的问题。
宝贝详情中,关于OCR智能识别。仅限紫光E-scan180plus可以准确还原版面,它效果如何?送的教育版识别软件是什么软件?
OCR识别的效果怎么样, 真的可以准确高速的识别公式吗?使用的是什么识别引擎?普通版的和教育版有除了识别以外的区别吗?
  ③说明
很满意这款宝贝,满足了我最需要的功能。宝贝价格较贵,正在考虑是否在双十一时入手一台。我现在手中没有设备,不知道具体效果如何。若购买,这部分会继续更新
因为钱的原因我没有购买,别再问了。有买的同学,可以反馈一下使用的效果如何。把你加入文章中。

3.  平面式书籍成册高拍仪-成者科技的设备。
我在知乎上看到了皮卡邹的回答,他反馈了千元级别的书籍成册高拍仪使用情况。
3-1 他反馈的问题主要包括:
彩色扫描反光严重
从评论区中的回复得知,这是灯光和纸张造成的问题。
直射灯光造成的反光问题是平面式高拍仪的通病,可以参考五-3(改进方案2)进行调整。
②书本中的图片,扫描效果一般
从评论区中的回复得知,这是设置和纸张造成的问题。可以在后期通过ComicEnhancerPro进行优化处理,从而较大程度的解决这个问题。
我的专业书,文字是白底黑子,图片(程序命令行CMD)是黑底白字。它们在一起时,得力高拍仪扫描效果不是很好,原文中图片的那部分就像糊了一样。对,就是像他发的那几张图片那样。
部分书页剪裁的不够精确
部分书页的自动识别与剪裁不是很精确,通病,能够理解。这个可以在书本下面垫一个黑色的鼠标垫,增加对比度来提高识别精度,也可以在拍摄时或者后期进行修正,影响不大
靠书脊部分可能会出问题
他说的这个问题其实是书本曲面问题,这是书籍成册扫描中最常见、最烦人、也是最难解决的问题。平面式(我们买的起的)高拍仪在拍摄时或多或少都会存在这个问题。书本曲面问题将在本节最后进行详细说明,并在第五节中提供解决方案。
3-2 特别提示
根据皮卡邹知友的反馈,千元以上的书籍成册扫描设备依然可能存在一些问题。并且这些问题可能不仅仅是成者有,遗憾的是,我无法验证这个猜测。总之,无论那款,购买之前请仔细考虑。
3-3上面已经说了不足之之处,下面是它的优势
①性价比较高的平面式书籍高拍仪,仅1400
②体积小,平时可当台灯使用
③自动剪裁分页、去除手指和紫光的产品类似,这里就不在重复了。

4.  普通平面式高拍仪-得力15152高拍仪




此款宝贝是当时淘宝和京东上销量最高的一款,我买就是这款,已出。
规格:A4幅面,10MP像素,CMOS感光元件,定焦镜头,USB供电。
功能:OCR文字识别,连续拍摄,自动纠斜,自动去底。
优点:最大优点,扫描速度很快,1S即扫。
        缺点:实际操作起来,并没有宝贝详情中描述的那么好。
可自动剪裁,但是剪裁识别的不够准确,速度也不够快。
可直接转换成双层PDF,但是文字识别的不够准确。
可以制成黑白的PDF,但是清晰度不够高。
自带的软件功能够用,但不够强大,也无法批量剪裁优化图片
此款高拍仪不支持第三方专业软件的直接调用,这是很大的缺点。
一手翻书,一手点击鼠标拍照,操作起来很不方便。至于曲面展平、自动去除手指印和自能分页等功能,受限于价格更是没有。
备注:这里是高拍仪自带的软件或者工具对比第三方专业软件
        评价:功能全面而中庸,基本拥有你所需要的功能,但做到都不够好。与此同时,尽管做的不够好,但也足以让你快速制出较高质量的电子文档。图方便的同学可以选购。淘宝上看了一圈,应该是千元内性价比和适用性较优的产品。

5.  其他高拍仪
我的回答写的非常早,一开始只是将自己不成熟的想法写在Word文档上自娱自乐,后来在网上上看到很多网友的解决方案,产生了把自己想法与方案分享出来的念头。当时,得力和紫光分别是千元之下和千元之上淘宝销量最高的产品,都是大牌子,性价比也都可以,于是就写了它们。
现在,这两款产品可能已经不一定是最优的选择,大家有更好的推荐可以给我反馈留言,我现在也在淘宝上看高拍仪。如果你同意的话,你的名字和你的留言与反馈将在下次更新时加入文章中。
如:
知友肖号反馈:结合历史价格,双十一期间带曲面展平功能的型号值得入手价:CZUR AURA <1K;E-SCAN 160 1.2K±;Comet GP1800AF ≤1.4K;E-SCAN 180 <1.6K;Comet GP1900AF <1.6K

6.  方法总结;
优点:
方便:书放上去,(自动/手动)翻页,(自动/点击)拍照即可,简单方便。
快捷:要求不高的话,拍完即可使用自带软件生成较高质量的电子文档
缺点:
费钱:上面最便宜的得力15152高拍仪也要500多。最上面自动翻页拍照的产品更是贵的离谱。
(我们买的起的)部分高拍仪设计不够友好,如不支持第三方软件调用,自带的软件不支持批量优化图片等。

7.  关于曲面问题的说明与解决方法:
7-1 说明
曲面问题是指书本摊开之后书脊处高高鼓起,书本纸张成曲面的状态,它导致以下问题。问题的严重程度视具体情况而定。
书籍表面是弯曲的,导致受光/亮度不均匀,影响扫描效果。
书籍是曲面,拍摄出来的图片就是扭曲的,文字是扭曲或者倾斜的。
书脊处高高鼓起,导致书脊处文字拍摄不到或者拍不清楚,尤其是部分夹得较紧或者比较厚,无法摊平的书。没有拍到或者拍清是最严重的问题,后期怎么处理都没有用,只能重拍。记住:后期只能优化而不能无中生有
7-2 解决方法(认真看):
硬件级(激光)曲面展平。好方法,但价格感人。如,上面的紫光E-Scan价格将近2KRMB。
手指用力将书向两边拉。效果不怎么好,并且你打算如何处理掉照片上的手指?千元以下的高拍仪设备一般无去手功能
厚玻璃压平书。很常见的想法,书籍页面弯曲了,我拿重的透明的东西压一下,比如厚玻璃。我们知道,玻璃会产生严重的反光问题,怎么办。下面提供了详细解决方案。



<hr/>五、工作台法(自制图书扫描仪):

为了方便操作以及拍出质量更好的图片,我们需要搭建一个工作台,即自制图书扫描仪。
1.  普通工作台
参考邹鲁同学的方法,直接使用纸箱子制作,不推荐。
原因:我们后期的优化以及文字识别工作都是在原始图片的基础上制作的。原始图片质量很大程度决定了我们所制作的电子文档质量。我们要在合理的情况尽可能的拍出高质量的原始图片。
优点:免费,不费一分钱。
缺点:此方案只是看起来简单。实际上,直接使用纸箱搭建出满足要求的工作台,并不容易。此方案存在的各种问题会影响你拍摄的图片质量。那些问题,下面详说。

2.  改进方案1:使用俯拍支架搭建工作台
2.1 设备介绍:
①俯拍支架:无要求,但最好带有蓝牙遥控器补光灯。
注意:在拍摄平面法线处设置相机,尽量至于被摄物体垂直中心正上方
②蓝牙遥控器:
遥控器在手,随按随拍,专心翻页,速度飞起。
        注意:不是所有设备都支持蓝牙遥控拍照,购买之前问清(淘宝)卖家。
③补光灯:
补光灯是为了获得面状的、较为均匀的光线来解决亮度不均和(局部)阴影问题。当然也可以使用无影灯、台灯蒙白纸或者搞多个(同样)灯来解决,效果可能会更好,毕竟面光源优于线光源优于点光源。当然,这可能会比较麻烦。
注意,有大量阴影的原始图片在制作书页时无法进行进一步优化






2.2 存在的问题;
透视的问题
部分图书纸张较薄,背面的字透了过来。不要紧,这个问题可以在后期通过软件处理,如增加图像对比度来解决。也可以放置一块薄的、不透明卡片在要扫描那张纸的下面,从而减弱影响。
曲面问题:
此设备类似普通平面式高拍仪,普通高拍仪存在的曲面问题此方案同样也存在。关于曲面问题上面已说过:想解决曲面问题,最好就是是玻璃压着纸面拍摄,完全无视纸面的扭曲,获得和平板扫描仪相同的平整度,这比激光辅助展平技术效果还好。
反光问题:
为了解决曲面问题,不得不使用厚玻璃按压。引入玻璃后,灯光照射又产生了反光问题。
2.3 优缺点:
优点:最大的优点是方便,淘宝买个架子,组装一下,即可完成工作台的搭建。对好焦,放好书,拍就行了。
缺点:最大的缺点是曲面问题和玻璃反光问题。这两个问题很难兼顾,光源怎么调整都调整不好。下面提供了改进方案:

3. 改进方案2:使用俯拍支架+厚玻璃板+V形/半V形支架搭建工作台。
3.1 设备介绍:
①厚玻璃板:
厚玻璃板是为了解决曲面问题,玻璃板最好使用较厚(8-12cm)的超白玻璃。玻璃越重压的越平,当然也要量力而行。玻璃板的尺寸要稍大于要拍摄的书籍,方便翻页时拿取
②V形/半V形支架:解决玻璃板反光问题
V形/半V形形支架是用来放书的东西,开口角度大概100-150度左右,这个角度刚好可以利用测光在玻璃板上形成面状光源,让其在压书的同时不会产生反光。仔细查看文中的模型图。
注意:反光并非消失,而已被调整到纸面正文之外,让其不影响最终拍摄效果;支架具体开口角度需要根据你自己搭建的工作台进行调整,我这里只是提供一个参考。
V形支架可以使用电脑支架替代,应该可以起到同样的效果。固定图书并让






3.2 优缺点:
优点:同时解决亮度不均、局部阴影、图片扭曲和玻璃反光等问题,于此同时:
快速翻页:书本无需每次都打开180度,翻页速度自然更快。
②方便贴合:V形打开的图书显然更方便玻璃板的贴合和按压。书籍180度平摊后,书脊处会鼓起,不方便贴合。
无损按压:书籍是半打开状态,按压只是把书本中的纸捋直了,不伤书脊,自然无损。
缺点:暂时没有发现有什么缺点。这是我看过的最好解决方案。工作台搭建起来方便简单,并可以在兼顾成本的情况下,获得最高质量的扫描(拍摄)图片。
注意:这里的“最高质量的图片”指的是图片无扭曲、反光、局部阴影等等之类问题。是指在同种情况且不考虑设备因素的达到的最高质量。类似图片清晰度这种,它很大程度上取决于你的拍摄设备,与我们讨论的问题无关。

4   其他图书扫描方案。
    DIY版简易零边距扫描仪之玻璃夹子方案-马健老师
马健老师在教程中提供了另外一种很好的解决方案,写的非常详细,值得阅读与参考。
关于马健老师:图书扫描问题专家、图片优化问题专家、原创软件高手,我们下面使用的很多软件都是他开发的。这是马健老师在博客园上的主页,里面有他开发的软件和写的软件教程。想了解他本人的可以看一下这个专访原创软件高手老马。
想要研究其他方案的,可以参考这个:DIY Book Scanner(英文社区)

5   注意要点:
①上面的各类解决方案,按需选用。同样,上面为尽可能获得高质量原始图片,对其做的各种优化与调整,要求不高,可全不用。当然,要求这么低的情况下,下面的方法会更方便些。
②为了方便后期的处理,拍摄的原始图片最好使用无损的图片格式。这里比较推荐的是TIFF格式。Jpg格式损耗较大,别用。
③10MP像素的设备拍摄图片已足以让文字在显示器清晰可见。我们手中现存的设备都满足要求。要注意:设备像素越高,图片质量越好,体积越大,设备需有足够的内存空间
④为了速度,我们这里拍摄的都是原始图片。后期需要对图片进行一系列处理。处理图片的一系列工具和软件,你需要学习如何使用,稍微有点难度;
⑤想要获得高质量的扫描图片,除了上面单列出来那些外,其他方面也有一定要求。自己摸索去吧,不明白的可以参考白垩纪同学的回答和马健老师写的教程,这里就不在继续展开。总之,搭建工作台需要一定的动手能力的,能够折腾。
⑥对于同样的环境下,如何调节摄像设备参数以获得更好的拍摄效果,这是设备的问题,不属于自制图书扫描仪的讨论范围。问题很复杂,不展开。
<hr/>六、扫描App直拍法

直接使用摄像设备对着书拍,这里的摄像设备指的是已安装扫描APP的手机。
软件:全能扫描全能王 知乎推荐最多的
  白描  据说识别效果很好,没有试过
Office Lens 自动去除手指
优点:拍照时,已对图片进行了剪裁和优化。要求不高的话,可以直接将处理后的图片合并生成PDF文档,电子文档的制作便已经完成了。
缺点:软件拍照的同时还进行了剪裁和优化。速度自然很慢。此方法仅适用于小量且质量要求不高的扫描。
建议:图书最好放在黑色的鼠标垫上,这样扫描程序可以更好的自动获取边界这里依然要注意各种阴影与曲面的问题。
软件的选用:我个人感觉差不多,功能和用法都大同小异,也都很简单。它们之间的对比,我这里就不展开了。你选择一个你喜欢的就可以了。
<hr/>七、如何制作满足要求的电子文档

注意:我们要制作的是满足要求的电子文档,这里写的只是大致的流程。我们不是玩极客的专业人士,方便阅读,文字清晰可见即可,烧不起,也玩不起。
1.  图片排序
目的:将拍摄/扫描的图片按照纸质书籍的顺序进行排序
软件:ReNamer:功能强大的文件批量重命名工具,中文免费,免安装。我用过的最好的工具。
教程:
为了速度,奇数页和偶数页是分别拍摄的,分别在两个文件夹中;
使用工具分别从0和1以2的步长递增重命名文件,如ReNamer,添加文件夹后添加规则,选择序列化,然后以2为增量分别重命名奇偶页,最后点击最右边的重命名完成命名工作。
合并这两个文件夹,排序完成。
提示:
建议你按照我的方式进行文件重命名工作:正文之前的内容以0开头,正文内容以1开头。这样做,方便你及时检查并确认正文内容是否存在多拍或者漏拍,这对书本较厚的情况下尤其有用。否则后期重改的话,你会麻烦死。




2.  剪裁与优化
2-1 目的:将拍摄的原始图片转化成规格相同、质量较高的单页。
规格相同是指每个单页的尺寸一样大小,内容都在图片的中间(页边距都一样)。
规格不同的图片合并生成的PDF文档,每页的宽度都不一样,文字也忽左忽右。通过下面软件将原始图片中的版心批量剪裁出来后添加页边框,即可解决。
质量较高是指对原始图片进行优化处理,让其更适合阅读,像真正的文档一样。
质量较高应满足图片像素不堆积,文字清晰锐利不倾斜,黑字白纸,无麻点,噪点等等。总之阅读起来赏心悦目。这是很比较复杂的过程,具体见下面的教程链接。
2-2 软件:ScanTailor Advanced(高级扫描裁缝)
简介:高级扫描裁缝是用于扫描页面的交互式后处理工具。它执行诸如分页,去歪斜,添加/删除边框等操作。您进行原始扫描,就可以将页面打印或组装成PDF文件。软件功能不包括扫描,光学字符识别和组合多页文档。
教程:软件已汉化,操作很简单,按照流程一步步走即可获得较高质量的文档,达到数字化文字边缘的效果,具体流程可以参考知友邹鲁的回答。这里不在重复展开。




2-3 软件:ComicEnhancerPro:
简介:ComicEnhancerPro是马健老师开发的一款批量图像增强工具,能够批量调节指定目录下所有图像文件的曲线、亮度、对比度、高亮度等,将扫描很差的图片往完美版的方向转化。
教程:ComicEnhancerPro速度更快,功能更强大,自由度更高。操作也更复杂。好在马健老师已在自己的主页下写好了教程,非常非常的详细。也可参考知友白垩纪的回答,我这里就不在献丑了。




提示:这是很重要的步骤,但并不是必须的。根据需要采用,并选择图片的优化程度。原始图片已经很清晰的话,这个步骤可以省略。若想优化,两款软件任选其一,图文混排推荐后者

3.  合并图片生成PDF电子文档
3-1 软件或者工具:
ABBYY FineReader15/14
Acrobat Reader DC
福昕高级PDF编辑器
PDF-XChange Editor
PDF补丁丁
万彩办公大师
包括但不限以上的工具,任选其一使用,即可合并图片生成PDF电子文档,这个过程很简单,傻瓜式操作,教程略。
3-2 压制PDF
压制PDF是指通过一系列的手段让其最后生成的PDF文档体积较小,但是文档质量仅略微损失甚至基本不变
情景再现:我手机拍摄的图片基本在4M大小,你可以想象一下,如果不进行任何处理,最后生成的文档将会有多大。
我的处理:
在剪裁与优化这一阶段,将图片二值化处理(黑白);
生成PDF后,在使用PDF工具的虚拟打印机从新打印生成一份新PDF;
这时文件已比较小了,如果你需要,还可使用PDF工具所带的压缩工具进一步处理。其他方式:
上面方法已经可以满足日常需要,想进一步了解的,可以向白垩纪和苏灵两位知友咨询。至于如何将PDF压缩几十倍还基本保持文档质量不变,比较复杂,本教程不讨论。

4.  OCR文字识别
关于文字识别,作者看了很多的文章,也试用了很多的软件。你如果没有什么特别要求,或者对这方面不是很懂,使用我说的这几款软件就可以了。这几款软件已经是综合起来,做的比较好的几家。想了解市面上的OCR文字识别工具看一下这个问题下的回答。
4-1 全文可复制检索
全文可复制检索的常见方法是将PDF文档转换成双层PDF文档。
定义:双层PDF,文档有两层:底层是扫描图像层,上层是透明文字层。双层PDF保留原始版面效果,并支持选择/复制/检索等功能。
软件:ABBYY FineReader 15或者ABBYY FineReader 14
简介:FineReader采用了ABBYY最新推出的基于AI的OCR技术,可以更轻松地在同一工作流程中对各种文档进行数字化、检索、编辑、加密、共享和协作。文字识别界的老大哥,识别率极高,自由度高,批量操作方便,功能异常强大。
教程:请参考官方教程。介绍非常详细。
备注:经测试,Acrobat Reader 2019(稍好一点)、福昕高级 PDF 编辑器、PDF-XChange Editor等其他软件识别效果不佳。是故,这里不再对其他软件展开说明。
提示:ABBYY FineReade是付费软件,试用版功能不全。解决方法请看文末。

4-2 截图OCR识别文字
软件:树洞OCR文字识别
简介:一款跨平台的OCR小工具,以前叫做天若OCR。在线云端识别:截图后通过网络调用百度、腾讯、搜狗、有道等几大平台提供的文字识别接口来完成识别工作,识别成功率和正确率都很高。如果你不打算安装FineReader的话,若仅是平时使用,这个是最好的工具
软件:ABBYY Screensht Reader
简介:功能强大,ABBYY FineReader的组件。上面已经介绍过了,这里不再重复了。

4-3 关于OCR文字识别的特别说明:
对于纯文字识别(即使文中有多种语言),所有软件的识别效果都很好,差也不到哪里去。
对于版式较复杂的文档(图多,表多,符号多,中间还有程序代码):只有ABBYY FineReader的识别效果较好。它是识别界的老大哥,通过参数的调整,基本可以还原文档的原有版式也内容,见下图。
对于手写(字迹潦草)的文档,或者没有扫描清晰(扫坏了,如曝光过度)的文档,所有的识别软件基本一样烂,所以图片一定要拍清楚了。这种情况下,ABBYY FineRead的训练模式可能会有点帮助。
关于OCR文字识别,无论哪种方式,哪种工具,都不可能做到百分之百的版式与内容的还原。尤其是全文OCR识别中出现的错别字,需要你一点点去校对。ABBYY FineReade中提供了校对工具,见下图,可以帮助到你。
OCR文字识别对于我是伪需求。普通的图书不需要OCR,看看就可以了。我的专业书很注意实操,里面有各种各样的图表、符号、代码,格式非常复杂。但是在学习过程中,我会做表、敲代码练习操作,无需担心识别不准确的问题。关于OCR文字识别,我只了解到这么多了,请自行进一步探索如何让OCR识别的更准确。这里不在展开了。

图片太大   导致无法上传文档到知乎  已经删除了  

5.  添加书签目录
为PDF格式的电子文档批量添加具有层次性的书签目录。
定义:这里的“目录”是对电子文档中的大纲、导航、书签、目录的统称,具体表现形式就是在浏览器左侧显示的树形章节列表,点击就可以跳到指定的章节
说明:
目录可以来源于(淘宝上)图书的描述详情,也可以是OCR识别的,也可以是手敲的。
只有和原始图书顺序一样,不缺页,也不多页的PDF文档才满足批量添加书签目录的要求,才能够保证书签的正确访问。
              批量添加的目录书签只能定位到页,不能定位到具体的内容部分。这个影响不大,并且可以在阅读的时候手动调整。
              页码偏移处理,即点击书签总是跳不到正确的位置,每个书签都多/少同样的几页,设置一个基准页即可解决。
5-1 软件:PdgCntEditor
简介:PdgCntEditor是马健老师开发的又一款强力工具。PdgCntEditor是目录(书签)编辑器,可以创建、编辑PDF、DjVu、PDG的目录。
教程:贴心的马健老师已经写了非常详细的教程,你可以到他的主页下面看一下。雨落随风也写了一份简单教程,写的很好。我自己就不在展开了。
5-2 软件:PDF补丁丁
简介:PDF补丁丁是一个用于修改PDF文件信息的工具。贴心PDF书签编辑器:带有阅读界面,可批量修改PDF书签属性,在书签中执行查找替换。
提示:PDF补丁丁支持无损导出扫描版图片。这意味着你可以将别人做好的PDF导出成图片并进行优化。上面链接中有详细的优化教程,这里不在重复了。
教程:与PdgCntEditor类似,网上也有很多教程,也可以参考白垩纪同学的回答

6.  将PDF格式的电子文档制作成Word格式文档
文档OCR识别之后,格式可能会乱,手动排版一下,即可。没有什么好说的。
<hr/>八、作者心声与相关声明

1.  作者的心声
本文参考了包括知乎在内的大量回答,并对这些回答进行了归纳和总结。这篇一万两千字的教程,应该是全乎甚至是全网最全答案了。希望能够帮助到和我有同样需求的你。同时由于作者水平有限,难免有错谬之处,烦请一一指出,尤其是我参考过的答主们欢迎留言交流。
本文是作者几个月来的心血与思考的结晶,希望可以得到大家的鼓励与支持,如果对你有所帮助,还请不惜点赞,分享,收藏,感谢一波,让我知道,我帮助到了你。如果有不明白的地方可以在评论区留言。作者看到后,会尽可能的尝试解答解决。

2.  权利声明
本文仅为学习与分享使用,无任何利益相关,也无意侵犯任何一方。请你自行判断是否选用文中方法与工具;为了避免麻烦,作者做出以下声明。并且,当你使用文中方法与工具时,视为已经理解并同意此处了的声明
本文欢迎分享与转载。由于本文是在多人的工作基础上写成的,是多人的智慧结晶。转载时需要注明作者与来源,以及本文参考的作者姓名 (下面有)。
尽管可能性很小,但这里仍然要强调的是:你若在使用文中方法与工具的过程中因各种原因不慎翻车,造成了损失。作者深感抱歉,并可以尝试帮助你解决,但是作者无需因此承担任何责任,尤其是法律和版权方面的责任,请你知晓。
本文参考了大量的回答和教程,在对部分教程进行了引用的同时注明了来源,但是依然可能存在疏漏或者不规范之处。你若发现不妥,认为侵犯了你的权利,请联系我更改。
再次向本文参考的作者们表示最诚恳的谢意。本文参考的作者以及参考的内容有:
1.        白垩纪
DIY图书扫描仪的解决方案;镜面反光问题的解决方案;部分软件工具(Scan Tailor, pdf补丁丁, ComicEnhancerPro等)的使用教程;生成体积小质量高的PDF解决方案。
2.  苏灵
扫描图片的格式选择,压制PDF文档方案,扫描版电子书制作工艺流程。
3.  星月夜的宁静
DIY图书扫描仪的解决方案,Scan Tailor的汉化版本及使用教程。
4.  邹鲁
DIY图书扫描仪的解决方案;Scan Tailor的汉化版本及详细的使用教程。
5.  凤采
        扫描版电子书制作工艺流程。
6.  皮卡邹
成者科技的平面式书籍成册高拍仪使用反馈   
7.         肖号
        最新的带曲面展平功能高拍仪的价格对比。
8.  马健老师
DIY图书扫描仪的解决方案,开发的软件以及所写的软件使用教程
9.  雨落随风
PdgCntEditor的简单使用教程。
<hr/>九  附录

1   本文使用的软件资源合集:
为了你的计算机安全,请误从来路不明的地方下载安装软件。
文中出现软件都已经在文中提供了官网链接,点击即可访问下载。
为了方便大家,我这里也提供了网盘分享:百度企业网盘;OneDrive for Business。
注意:网盘中有一些软件的和谐链接,这些链接仅供学习研究自行判断是否下载安装作者概不负责。我想规矩大家应该都懂。我同样是从网上找的,我用的没问题,不代表你用也会没问题。这里不做任何保证,请大家理解。同时希望大家尽己所能的支持正版,谢谢。

2.  附录:图书资源下载网站以及搜书引擎
鸠摩搜索
西林街搜索
盘搜
知乎:部分很能的网友可能有你需要的资源,你可以交易一下。
淘宝:全国图书馆参考咨询联盟上可以搜索到的图书一般都可以在淘宝上买到电子版的。

3.  文章更新的版本。
        更新时间2019-11-3                又改了,针对评论区中知友的提问添加了一些新内容。
更新时间2019-11-3                最最后一版了,再改我就是狗。
更新时间:2019-11-1                再次检查全文,校对内容,这是最后一版,以后将不在更新了。
更新的时间:2019-10-31        再次重构教程,完善内容补充细节。教程已经全部写完,后续可能不在更新了,只进行维护或者解答评论区的问题。       
更新的时间:2019-10-29        写完所有的主体内容,确认本教程已经覆盖所有知友的解决方案,覆盖扫描图书制作成电子文档的所有流程。此时回答早已过万字,回答进入维护状态。
更新的时间:2019-10-28        添加皮卡邹知友对成者科技的平面式书籍成册高拍仪使用反馈
更新的时间:2019-10-26        随着研究的深入,发现包括我在内很多答主的回答描述的不够清楚,尤其是自制图书扫描仪的部分,对很多影响扫描的问题没有讲透。再次看了一遍知乎相关板块的所有内容后,对原教程进行了重构。
更新的时间:2019-10-5        添加作者心声与相关声明板块,继续完善内容补充细节
更新的时间:2019-9-26        看完知乎所有的相关内容,对原回答的内容进行了补充和完善。
更新的时间:2019-9-23        写完三类可行扫描方法和图书扫描之后的处理流程。       
更新的时间:2019-9-22        网友的回答太过散乱,很少有完整而细致教程。我汇总梳理后将写在文档上的教程发在了知乎上。
更新的时间:2019-8-10        参考白垩纪,星月夜的宁静,邹鲁等网友的回答,在Word文档上写下自己想法。
更新的时间:2019-7-10        购入得力高拍仪,研究了一个月,发现没有宝贝详情中描写的那么好,满足要求的买不起,研究如何自制满足要求的高拍仪。
更新的时间:2019-6-10        一切的开始:我的专业书太多,太重,想把它们转换电子档的方便值班的时候观看。
qq911 发表于 2023-10-5 17:48:15|来自:中国 | 显示全部楼层
开门见山,推荐成者科技(CZUR)的ET18书籍扫描仪
题主的三个要求如下:
1.最好不需要把书拆掉,非破坏性的。ET18满足,它无需拆书,直接通过翻页+高清摄像头拍照即可完成图像获取。软件端的核心算法会自动将书页展平、分成左右两页。
2.扫描速度够快,操作便捷。ET18满足,CMOS扫描的优势也正在于此,可以说扫描速度≈翻书的速度,3秒钟扫描一本书的左右两页完全没问题。
3.能够兼容Mac系统。ET18满足,本篇接下来的实际操作部分,也将以Mac电脑为工具。
<hr/>接下来是昨天下午临时准备的一些素材,因为一个人操作和拍照不太好同时进行,所以选择了电脑屏幕直录。为了让视频小一些,做了压缩,可能有点糊。但也可以感受ET18的具体扫描过程了。(高清视频优酷播单)
第一步:连接好ET18的电源线、和电脑之间的USB线、还有一个脚踏板。脚踏板是个扫描功能键,在桌下没有拍到。书正好是我在其他回答里有提到的最近正在读的科塔萨尔短篇合集《南方高速》。


第二步:打开软件开始扫描。我的动作偏慢的,扫描+处理的速度是1分钟10页,详见视频。

成者CZUR ET18扫描实录(约13M)
https://www.zhihu.com/video/1129761977286877184
补充说明:踩下脚踏板之后,会有三条红色激光线打在书面上,这是用于识别书籍曲面轮廓的。录屏的时候似乎看不明显,在实际操作中,激光线消失后,就可以翻页进行下一页的扫描了。软件也有自动识别翻页动作的功能,开启了以后,扫描甚至不需要踩脚踏板。软件会在扫描过程中完成处理,处理预览图就显示在左边,一般处理速度比扫描速度慢不了多少。昨天可能是开了占内存比较大的录屏软件,不过也就最后一张稍慢了些。
第三步:检查扫描后的文件质量。
(1)我发现这本书的纸太薄,所以扫出来有透字的现象。于是我整体调整了对比度,10秒搞定。

扫描件对比度调整(约2M)
https://www.zhihu.com/video/1129768365715349504
(2)这本书太厚,有些页面边缘有一些痕迹(比如视频刚开始这张的页面右侧)。所以我采用了裁剪功能,将框选范围外的地方直接留白。虽然强迫症调整了好几次,但用时也就30秒左右。

后期裁剪功能(约5M)
https://www.zhihu.com/video/1129770381833289728
第四步:大功告成,根据需要导出为PDF或者是Word!

导出PDF(约5M)
https://www.zhihu.com/video/1129772816106758144

导出Word(约8M)
https://www.zhihu.com/video/1129774140986707968
<hr/>视频确实有点糊……下面看一下扫描效果的截图。



PDF截图(好像还是被压缩画质了)后期文字还可以自行调整粗细和锐度



Word截图(识别错的地方飘红了)另外我发现纸质书中的另起一行,在识别后会有几个空格。

<hr/>以上就是我用ET18扫描、生成文件的全部过程,没有为了夸大实际效果做任何视频或者图片的修正,无论是扫描速度还是成像质量。希望有扫书需求的朋友,能够知道、了解、并愿意选择这款产品。目前ET18可在京东自营店铺、天猫旗舰店以及http://czur.com进行购买,价格为2599元。也可以选择同型号的ET16,价格为1999元。另外一款Aura扫描仪也不错。如果真有人感兴趣,可以在购买时询问客服哪一款更能满足需求,也可以在评论里直接问我,这里暂时不做赘述。
【成者科技ET18】成者科技(CZUR)ET18智能扫描仪高速成册书籍文档免拆高拍仪高清零边距1800万像素【行情 报价 价格 评测】-京东最后感谢 @笨笨侠 的邀请。
感谢在微博上私信“成者CZUR”官微的小伙伴。


感谢在这个问题下提到成者的@vczh 。
在各种奇思妙想的扫描方法里,在各类手机App替代解决方案中,在各个国际大牌扫描仪中,能得到诸位的推荐,我觉得已经算是一种信赖和认可了,并从中感受到了莫大的激励。
谢谢大家。
qswh 发表于 2023-10-5 17:49:07|来自:中国 | 显示全部楼层
如果用的iphone或者ipad,可以尝试一下备忘录里的扫描功能。方便简单,不收费!具体流程:备忘录→添加(+)→扫描文稿,然后就可以了。






实例如下:其实我现在在火车上,光线不好,但是扫描效果还是挺好的。会自动补光,下图是扫描中


扫描效果:

y007 发表于 2023-10-5 17:49:46|来自:中国 | 显示全部楼层
更新三(2021-01-24)

过了一年多快两年了。感觉普通人还是用APP方便。
我平时是用 iOS 的 Scanner,就是不知道如何处理除畸变(不是梯形畸变,不知道应该怎么描述?)
最新发现了一个答案,里面提到两个APP,「极简扫描」和 vfat,感觉解决了我的问题。
之乎股东:想把自己的书籍扫描成PDF,什么样的扫描仪比较合适?
<hr/>更新一

这篇回答是看了白垩纪老哥的答案之后进行尝试的分享,望能给大家带来帮助。
其实如果嫌麻烦、没有时间,可以直接去某宝找扫描服务,把书寄过去就行了。(不过似乎都要把书切割开再恢复。)
还有一位答主对书籍扫描成PDF的各种方式进行了汇总——「WuZhengqiang的回答」,建议看看。
<hr/>更新二

听说汉化版是魔改版。建议大家谨慎使用。这是评论区内的网友推荐的experimental版本。https://github.com/Tulon/scantailor/releases/tag/EXPERIMENTAL_2016_02_22



<hr/>一、Scan Tailor

1、汉化版本的 Scan Tailor

看了很久的是英文的教程,找到了汉化版本,分享给大家。
下载链接:百度网盘地址 提取码: vnt7

—— 来源:技术文
安装步骤说明
1、安装软件后,按要求把某个文件(安装包有)复制到一个文件夹。 (文件夹地址可以用系统搜索,找不到可以用软件「everything」搜索地址)
2、语言设置:软件界面菜单栏「tools」,再选下面的「setting」,选「C」(Chinese-中文)。
安装后的软件界面



2、教程

Scan Tailor 的使用教程(太长,英文,20分钟)
我是看了油管上一个大叔视频操作才看懂怎么用这软件的。
后半段是使用软件,应该有帮助,不过这个大叔的视频的软件界面字体看小。(如果找到更好的教程,可以留下评论)
无字幕:vimeo、Bilibili
翻译:油管(有自动英语字幕,还可以翻译成中文)
补充主要功能介绍

1 修正朝向 - 批量或单张或选择区间旋转图片
2 分隔页面 - 自动切割页面,同时提供手动选项
3 侵袭矫正 - 自动识别图像歪斜角度,同时提供手动选项
4 选择内容 - 自动识别正文内容裁剪,同时提供手动选项
5 页边距 - 设置正文上下左右边距,同时可设置为0等同于裁剪
6 输出 - 多种输出选项(黑与白、彩色)选区操作等

参考:whycnblogs
二、进行尝试

1、准备所需物品

三角支架:拍摄用三角支架,某宝或某东60块钱就有能伸长1米+的,还带蓝牙遥控器,因为我本人之前买了小米的三角支架自拍杆(用于拍摄这个,体验上不是很好用)
托架、鞋盒、纸箱:我本来想在淘宝找个V形的书立托架,没找到,没找到鞋盒,暂时就用纸箱替代了。
买了一个阅读架,有的话可以替代那个纸箱、鞋盒,只要卡住交接位置,不过不要让书掉下来。(有需要可以某宝搜关键词:金属护目阅读架)


台灯:一般的台灯都可以,我使用的是小米的台灯。
亚克力板/钢化玻璃板(20X30):我本人买的是30X30的亚克力板。经过体验发现,还是买钢化玻璃板好,比较重,才能压住书,而且不容易刮花。

2、注意事项

注意反光:要照顾到灯的位置,光不能打到亚克力板上(手机相机上)。
拍照操作方法比较适合我的姿势是(惯用右手):左手操作亚克力板,右手翻页再按蓝牙遥控器拍照。






导入到 scan tailor 处理的文件夹
再加上调整镜头(三脚架)和书本(托架)的角度,和用 scan tailor 调整拍摄的图片也要花不少时间。(还没算学习Scan Tailor的时间)

现在有个问题,3m的图片用scan tailor生成的才十几k的大小。
<hr/>这种扫描方法很像我在油管看的视频。是同时两面进行拍摄,成本比较高,不适合普通人。视频已经上传,可以看看。


https://www.zhihu.com/video/1127647737826684928
基地组织 发表于 2023-10-5 17:50:31|来自:中国 | 显示全部楼层
方法:1000块钱以上的手机一台(对 就是你手里那台)  app扫描全能王
就是拍照然后软件自动处理成PDF
用个懒人支架架好手机  补好光 拍拍拍~



本人工科狗一枚 经常去图书馆查阅  有很多好的专业书籍不是绝版 就是太贵 老去图书馆借还不方便   于是自己买了个扫描仪 600软妹币 发现效率简直令人发指  改纠偏 清晰度 裁剪想修改还得改转格式 改完再转回来  用OCR软件还特别慢 后来又借用学校7000多的立式扫描仪  效果不错 但是学校又不是我开的  不能老用  用过各种方法最后证明这是最好方法
不推荐买扫描仪   
一 便宜的机器扫的不清不耐用  贵的买回来你天天用?
二 扫描出来的只能两种格式PDF和图片
     扫出来的如果有多余的黑边啥的
     输出的图片格式基本无法修改 刚开始逼得        我动用PS剪裁修图
     PDF文件就更难改了  需要破解版的     Acrobat软件  原文件特别大 一页6到8兆 因为分辨率高 分辨率低有时候扫描出来有的位置就花了 比如零件图的标注看不清了  还可以转格式改在转回来  再者用OCR 识别再改  这工作量不是盖的………

    目前此法已经扫了30多本   基本上一晚上就一本

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则