- 发帖
- 7049
- 今日发帖
- 最后登录
- 2024-12-21
|
目前软件收录了百度文库、道客巴巴、新浪爱问、豆丁、原创力。后续还会陆续添加支持多个网站。软件功能:1、百度文库 多线路下载。百度文库线路2、3、4均为收集互联网收集的接口,只能下载用下载券的文档,而且不太稳定。百度下载线路1为爬取自用接口,文档不是原格式。只要能预览多少,就能下载多少。小声说下:百度4线路可以下载VIP专享2、豆丁文库 word尽可能的还原。 3、新浪爱问 PDF格式保存,移除水印。OCR识别功能的图片没有去水印,可能是别的时候 会带水印的结果,(后续有时间更改)4、道客巴巴、原创力 PDF格式保存。原创力也就是book118的有点麻烦。调用他的图片接口速度快了什么都不反回。次数多了还有验证码。。。因此获取这个的PDF每一次我都延时1s处理。所以这个下载就比较慢。。。大家耐心等待。 5、软件带OCR识别功能。调用搜狗 的OCR识别接口(本来用的搜狗,但是今天搜狗不能用,临时换成有道的接口了。后续有时间了,可以设置识别接口种类),可以下载除了豆丁和百度以外的文库时勾选,然后软件会在生成PDF文档的同时生成一个TXT文档,开启OCR功能后下载速度可能会变慢。 6、软件界面如下。 来个测试图: 左边是下载的PDF,右边是识别的TXT,最后面是保存的路径 本部分内容设定了隐藏,需要回复后才能看到 程序是.net写的 需要.net4.0de 环境//todo1、添加功能 可设置OCR接口2、更改下载路径3、添加淘豆等。。。有空了继续更新下去
|