闪电联盟 - Powered by phpwind

离线030711

UID: 85626

正式会员

发帖: 1500

今日发帖

最后登录: 2025-01-23

只看楼主倒序阅读使用道具楼主发表于: 2019-07-05 17:06:55

自助获取论坛邀请码

万能君的工具箱是网友开发的一款实用工具集合，其中包括批量音频转文字小工具，目前只有音频转文字的功能，支持批量选取音频转换，不限时长，免费！基于百度AI和pyqt5制作，拥有音频转文字、文字转语音、截图文字识别、批量图片文字识别、复制翻译和图种制作等六项功能。
V2.0版更新：

加入免费的音频转文字接口，免费的有普通话、英文、粤语、四川话识别，速度慢些，但准确率还可以。

一、需求分析：

1、音频转文字：目前市面上的音频转文字大多收费。音频转文字的需求是：上传一段音频，直接识别成文字，对于会议记录的比较好使，注意不是实时的语音识别。

2、文字转语音：转的语音不要太生硬。

3、截图文字识别（OCR）：截屏完成即可弹出截图所含图片中的文字。

4、批量图片文字识别：选择多张图片，直接识别出每张图片的文字。

5、复制翻译：看英文文献，有时候懒，如果能有置顶悬浮窗，实时监测剪切板，遇到想要翻译的段落，直接复制，即可给出多国语言翻译结果也是刚需；当然有些论文文本不能复制，所以还复用了截图OCR的功能，对OCR结果进行翻译。

6、图种制作：这个不入流，纯属个人爱好，没啥技术含量。

二、工具展示

需求产生开发动力，基于百度AI和pyqt5制作了自己的小工具，解决了上述所有需求，需求也就就是功能了。

1、批量音频转文字

可批量选择要转换的音频即可自动识别，不限时长，免费，识别速度尚可，耐心等待。

（1）比如批量识别小学生课文

（2）比如识别长达五分钟的《荷塘月色》

（3）识别岳云鹏的相声

2、文字转语音
这个没什么好说的，输入文字，选择发音人、语速、音调之类的，可试听，可生产mp3格式的音频文件。

3、截图OCR

点击截图按钮即可截图，自动弹出识别文字。如下动图演示，也是个初版，界面简陋。

4、图片批量识别

在截图OCR下拉按钮有个图片批量文字识别功能，这都属于OCR功能，简单粗暴，批量选择图片，即可识别所有图片中的文字。如下动图演示：

5、复制翻译
看英文文献，有时候懒，如果能有置顶悬浮窗，实时监测剪切板，遇到想要翻译的段落，直接复制，即可给出多国语言翻译结果也是刚需；当然有些论文文本不能复制，所以还复用了截图OCR的功能，对OCR结果进行翻译。如下演示：

6、图种制作
没啥意思，就是将一张图和一个压缩文件合并成一个图片文件，这个生成的图片文件打开是一张图，如果后缀修改为zip，解压后就能看到原先的压缩文件，不做演示了。

三、软件使用
1、下载解压直接运行即可，注意运行弹出的黑窗不能关，目前还没办法去掉，o(╯□╰)o。链接：https://pan.baidu.com/s/1eHuCzBAKtvvSTkHatWzRZA 提取码：usex

2、主界面参数配置，自己动手，输入百度AI的各种接口的key。各种key的获得方法免费，只不过注意免费次数，不过百度免费次数给的肯定够用了。

比如语音识别key获取可参考此文：https://jingyan.baidu.com/article/f3e34a12df0cddf5eb65359f.html

然后给出官方地址

语音转文字：http://ai.baidu.com/tech/speech/asrpro
截图文字识别：http://ai.baidu.com/tech/ocr/general
文字转语音：http://ai.baidu.com/tech/speech/tts
复制翻译：http://fanyi-api.baidu.com/api/trans/product/index