清华紫光ocr2000文字识别软件使用教程

作者: 专题 2014/12/30 9:35:36

文字识别软件能帮助我们很快捷的把一些图片上面的文字拷贝下来,这里给大家带来的是清华紫光ocr2000文字识别软件使用教程,希望对大家有所帮助。

清华紫光OCR2000的作用----文字识别

为达到快速录入,常将一些报纸书刊等使用扫描仪扫描到电脑中;但扫描后生成的是一个图像文件,不能进行字处理编缉;所以使用OCR软件将扫描后的图像文件识别WORD文件、EXEL文件或记事本文件,可进行字处理编缉。

为达到快速录入,常将一些报纸书刊等使用扫描仪扫描到电脑中;但扫描后生成的是一个图像文件,不能进行字处理编缉;所以使用OCR软件将扫描后的图像文件识别WORD文件、EXEL文件或记事本文件,可进行字处理编缉。

文字识别的处理流程

1 扫描

2 识别

3 编缉修改

4 输出

扫   描

安装好扫描仪及相关驱动

扫描设置

字号在5号字以上,设分辨率300;普通印刷品,亮度为0。

使用“扫描”按钮扫描

识别

1 版面调整  旋转、倾斜校正、剪裁、反转等操作

撤消版面调整操作可使用“恢复图像”命令

2  版面分析   清华TH-OCR 2000千禧专业版的版面区域共有四种类型,即横排正文  、竖排正文  、表格  和图形图像  。在进行识别前必须正确定义图像中各区域的区域类型。

1) 先使用鼠标拖画出一个方框将所需要的区域围住,再定义区域属性.

2)对于比较简单的版面,也可使用“命令”菜单中的“版面分析”命令(F6)

识别

3)图像内如含表格,应先将表格建为独立的区域,然后确定其表格属性。这时系统即自动进行框线检测并将检出的框线(包括内部的表格线)用粉红色线表示。

当要识别的图象表格框线不全时,必须进行虚拟框线检测。(F8)选择【命令[C]】菜单的【 虚拟框线检测[I] 】,系统会将框线自动修补好。

虚拟框线检测必须在框线检测完成后才能进行

识别

3  识别(F2)和 多页识别(CTRL+F2)

编缉修改

显示菜单下---“后编改状态”

前向词汇,以光标所在处前一字为准,进行词汇联想,列出光标处可能的字。

逆向词汇   以光标所在处后一字为准,进行词汇联想,列出光标处可能的字。

相似字  列出与当前光标处相似的字

常用符号  列出键盘不易输入,但又常用的标点符号。

行逆序专门为港台的部分报纸和其它印刷品设计的。一般横排文字的排列是从左到右,而竖排文字则从右到左。在部分繁体材料中有时会出现相反的情况。这时使用行逆序就很方便了。

输出

使用文件菜单中的“导出”命令

若导出的文件想在WORD中进行编缉,则选择“RTF”格式;若是表格,想在EXEL中编缉,则选择“HTML”;也可选择“TXT”,可在任意字处理软件中编缉,但不保留识别前文件的排版格式。

特别推荐

玩家留言 跟帖评论
查看更多评论