FineReader Sprint 术语表

A B C D F I L O P R S T U

A

活动区域是图像上可以删除、移动或修改的选中区域。要激活一块区域,请单击它。围绕激活区域的边框为粗体,且含有一些小方块,拖动这些方块可更改区域的大小。

自动文档进纸器(ADF)是用于将文档自动放入扫描仪的设备。带有 ADF 的扫描仪不需手动操作就可扫描多个页面。FineReader Sprint 还支持多页文档。

ADRT®(适应性文档识别技术,Adaptive Document Recognition Technology)是一种可以提高多页文档转换质量的技术。例如,该技术能识别标题、页眉页脚、脚注、页码和签名等结构元素。

区域是图像上被边框所包围的部分,包含某种类型的数据。FineReader Sprint 在执行 OCR 之前,先要检测文本、图片、表格和条码区域,以确定图像上需要识别的部分以及识别顺序。

区域模板是包含一系列外观相似的文档的区域尺寸和位置信息的模板。

B

背景图像区域为图片区域,包括其上打印有文本的图片。

条码区域是包含条码的图像区域。

C

代码页是建立字符代码与字符间相互关系的表。用户可从代码页提供的字符集中选择所需字符。

色彩模式确定是否保留文档颜色。黑白图像可以生成更小的 FineReader 文档,且能够更快处理。

D

文档分析是识别包含多种数据类型的文档和区域逻辑结构元素的过程,可以自动或手动执行文档分析。

文档打开密码是阻止用户打开 PDF 文档的密码,用户只有在键入作者指定的密码后才能打开该 PDF 文档。

每英寸的点数 (dpi)是图像分辨率的度量标准。

驱动程序是用于控制计算机外围设备(例如扫描仪、显示器等)的软件程序。

FineReader 文档是一类由 FineReader Sprint 创建的对象,用于处理纸质文档。它包括页面图像、已识别文本(如果 FineReader Sprint 识别出文本)、识别语言和导出设置。

忽略的字符单词中出现的任何非字母字符(如音节字符或重音符号)。拼写检查时会忽略这些字符。

倒像是具有白色字符和黑暗背景的图像。

L

连字是两个或更多粘合字符的组合(如 fi、fl、ffi)。FineReader Sprint 很难将这些字符分开。将它们按一个合成字符处理可提高 OCR 准确性。

O

可选连字符 一种连字符 (¬),表示当位于行尾的单词或词组需要拆开时,拆分的确切位置(如“autoformat”应拆分成“auto-”和“format”)。FineReader Sprint 会以可选连字符替换词典单词中出现的所有连字符。

P

页面布局指页面上文本、表格、图片、段落和列的排列,还包括字体、字体大小、字体颜色、文本背景和文本方向。

页面布局分析是检测页面图像上的区域的过程。区域可分为六种类型:文本、图片、表格、条码、背景图片和识别区域。页面布局分析可在单击“读取”按钮时自动执行,也可由用户在进行 OCR 操作前手动执行。

PDF 安全性设置是防止打开、编辑、复制或打印 PDF 文档的限制。这些设置包括“文档打开密码”、“权限密码”和加密等级。

权限密码是阻止其他用户打印和编辑 PDF 文档的密码,这些用户只有在键入作者指定的密码后才可对该文档进行这些操作。如果对文档选择了某些安全性设置,其他用户必须输入密码才能更改这些设置。

图片区域是包含图片的图像区域。此类区域可以包含实际图片或将显示为图片的其他任何对象(如文本部分)。

主要形式是单词的“词典”形式(词典条目的词条通常以主要形式给出)。

禁用字符如果某些字符永远不会出现在需要识别的文本中,则这些字符会被纳入禁用字符列表中。指定这些字符可提高 OCR 的速度和质量。

R

分辨率是以每英寸的点数 (dpi) 为单位的扫描参数。设置为 10pt 字体大小及更大的文本应使用 300 dpi 的分辨率,而以较小字体大小(9pt 及更小)打印的文本适合使用 400 至 600 dpi 的分辨率。

识别区域是一个图像区域,在您单击“读取”按钮时,FineReader Sprint 应该分析并自动读取该区域。

S

扫描仪是将图像输入计算机的设备。

扫描模式是一项扫描参数,它确定是否必须以黑白、灰度或彩色扫描图像。

分隔符是可分隔单词的符号(如 /、\、—),它们自身通过单词中的空格来分隔。

支持 ID是由一系列数字组成的唯一识别符。支持 ID 提供了额外防护,在提供技术支持前由技术支持服务人员核准。

T

表格区域是包含表格形式的数据的图像区域。应用程序读取此类区域时,会在区域内部绘制垂直和水平分隔线以形成表格。该区域在输出文本中显示为表格。

带标记的 PDF 是包含逻辑部分、图片和表格等文档结构信息的 PDF 文档。该结构通过 PDF 标记进行编码。有此类标记的 PDF 文档可重新载入以适合各种屏幕尺寸,在手持设备上显示效果也很好。

文本区域为包含文本的图像区域。请注意,文本区域只能含有单列文本。

U

不确定字符是可能被程序错误识别的字符。

Unicode 是一种由 Unicode Consortium (Unicode, Inc.) 开发的标准。该标准是一种 16 位国际编码系统,用于处理文本。该标准决定字符编码,以及在处理以某些语言编写的文本时使用的属性和步骤。