功能定位:从“扫描件”到“可编辑段落”
WPS PDF 的「图片转文字」本质是调用本地 OCR 引擎,把扫描页或内嵌图片中的字符识别为可检索、可复制、可批注的文本层。与早期 2022 版相比,2026 年 2 月推送的 v12.9.1 把识别语言包拆成按需下载,首次使用 42 MB,后续离线运行,不再强制走云端,因而解决了此前“上传慢、涉密不敢用”的痛点。
该功能与「PDF 转换 Word」有重叠但边界清晰:前者仅新增隐形文本层,不会改变版面;后者会重构排版,适合深度编辑。若你只是想在原文件里划重点、搜关键词,用 OCR 即可;若需要改段落、调字号,再走「PDF 转 Word」更顺。
版本演进:三年三次模型替换
2023 年及之前,Windows 端调用的是微软 MODI 遗留接口,中文竖排识别率不足 85%;2024 年改用自研「ZhiWen 1.0」,首次支持表格结构还原;2026 年 2 月集成「ZhiWen 3.0」,官方宣称综合识别率提升 8%,并新增手写体与印章过滤开关。经验性观察:在 300 dpi 扫描、宋体正文场景下,错字率从每页 6–8 个降至 1–2 个。
macOS 与 Linux 端因引擎体积限制,仍停留在「ZhiWen 2.1」,暂不支持手写体模型。若跨平台协作,建议 Windows 端完成 OCR 后另存一份「可搜索副本」,再分发到其他系统,避免回退。
最短操作路径(分平台)
Windows 桌面
- 用 WPS PDF 打开扫描件→顶部菜单「开始」→「图片转文字」。
- 在侧边栏勾选「识别语言」与「输出方式」:
- 纯文本层:生成隐形字,可搜索但肉眼不可见,版面 100% 保持。
- 可见文本:把识别结果以文本框叠加在原图之上,可改字号颜色。
- 点击「开始识别」,数十秒后右侧出现结果预览;点「应用到文档」即完成。
若按钮灰色,说明文件已加密或当前页是矢量文字,无需 OCR;可先「文件→属性→安全」查看是否含密码。
macOS 桌面
入口相同,但「手写体过滤」开关被隐藏;若扫描件含签名,建议先在 Windows 端处理完再回传 Mac。识别过程调用 CPU 而非 GPU,发热明显,建议插电运行。
Android / iOS
打开 PDF→底栏「工具」→「OCR 识别」;移动端的引擎体积被压缩到 18 MB,仅支持中英混合,表格线会被当成字符,经验性观察:识别率比桌面低 5–7%。若文件超过 50 页,建议「拆分后分批识别」:工具→拆分→每 20 页一段,否则容易因内存不足闪退。
批量识别:一次处理 500 页的可行方案
WPS PDF 本身没有「一键批量 OCR」按钮,但可用「动作向导」实现半自动:
- 打开任意扫描件→「动作向导→新建动作」。
- 在命令列表添加「图片转文字」→勾选「全部页面」→保存为「扫描件 OCR」。
- 后续把待处理文件拖进窗口,点「运行动作」即可;实测 i7-12700 + 16 GB 内存,500 页 300 dpi 文件耗时约 25 分钟,生成文件增大 8%–12%。
若电脑休眠会中断,可在「电源管理」里关闭硬盘休眠;笔记本请接电并把「性能模式」调到最高。
参数拆解:语言、DPI、输出方式怎么选
| 参数 | 可选值 | 适用场景 | 常见误区 |
|---|---|---|---|
| 识别语言 | 简中、繁中、英、日、韩、德、法、西、俄 | 多语言混排时至少勾选两种 | 漏选会导致整行乱码 |
| 输出方式 | 纯文本层 / 可见文本 | 纯文本层适合存档,可见文本适合改错 | 选可见文本后文件体积翻倍 |
| DPI 阈值 | 自动检测 | 150 dpi 以下会弹警告 | 强行继续识别率骤降 |
