📷 OCR — 图像 / PDF 转文本

Tesseract 5 + 日语训练模型。从图像 / PDF 提取文本(最大 50 MB,PDF 50 页)。

完全免费无需注册服务器处理无日志 / 数据库限速 VPS 高精度基于开源 5 种语言

🔒 关于隐私

・上传文件传给 Tesseract 后立即删除(/tmp 中存在数秒)。
・不保留 OCR 结果、文件名、大小等任何日志。
・每个 IP 每分钟 30 次请求限制。

选择文件(图像或 PDF)

📂

拖放或点击选择

PNG / JPEG / WebP / GIF / PDF · ≤50MB

语言

结果文本

📖 常见的坑

使用 Tesseract 5 与日文训练模型，从图像（PNG / JPEG / WebP / GIF）或 PDF 中提取文本。最大 50MB，PDF 最多 50 页，每 IP 每分钟 30 次请求。准确率主要取决于输入图像的质量，而非模型本身——同一份文档，以 300dpi 扫描与斜着拍照，结果完全不同。效果不佳时，请先怀疑输入。

情形	会发生什么	怎么处理
准确率比预想的低	Tesseract 是针对铅印文本优化的。因此手写、低分辨率、带花纹的背景、阴影、倾斜、折痕都会让准确率骤降。影响最大的是分辨率：低于 300dpi 时识别率会明显恶化——用手机拍的文件在屏幕上读得清，却往往每个字分到的像素太少。倾斜同样关键：哪怕只歪几度，也会导致行切分失败、多行混在一起。彩色背景与浅色表格线也会被误认成字形，产出多余的符号。	扫描时请务必使用 300dpi 以上、灰度，并做倾斜校正。用相机拍摄时，基本要领是正对拍摄、选没有阴影投下的位置、让文件铺满画面。若有倾斜，请在 OCR 之前先旋转扶正（图像旋转）——仅这一步就可能让结果大不相同。把低分辨率图片放大并不能提高准确率——不存在的信息无法凭空增加，只能重拍。若仍不够，可用提高对比度并二值化的预处理，往往有效。务实的判断标准是：先试 5 页，若不满意，跑 50 页结果也一样——请先提升输入的质量。
形近字被认错	区分形近字，本质上是个困难问题：数字 `1` 与小写 `l`、大写 `I`，`0` 与 `O`，日文中片假名与汉字里长得几乎一样的那些字。人是靠上下文来读它们的——两种近乎相同的写法哪个才对，是从含义推出来的，而不是从字形。最危险的是没有上下文的字符串：型号、序列号、密码、URL——在这些地方基于语言的纠错无从生效，错误就原样留下了。	缩小语言范围能减少误认：纯日文文档选「仅日语」，就消除了与拉丁字母混淆的余地；纯字母数字的文档则选「仅英语」。「日语 + 英语」很方便，但候选一多，误认也随之增多。更有效的是OCR 之后的校验：凡是你知道格式的字符串，都能用正则机械地纠正——若型号是「3 位字母 + 4 位数字」，那么出现在数字位上的 `O` 必定是 `0` 的误读（正则测试器）。而在金额、账号、型号这类「错一个字符就致命」的地方，必须由人对照原件核查。OCR 是减少录入工作量的工具，不是省去核对的工具。
表格与版式全乱了	Tesseract 只识别到「行」这一层，并不还原列或表格结构。因此让它读表格，框线会消失，只剩单元格内容以空格分隔排成一行——输出中没有任何信息告诉你一个单元格到哪里结束。双栏排版同理，左右两栏会逐行交替混在一起。页眉、页脚、页码、边注也不与正文区分，会插进正文中间。	若目的是抽取表格，请使用表格抽取方案而非 OCR——Tabula 与 Camelot 会依据框线与留白推断列。不过它们的前提是带文本层的 PDF，因此对扫描件表格，务实的路径是先用 OCR 转出文字，再由人重新排成表格。多栏文档则先把页面左右切开，再分别 OCR，就能干净地取出（图像裁剪）。说到底，若需要保留版式，OCR 就不是合适的工具——向文档的作者索要原始数据，往往既最可靠也最快。

本工具是本站唯一会把文件发送到服务器的工具——日文训练模型对浏览器来说太大了，因此它的前提与本站其他页面不同。上传的文件只在临时目录中停留数秒，Tesseract 处理结束后立即删除，识别文本、文件名、大小等日志也一概不留。即便如此，仍有一些场合「向外部发送这件事本身」就不被允许：合同、病历、人事资料、未公开的财务信息等，通常都受组织规章约束，禁止传输至外部服务。这种情况下，请在本地安装 tesseract 直接使用（brew install tesseract tesseract-lang 或 apt install tesseract-ocr tesseract-ocr-jpn）——与本页同引擎、同模型，结果也相当。判断标准是「这份文件能不能用邮件发到公司外部」——如果不能，那也不要放进这里。

📖 使用方法

1

选择文件

拖放图像或 PDF(最大 50 MB)。
2

选择语言

日语 + 英语(推荐) / 仅日语 / 仅英语。
3

执行 → 复制或下载

点击执行,复制或下载为 .txt。

❓ 常见问题

准确度如何?

使用 Tesseract 5 与官方日语模型。清晰印刷品 90%+,手写、复杂背景、低分辨率精度下降。

PDF 最多多少页?

PDF 1 ~ 50 页。Ghostscript 转 300dpi PNG 后逐页 OCR。

上传文件会保存吗?

不会。文件在 /tmp 中存在数秒,OCR 完成后立即删除。不保留任何日志。

🔗 相关工具

🐛 此工具出现问题了吗？

免费、无需注册。仅提供复现步骤也有帮助。报告将直接发送给运营者并用于改进。