📷 OCR — 画像・PDF からテキスト抽出

Tesseract 5 + 日本語学習済みモデルで画像 (PNG / JPEG / WebP / GIF) や PDF からテキストを抽出。最大 50MB、PDF は 50 ページまで。

完全無料登録不要サーバー処理ログ・DB 保存なしレート制限あり VPS 高精度版 OSS ベース 5 言語対応

🔒 プライバシーについて

・アップロードファイルは Tesseract に渡された後、即座に削除されます (一時ディレクトリに数秒のみ存在)
・OCR 結果テキスト、入力ファイル名、入力サイズ等のログは一切残しません
・1 IP あたり 1 分 30 リクエストの上限あり

ファイル選択 (画像 or PDF)

📂

ここにドラッグ&ドロップまたはクリックで選択

PNG / JPEG / WebP / GIF / PDF · ≤50MB

言語

結果テキスト

📖 つまずきやすいポイント

Tesseract 5 と日本語の学習済みモデルで、画像 (PNG / JPEG / WebP / GIF) や PDF からテキストを抽出します。最大 50MB、PDF は 50 ページまで、1 IP あたり 30 リクエスト / 分です。精度はモデルの性能ではなく、入力画像の質でほぼ決まります — 同じ文書でも、300dpi でスキャンしたものと、斜めから撮った写真とでは結果がまったく別物になります。うまくいかないときは、まず入力を疑ってください。

ケース	何が起きるか	どうする
精度が思ったより低い	Tesseract は活字の印刷物に最適化されています。したがって手書き・低解像度・背景の模様・影・傾き・折り目があると急激に精度が落ちます。とくに効くのが解像度で、300dpi を下回ると認識率が目に見えて悪化します — スマートフォンで撮った書類は、画面上では読めても文字あたりの画素数が足りていないことがよくあります。傾きも重要で、数度の傾きでも行の切り出しに失敗し、複数行が混ざります。カラーの背景や薄い罫線も、文字と誤認されて余計な記号を生みます。	スキャンするなら 300dpi 以上・グレースケール・傾き補正を必ず行ってください。写真で撮る場合は、真上から・影が入らない位置で・画面いっぱいに書類を写すのが基本です。傾いていたら、OCR の前に回転で直してください (画像回転) — この一手間だけで結果が大きく変わることがあります。低解像度の画像を拡大しても精度は上がりません — 存在しない情報は増えないので、撮り直すしかありません。それでも精度が足りない場合は、コントラストを上げて二値化する前処理が効きます。実務上の判断としては、5 ページ試して満足できなければ、50 ページ流しても結果は同じです — 先に入力の質を上げてください。
似た文字が入れ替わる	形の似た文字の区別は、原理的に難しい問題です — 数字の `1` と小文字の `l` と大文字の `I`、`0` と `O`、日本語なら「ロ」と「口」、「ー」と「一」と「-」。人間はこれを文脈で読んでいます — 「口座」と「ロ座」のどちらが正しいかは、意味が分かるから判断できるのであって、字形だけでは決まりません。とくに危険なのが、文脈を持たない文字列です — 型番・シリアル番号・パスワード・URL は、言語モデルによる補正が効かないので、誤りがそのまま残ります。	言語を絞ると誤認が減ります — 日本語だけの文書なら「日本語のみ」を選ぶと、英字と取り違える余地が消えます。逆に英数字だけの文書なら「英語のみ」です。「日本語 + 英語」は便利ですが、候補が増えるぶん誤認も増えます。より効くのはOCR 後の検証で、書式が分かっている文字列は正規表現で機械的に直せます — 型番が「英字 3 桁 + 数字 4 桁」なら、数字の位置に現れた `O` は `0` の誤認だと確定できます (正規表現テスター)。そして、金額・口座番号・型番のように 1 文字の誤りが致命的になる箇所は、必ず人間が原本と照合してください — OCR は入力の手間を減らす道具であって、確認を省く道具ではありません。
表やレイアウトが崩れる	Tesseract が認識するのは「行」までで、列や表の構造は復元しません。したがって表を読ませると、罫線は消え、セルの中身だけが空白区切りで 1 行に並びます — どこからどこまでが 1 つのセルだったのかは、出力からは分かりません。2 段組の資料も同様で、左段と右段が行ごとに交互に混ざります。ヘッダー・フッター・ページ番号・欄外の注記も本文と区別されず、本文の途中に割り込みます。	表の抽出が目的なら、OCR ではなく表抽出のアプローチを使ってください — Tabula や Camelot は罫線や余白から列を推定します。ただしそれらもテキストレイヤーを持つ PDF が前提なので、スキャンした表はOCR で文字を起こしてから、人が表に組み直すのが現実的です。段組の資料は、ページを左右に切り分けてから別々に OCR するときれいに取れます (画像トリミング)。そもそも、レイアウトを保ったまま取り出したい場合、OCR は適切な道具ではありません — 元の文書の作成者に元データを求めるのが、いちばん確実で速い方法であることが多いです。

このツールは、当サイトで唯一ファイルをサーバーに送信するツールです — 日本語の学習済みモデルはブラウザで動かすには大きすぎるためで、他のツールとは前提が違います。送信されたファイルは一時ディレクトリに数秒だけ置かれ、Tesseract の処理が終わった直後に削除されます。OCR 結果のテキスト・ファイル名・サイズなどのログも一切残していません。それでも、「外部に送信すること自体が許されない」場面はあります — 契約書・カルテ・人事資料・未公開の財務情報などは、組織の規程で外部サービスへの送信が禁じられていることが普通です。そうした場合はローカルに tesseract をインストールして直接使ってください (brew install tesseract tesseract-lang / apt install tesseract-ocr tesseract-ocr-jpn) — このページと同じエンジン・同じモデルなので、結果も同等です。判断の基準は「そのファイルをメールで社外に送ってよいか」です — 送ってよくないなら、ここにも入れないでください。

📖 使い方

1

ファイルを選択

画像 (PNG / JPEG / WebP / GIF) または PDF をドラッグ & ドロップ。最大 50 MB。
2

言語を選ぶ

日本語 + 英語 (推奨)、日本語のみ、英語のみから選択。
3

実行 → コピーまたはダウンロード

「OCR 実行」をクリック。結果はコピー、または .txt としてダウンロード可能。

❓ よくある質問

精度はどの程度？

Tesseract 5 と日本語学習済みモデル (jpn.traineddata) を使用。きれいな印刷物 (本・PDF・スキャン) で 90% 以上、手書き・複雑な背景・低解像度では精度が落ちます。

PDF は何ページまで？

PDF は 1 〜 50 ページまで。Ghostscript で 300dpi のグレースケール PNG にラスタライズしてから各ページを OCR します。

アップロードしたファイルは保存されますか？

いいえ。一時ディレクトリに数秒だけ置かれ、Tesseract が処理を終えた直後に削除されます。OCR 結果テキスト・ファイル名・サイズ等のログも一切残しません。

🔗 関連ツール

🐛 このツールで問題が発生しましたか？

完全無料・登録不要。再現手順だけでも結構です。届いたご報告は運営者に直接届き、修正の参考にします。