PDF をテキストに変換
PDF をテキストに変換し、PDF ファイルからすべての内容をすぐに抽出します。調査・編集・データ抽出に最適です。
PDF ファイルをアップロード
PDF ファイルをここにドラッグ&ドロップ、またはクリックして選択
最大ファイルサイズ:50MB。PDF ファイルのみ対応。
プライバシー保護
すべてのテキスト抽出はブラウザ内でローカルに行われます。PDF ファイルがデバイスから外に出ることはありません。
超高速
最適化された処理エンジンで、PDF ファイルから数秒でテキストを抽出します。
書式の保持
抽出時にテキストの構造・段落・書式を維持します。
テキスト抽出
テキストベースの PDF 文書から、選択可能なテキストをブラウザ内で抽出します。
PDF to テキストを一言で。 上のツールに PDF をドロップし、埋め込みテキストをすべて含む TXT ファイルをダウンロードするだけ —— クリップボードにコピーするか、書式を保持して保存できます。抽出はブラウザ内で実行され、ファイルがデバイスから外に出ることはありません。無料・登録不要・最大 50MB のファイルに対応。
PDF からのテキスト抽出とは?
PDF からのテキスト抽出は、PDF ファイルに埋め込まれたテキスト文字を読み取り、プレーンな TXT ファイルとして出力します。ツールは PDF の内部ストリームに入り、実際の文字コードを見つけ、読む順序で書き出します。画像処理も OCR もなく、すでにそこにあるテキストを取り出すだけです。
PDF をテキストに変換する理由は 3 つあります。1 つ目は、引用や一節を打ち直さずに別の文書へコピーしたいこと。2 つ目は、内容を検索インデックス・LLM のプロンプト・翻訳ツールに入れる必要があること。3 つ目はアクセシビリティ —— スクリーンリーダーは複雑な PDF よりプレーンテキストをうまく扱います。注意点:これは、すでに選択可能なテキストを含むデジタル PDF でのみ機能します。スキャン PDF には OCR が必要で、本ツールは OCR を行いません。
PDF をテキストに変換する 4 ステップ
- 1
PDF をアップロード
上のボックスにファイルをドラッグするか、クリックして参照します。最大 50MB の単一 PDF に対応します。
- 2
抽出モードを選ぶ
「高度」は段落構造と改行を保持します(既定)。「シンプル」は生の文字出力を返し、複雑なレイアウトで「高度」が変な間隔を出すときに役立ちます。
- 3
「変換」をクリック
ブラウザが PDF をローカルで解析します。一般的な 30 ページの報告書なら、2020 年頃のノートパソコンで 1 秒未満で完了します。
- 4
コピーまたは TXT でダウンロード
抽出したテキストが下のパネルに表示されます。すぐに使うにはクリップボードにコピー、保存には .txt でダウンロードします。
どんな PDF が PDF to テキストで使える?
すべての PDF がテキストを差し出すわけではありません。下の表は、よくあるソースの種類ごとに何が期待できるかを示します。
| ソース PDF の種類 | テキスト抽出が機能 | 理由 |
|---|---|---|
| Word / Google ドキュメントの書き出し | テキストが実際の文字コードとして埋め込まれている | |
| LaTeX または生成された報告書 | 同じ —— 文字がファイルストリームにある | |
| Web ページの「PDF へ印刷」 | ブラウザが元のテキストを保持する | |
| スキャンした領収書や契約書 | ページが画像で、抽出すべきテキストがない —— 先に OCR が必要 | |
| PDF として保存された写真 | 同じ —— 画像のみの PDF にはテキストレイヤーがない | |
| テキストをアウトラインとして埋め込んだ PDF | partial | 可能な範囲で抽出。アウトライン化フォントは文字化けすることがある |
| パスワード保護された PDF | 暗号化ストリームを読めない。先にパスワードを解除する |
簡単なテスト:PDF を任意のリーダーで開き、マウスでテキストを選択してみてください。ハイライトしてコピーできれば、本ツールで抽出できます。できなければ、その PDF は画像ベースで OCR が必要です。
PDF to テキスト vs PDF to PNG vs コピー&ペースト:どれが合う?
PDF から内容を取り出す 3 つの方法、必要に応じて正しい答えが 3 つに分かれます。
| 状況 | PDF to テキスト | PDF to PNG | 手動でコピー&ペースト |
|---|---|---|---|
| 200 ページの報告書から引用を抜き出す | |||
| 出典用に 1 行の抜粋が必要 | |||
| 文書の全内容を LLM に入れる | |||
| 元のレイアウトを画像として保持する | |||
| スキャンした領収書を変換 | |||
| 検索可能なアーカイブを作る | |||
| 文書を翻訳する |
考え方:大量に言葉が必要なら PDF to テキスト。言葉より見た目が重要なら PDF to PNG。1〜2 個の抜粋だけならコピー&ペースト —— それ以上は一括抽出が時間で勝ります。
よくある PDF to テキストのシーンのチートシート
6 つのシーンが、ほとんどの PDF to テキスト作業をカバーします。下の表は、各シーンの正しいモードと出力形式を示します。
| シーン | モード | 最適な出力 | 備考 |
|---|---|---|---|
| 研究論文のために一節を引用 | 高度 | TXT ダウンロード | 段落区切りを保持 |
| ChatGPT や Claude に内容を入れる | シンプル | クリップボードにコピー | ノイズが少なく、書式のアーティファクトも少ない |
| 検索可能なインデックスを作る | 高度 | TXT ダウンロード | 追跡しやすいよう元のファイル名で保存 |
| 文書を翻訳する | 高度 | TXT ダウンロード | 段落が翻訳ツールのテキスト分割を助ける |
| 請求書から電話番号を 1 つ抜き出す | シンプル | クリップボードにコピー | PDF をスクロールするより速い |
| 財務報告書から表データを抜き出す | 高度 | TXT ダウンロード | 表は空白で揃えたテキストとして出る —— 後で整える |
シーンがここになければ、人が読む出力には「高度」、機械が読む入力には「シンプル」を既定にしましょう。結果を自分で読み返すなら、「高度」モードがほぼ毎回勝ります。
PDF to テキストのよくある問題と解決法
スキャンした PDF からテキストを抽出したが何も出なかった
スキャン PDF はページの画像であり、テキストではありません。本ツールが抽出すべきものがありません。まずファイルを OCR ツールに通してテキストレイヤーを生成し、それからここに戻ってきれいに抽出してください。あるいは元の文書があれば、ソースのプログラム —— Word・Pages・Google ドキュメント —— から再書き出ししてデジタル PDF を得てください。
出力が文字化けのように見える
PDF が、文字を非標準にマッピングするカスタムフォントを使っているか、テキストがアウトライン(文字に見えるが文字ではないベクター形状)としてエンコードされている可能性が高いです。まず「シンプル」モードを試してください。失敗する場合、唯一の解決策はソース文書から PDF を作り直すことです。
表が乱れたテキストとして出た
TXT にはセルや列の概念がありません。「高度」モードは表の内容を空白で揃えますが、複数行の内容を持つセルは予測できない形で折り返すことがあります。本格的な表抽出には、該当ページのテキストを表計算ソフトにコピーしてそこで整えるか、専用の PDF 表ツールを使ってください。
100MB を超える PDF で抽出が失敗する
50MB の上限は、より大きなファイルでブラウザのメモリが不安定になるために存在します。まず PDF を半分に分割し、各半分を別々に抽出してから、TXT ファイルを連結してください。出力はプレーンテキストなので、連結はどのテキストエディターでも 1 コマンドです。
よりきれいに PDF to テキスト抽出するためのプロのコツ 5 選
まず選択可能か試す
PDF を任意のリーダーで開き、テキストをハイライトしてみてください。カーソルがテキスト選択に変わらなければ、それはスキャンであり、本ツールは役立ちません。
人には「高度」、機械には「シンプル」
自分で読むものには「高度」モードが勝ります。書式のノイズが邪魔になる LLM や検索インデックスにテキストを入れるときは、「シンプル」モードのほうがうまくいきます。
TXT を元のファイル名で保存
TXT 名をソース PDF に合わせます(report-2025.pdf → report-2025.txt)。その場では簡単ですが、後で再構成するのは面倒です。
きれいな出力にはソースから再書き出し
PDF が Word や Google ドキュメント由来なら、ソースから新しく書き出すほうが、何度も保存された PDF から抽出するよりきれいなテキストになります。
OCR は後ではなく前で
スキャン PDF から定期的に抽出するなら、スキャン時に一度 OCR を実行してください。スキャン後 OCR 済みの PDF からテキストを抽出するほうが、毎回 OCR をやり直すよりずっと速いです。
充実の PDF ツール一式
あらゆる文書作業に対応する、当社の充実した PDF ツール群をご覧ください
PNG を PDF に変換
PNG 画像をまとめて、印刷対応の 1 つの PDF に
JPG を PDF に変換
JPG 画像を PDF 形式に変換
PDF 結合
複数の PDF ファイルを 1 つに結合
PDF 圧縮
PDF のファイルサイズを効率よく縮小
PDF を PNG に変換
PDF のページを PNG 画像に変換
PDF をテキストに変換
PDF ファイルからテキスト内容を抽出
PDF 分割
PDF を個別のページに分割
PDF 編集
PDF 文書を編集・注釈
PDF 整理
PDF のページを整理・並べ替え
よくある質問
PDF からのテキスト抽出に関するよくある質問
PDF からのテキスト抽出は無料ですか?
はい —— このページでの抽出はすべて無料・登録不要です。 1 日の上限も、透かしも、50MB のアップロードサイズを超えるファイルごとの制限もありません。
スキャンした PDF からテキストを抽出できますか?
いいえ —— 本ツールは PDF にすでに埋め込まれたテキストを抽出するもので、画像内の文字のピクセルは抽出しません。 スキャンした領収書、撮影した文書、画像のみの PDF には、先に OCR が必要です。OCR ツールに通してから、その OCR 出力からテキストを抽出してください。
テキストの書式は保持されますか?
段落区切りと行末は保持されますが、フォント・色・段組みは保持されません。 TXT はプレーンテキスト形式なので、視覚的なスタイルは抽出を生き残れません。表は空白で揃えたテキスト行として出ます。
「高度」モードと「シンプル」モードの違いは?
「高度」は段落構造を保持し、「シンプル」は生の文字出力を返します。 「高度」は、人が読むほぼすべての用途に適しています。「シンプル」は、複雑なレイアウトが「高度」モードで変な間隔を出すときに役立ちます。
PDF to テキストにはどのファイルサイズ制限が適用されますか?
ソース PDF 1 つにつき 50MB です。 それを超えると、ブラウザのメモリ上限がボトルネックになります。まず PDF を分割し、各半分を抽出してから、TXT ファイルを連結してください。
テキスト抽出中、データは安全ですか?
このツールは何もアップロードしません。 抽出は JavaScript により完全にブラウザ内で実行されます。PDF はデバイス上に留まり、タブを閉じるとメモリから解放されます。
パスワード保護された PDF からテキストを抽出できますか?
直接はできません —— ツールは暗号化ストリームを読めません。 PDF をリーダーで開き、パスワードなしのコピーを保存してから、そのコピーで抽出を実行してください。
iPhone や Android で PDF をテキストに変換するには?
このページはモバイルの Safari と Chrome で動作します。 タッチに優しい操作はパソコンと同じです。モバイル端末は 30MB までの PDF を確実に処理します。より大きなファイルにはノートパソコンが必要なことがあります。
PDF to テキストの出力が文字化けしたのはなぜ?
PDF が、文字を非標準にエンコードするカスタムフォントを使っている可能性が高いです。 まず「シンプル」モードを試してください。それでも文字化けする場合、ソース PDF はテキストをアウトラインとして描画しています —— 可能なら元の文書から作り直してください。
複数の PDF から一度にテキストを抽出できますか?
現在は 1 度に 1 つの PDF です。 バッチ処理には、各ファイルを順番に抽出してください —— 出力はタブを閉じるまで開いたままなので、ダウンロード前に複数の結果をコピーできます。
関連する PDF ツール
PDF からテキストを抽出するためにここに来たなら、次はおそらくこれらのいずれかが必要になります:
- PDF のページを PNG 画像に変換 — 言葉ではなく見た目が必要なときの正しいツール。
- 抽出前に長い PDF を分割 — 50MB の上限を超えるファイルに。
- ソース PDF を圧縮 — 小さい PDF は遅い端末でも速く抽出できる。
- 抽出ではなく PDF を編集 — テキストを取り出すのではなく注釈を追加するときに。
- 当社ツールのしくみ — プライバシーとアーキテクチャの概要。