在浏览器中运行

PDF 转文字

把 PDF 转成文字,立即提取所有内容。适合做研究引用、再编辑、数据提取。

上传 PDF 文件

拖拽 PDF 到这里,或点击选择

单文件最大 50 MB。仅支持 PDF。

本地处理0 上传约 1.2 秒无需账号

隐私保护

所有提取在浏览器里完成,PDF 文件不离开你的设备。

几秒就能提取一份 PDF 的文字。

保留格式

提取过程中保持段落结构和基本格式。

文字提取

在浏览器里从文字型 PDF 中提取可选文字。

PDF 转文字,一句话说完。 把 PDF 拖进上面的工具,下载一份带所有嵌入文字的 TXT——也可以复制到剪贴板,或保存时保留格式。提取在你的浏览器里跑,文件不会离开你的电脑。免费、免注册,单文件最大 50 MB。

PDF 转文字是做什么?

PDF 转文字读取 PDF 文件里嵌入的字符,把它们以纯 TXT 的形式输出。工具会进入 PDF 的内部流,找到真正的字符编码,按阅读顺序写出来。不做图像处理,也不做 OCR——只是把已经在那里的文字「拎」出来。

用户把 PDF 转成文字主要有三个原因。一是想把引文或段落拷到别的文档里,不愿重打。二是需要把内容喂给搜索索引、LLM 提示、或翻译工具。三是无障碍——屏幕阅读器处理纯文字比处理复杂 PDF 顺畅得多。注意:这只对那些本来就含可选文字的数字 PDF 有效。扫描 PDF 需要 OCR,本工具不做这件事。

PDF 转文字四步走

  1. 1

    上传 PDF

    把文件拖到上面的方框或点击选择。工具支持单文件最大 50 MB。

  2. 2

    选择提取模式

    「增强」保留段落结构和换行(默认)。「简单」给出原始字符输出,复杂版面下「增强」出现奇怪间距时用这个。

  3. 3

    点「转换」

    浏览器在本地解析 PDF。30 页报告在 2020 年款笔记本上一般不到 1 秒。

  4. 4

    复制或下载 TXT

    提取的文字会出现在下方面板。复制到剪贴板马上用,或下载成 .txt 归档。

PDF 转文字适用于哪些 PDF?

并不是每份 PDF 都能交出它的文字。下面这张表给出各种常见源类型的预期表现。

源 PDF 类型能提取文字原因
Word / Google Docs 导出文字以真正的字符编码嵌入
LaTeX 或程序生成的报告同上——字符在文件流里
网页「打印为 PDF」浏览器保留了底层文字
扫描的收据或合同页面是图像;文字根本不存在——需要先做 OCR
存成 PDF 的照片同上——纯图像 PDF 没有文字层
文字以轮廓形式嵌入的 PDFpartial能提多少提多少;轮廓化的字体可能输出乱码
加密的 PDF工具读不了加密流;先去掉密码

快速测试方法:在任意阅读器里打开 PDF,用鼠标试着选中文字。如果能高亮并复制,本工具就能提取。如果不能,那是图像型 PDF,需要 OCR。

PDF 转文字 vs PDF 转 PNG vs 手动复制:哪种合适?

三种从 PDF 取出内容的方式,三种不同的正确答案,看你要什么。

情况PDF 转文字PDF 转 PNG手动复制粘贴
从 200 页报告里抽出引文
只需要一句话做引用
把整份文档内容喂给 LLM
原版面要以图像方式保留
转换扫描收据
构建可搜索的归档
翻译这份文档

判断逻辑:要规模化拿到文字——PDF 转文字。视觉比文字重要——PDF 转 PNG。只需要一两个片段——手动复制;超过这个量,批量提取省时间得多。

PDF 转文字常见场景速查表

六种场景覆盖大多数 PDF 转文字需求。下表给出每种场景适合的模式和输出格式。

场景模式推荐输出备注
为研究论文摘录段落增强TXT 下载段落分隔保留
把内容喂给 ChatGPT 或 Claude简单复制到剪贴板噪声小,格式伪影少
构建可搜索索引增强TXT 下载用原文件名保存,方便追溯
翻译文档增强TXT 下载段落分隔有助于翻译工具切片
从发票里提一个电话号码简单复制到剪贴板比在 PDF 里翻页快得多
从财务报告里抽表格数据增强TXT 下载表格输出为空格对齐文本——之后还要清理

如果你的场景不在这里,要给人读就用「增强」,要给机器读就用「简单」。要回头自己再读的,几乎都是「增强」赢。

PDF 转文字常见问题与解决办法

对扫描 PDF 做提取,结果是空的

扫描 PDF 是页面的图像,不是文字。本工具能提取的对象根本不存在。先把文件丢进 OCR 工具生成一层文字,再回来这里做干净的提取。或者,如果你手上还有源文档,从原始程序——Word、Pages、Google Docs——重新导出一份数字 PDF。

输出看起来是乱码

源 PDF 大概率用了把字符编码非标准映射的自定义字体,或者文字被渲染成了轮廓(看上去像字母但不是字符的矢量形状)。先试「简单」模式。如果不行,唯一的办法就是从源文档重新生成 PDF。

表格输出成了凌乱的文本

TXT 没有「单元格」和「列」这两个概念。「增强」模式会用空格对齐表格内容,但单元格里有多行内容时换行会失控。要做真正的表格提取,把对应页面的文字粘到电子表格里手动整理,或者用专门的 PDF 表格工具。

100 MB 以上的 PDF 提取失败

50 MB 的上限是因为更大的文件下浏览器内存会不稳定。先把 PDF 一分为二,分别提取,再把 TXT 文件拼起来。输出是纯文本,任何文本编辑器一条命令就能拼。

5 个让 PDF 转文字更干净的技巧

01

先测试一下能不能选中

在任意阅读器里打开 PDF 试着高亮文字。如果光标不变成文字选中样式,说明这是扫描件,本工具帮不上忙。

02

给人读用「增强」,给机器读用「简单」

你自己要看的内容用「增强」。喂给 LLM 或搜索索引、格式噪声会拖累的场景,用「简单」更好。

03

TXT 文件名跟源 PDF 一致

TXT 的文件名对齐源 PDF(report-2025.pdf → report-2025.txt)。当时省事;事后追溯时省心。

04

从源头重新导出更干净

如果 PDF 是 Word 或 Google Docs 出来的,从源文件重新导一遍,比从一份反复存过的 PDF 提取出来干净得多。

05

OCR 放上游做,不要放下游

如果你经常要从扫描 PDF 提文字,扫描时就 OCR 一次。从已 OCR 的 PDF 提文字比每次都重新 OCR 快得多。

所有工具 100% 免费且安全

完整的 PDF 工具套件

探索我们全面的 PDF 工具集合,旨在处理您的所有文档需求

工具索引 · 26
01

PNG 转 PDF

将 PNG 图片合并为单个可打印的 PDF

Avg 1.2s本地
02

JPG 转 PDF

将 JPG 图片转换为 PDF 格式

Avg 1.4s本地
03

合并 PDF

将多个 PDF 文件合并为一个

Avg 0.8s本地
04

压缩 PDF

高效减小 PDF 文件大小

Avg 2.1s本地
05

PDF 转 PNG

将 PDF 页面转换为 PNG 图片

Avg 1.6s本地
06

PDF 转 JPG

将 PDF 页面转换为 JPG 图片

Avg 1.5s本地
07

PDF 转文本

从 PDF 文件中提取文本内容

Avg 0.9s本地
08

拆分 PDF

将 PDF 拆分为单独的页面

Avg 0.6s本地
09

编辑 PDF

编辑和注释 PDF 文档

Beta本地
10

整理 PDF

整理和重新排列 PDF 页面

Avg 0.7s本地
11

旋转 PDF

旋转 PDF 页面并永久保存

Avg 0.5s本地
12

页码

为 PDF 添加页码并实时预览

Avg 0.6s本地
13

PDF 水印

为 PDF 添加文字水印并实时预览

Avg 0.6s本地
14

HEIC 转 JPG

将 iPhone 的 HEIC 照片转换为 JPG

Avg 1.0s本地
15

删除PDF页面

删掉不需要的页面,下载干净的 PDF

Avg 0.5s本地
16

PDF 提取页面

把选中的页面保存为新 PDF 或单独文件

Avg 0.5s本地
17

PDF 签名

手绘、键入或上传签名,放置到任意页面

Avg 1.0s本地
18

调整PDF大小

把页面尺寸改成 A4、Letter 或自定义大小

Avg 0.6s本地
19

裁剪 PDF

修剪页边距、拖拽框选,或一键去除白边

Avg 0.6s本地
20

拍平 PDF

把表单变为只读——文字保持可搜索,或锁定为图像

Avg 0.7s本地
21

PDF 元数据

查看、编辑或清除作者、标题、日期等元数据

Avg 0.4s本地
22

PDF 转灰度

转为灰度或黑白,打印时节省彩色墨水

Avg 1.8s本地
23

从 PDF 提取图片

把 PDF 内嵌的照片提取出来,保存为 PNG 或 JPG

Avg 0.9s本地
24

WebP 转 PDF

把 WebP 图片转换为 PDF,多张可合并成一个文件

Avg 0.7s本地
25

PDF 加密码

在浏览器中为 PDF 设置打开密码,全程本地完成

Avg 0.3s本地
26

PDF 解除密码

在浏览器中移除 PDF 的已知密码或限制

Avg 1.5s本地

常见问题

关于从 PDF 提取文字的常见疑问

PDF 转文字是免费的吗?

是的——这个页面上的每一次提取都免费,不需要注册。 没有每日次数限制,输出无水印,除了 50 MB 上传大小外没有别的限制。

能从扫描 PDF 里提取文字吗?

不能——本工具提取的是 PDF 里已经嵌入的文字,不是图像里的文字像素。 扫描收据、拍摄的文档、纯图像 PDF 都需要先做 OCR。先用 OCR 工具处理一遍,再回来从 OCR 结果里提文字。

文字格式会保留吗?

段落分隔和换行会保留;字体、颜色和分栏版面不会。 TXT 是纯文本格式,视觉样式没办法在提取过程中保留。表格会输出成「空格对齐」的文本行。

「增强」和「简单」模式有什么区别?

「增强」保留段落结构;「简单」给原始字符输出。 几乎所有给人读的场景都用「增强」更合适。复杂版面下「增强」出奇怪空格时,「简单」往往更稳。

PDF 转文字的文件大小上限是多少?

源 PDF 最大 50 MB。 超过的话浏览器内存就成了瓶颈。先把 PDF 拆成两半,分别提取,再把 TXT 文件拼起来。

PDF 转文字过程中数据安全吗?

本工具不会上传任何东西。 提取完全在你的浏览器里通过 JavaScript 运行。PDF 留在你的设备上,关闭标签页后就从内存释放。

能从加密 PDF 里提取文字吗?

不能直接提——工具读不了加密流。 在 PDF 阅读器里打开,另存一份去掉密码的副本,再对副本做提取。

iPhone 或 Android 上怎么做 PDF 转文字?

这个页面在移动版 Safari 和 Chrome 里都能跑。 触屏控件和桌面端工作方式一样。手机能稳定处理 30 MB 以下的 PDF;超过的话用笔记本更稳。

为什么我提出来的文字是乱码?

源 PDF 大概率用了非标准字符编码的自定义字体。 先试「简单」模式。如果还是乱码,那这份 PDF 把文字渲染成了轮廓——可以的话,从源文档重新生成一遍。

能一次提取多个 PDF 的文字吗?

目前一次只能处理一个 PDF。 需要批量处理就一个一个跑——只要不关标签页,每次的输出会一直留着,下载前可以多次复制结果。

相关 PDF 工具

如果你来这里是为了从 PDF 提取文字,下面这些工具八成是你接下来要用到的:

准备好从 PDF 提取文字了吗?

现在就开始提取。快、准、完全私密,不会上传到任何服务器。

现在就提取文字
PDF 转文字 — 提取 PDF 内容,免费、无需注册 | PNGtoPDF