PDF 转文字
把 PDF 转成文字,立即提取所有内容。适合做研究引用、再编辑、数据提取。
上传 PDF 文件
拖拽 PDF 到这里,或点击选择
单文件最大 50 MB。仅支持 PDF。
隐私保护
所有提取在浏览器里完成,PDF 文件不离开你的设备。
快
几秒就能提取一份 PDF 的文字。
保留格式
提取过程中保持段落结构和基本格式。
文字提取
在浏览器里从文字型 PDF 中提取可选文字。
PDF 转文字,一句话说完。 把 PDF 拖进上面的工具,下载一份带所有嵌入文字的 TXT——也可以复制到剪贴板,或保存时保留格式。提取在你的浏览器里跑,文件不会离开你的电脑。免费、免注册,单文件最大 50 MB。
PDF 转文字是做什么?
PDF 转文字读取 PDF 文件里嵌入的字符,把它们以纯 TXT 的形式输出。工具会进入 PDF 的内部流,找到真正的字符编码,按阅读顺序写出来。不做图像处理,也不做 OCR——只是把已经在那里的文字「拎」出来。
用户把 PDF 转成文字主要有三个原因。一是想把引文或段落拷到别的文档里,不愿重打。二是需要把内容喂给搜索索引、LLM 提示、或翻译工具。三是无障碍——屏幕阅读器处理纯文字比处理复杂 PDF 顺畅得多。注意:这只对那些本来就含可选文字的数字 PDF 有效。扫描 PDF 需要 OCR,本工具不做这件事。
PDF 转文字四步走
- 1
上传 PDF
把文件拖到上面的方框或点击选择。工具支持单文件最大 50 MB。
- 2
选择提取模式
「增强」保留段落结构和换行(默认)。「简单」给出原始字符输出,复杂版面下「增强」出现奇怪间距时用这个。
- 3
点「转换」
浏览器在本地解析 PDF。30 页报告在 2020 年款笔记本上一般不到 1 秒。
- 4
复制或下载 TXT
提取的文字会出现在下方面板。复制到剪贴板马上用,或下载成 .txt 归档。
PDF 转文字适用于哪些 PDF?
并不是每份 PDF 都能交出它的文字。下面这张表给出各种常见源类型的预期表现。
| 源 PDF 类型 | 能提取文字 | 原因 |
|---|---|---|
| Word / Google Docs 导出 | 文字以真正的字符编码嵌入 | |
| LaTeX 或程序生成的报告 | 同上——字符在文件流里 | |
| 网页「打印为 PDF」 | 浏览器保留了底层文字 | |
| 扫描的收据或合同 | 页面是图像;文字根本不存在——需要先做 OCR | |
| 存成 PDF 的照片 | 同上——纯图像 PDF 没有文字层 | |
| 文字以轮廓形式嵌入的 PDF | partial | 能提多少提多少;轮廓化的字体可能输出乱码 |
| 加密的 PDF | 工具读不了加密流;先去掉密码 |
快速测试方法:在任意阅读器里打开 PDF,用鼠标试着选中文字。如果能高亮并复制,本工具就能提取。如果不能,那是图像型 PDF,需要 OCR。
PDF 转文字 vs PDF 转 PNG vs 手动复制:哪种合适?
三种从 PDF 取出内容的方式,三种不同的正确答案,看你要什么。
| 情况 | PDF 转文字 | PDF 转 PNG | 手动复制粘贴 |
|---|---|---|---|
| 从 200 页报告里抽出引文 | |||
| 只需要一句话做引用 | |||
| 把整份文档内容喂给 LLM | |||
| 原版面要以图像方式保留 | |||
| 转换扫描收据 | |||
| 构建可搜索的归档 | |||
| 翻译这份文档 |
判断逻辑:要规模化拿到文字——PDF 转文字。视觉比文字重要——PDF 转 PNG。只需要一两个片段——手动复制;超过这个量,批量提取省时间得多。
PDF 转文字常见场景速查表
六种场景覆盖大多数 PDF 转文字需求。下表给出每种场景适合的模式和输出格式。
| 场景 | 模式 | 推荐输出 | 备注 |
|---|---|---|---|
| 为研究论文摘录段落 | 增强 | TXT 下载 | 段落分隔保留 |
| 把内容喂给 ChatGPT 或 Claude | 简单 | 复制到剪贴板 | 噪声小,格式伪影少 |
| 构建可搜索索引 | 增强 | TXT 下载 | 用原文件名保存,方便追溯 |
| 翻译文档 | 增强 | TXT 下载 | 段落分隔有助于翻译工具切片 |
| 从发票里提一个电话号码 | 简单 | 复制到剪贴板 | 比在 PDF 里翻页快得多 |
| 从财务报告里抽表格数据 | 增强 | TXT 下载 | 表格输出为空格对齐文本——之后还要清理 |
如果你的场景不在这里,要给人读就用「增强」,要给机器读就用「简单」。要回头自己再读的,几乎都是「增强」赢。
PDF 转文字常见问题与解决办法
对扫描 PDF 做提取,结果是空的
扫描 PDF 是页面的图像,不是文字。本工具能提取的对象根本不存在。先把文件丢进 OCR 工具生成一层文字,再回来这里做干净的提取。或者,如果你手上还有源文档,从原始程序——Word、Pages、Google Docs——重新导出一份数字 PDF。
输出看起来是乱码
源 PDF 大概率用了把字符编码非标准映射的自定义字体,或者文字被渲染成了轮廓(看上去像字母但不是字符的矢量形状)。先试「简单」模式。如果不行,唯一的办法就是从源文档重新生成 PDF。
表格输出成了凌乱的文本
TXT 没有「单元格」和「列」这两个概念。「增强」模式会用空格对齐表格内容,但单元格里有多行内容时换行会失控。要做真正的表格提取,把对应页面的文字粘到电子表格里手动整理,或者用专门的 PDF 表格工具。
100 MB 以上的 PDF 提取失败
50 MB 的上限是因为更大的文件下浏览器内存会不稳定。先把 PDF 一分为二,分别提取,再把 TXT 文件拼起来。输出是纯文本,任何文本编辑器一条命令就能拼。
5 个让 PDF 转文字更干净的技巧
先测试一下能不能选中
在任意阅读器里打开 PDF 试着高亮文字。如果光标不变成文字选中样式,说明这是扫描件,本工具帮不上忙。
给人读用「增强」,给机器读用「简单」
你自己要看的内容用「增强」。喂给 LLM 或搜索索引、格式噪声会拖累的场景,用「简单」更好。
TXT 文件名跟源 PDF 一致
TXT 的文件名对齐源 PDF(report-2025.pdf → report-2025.txt)。当时省事;事后追溯时省心。
从源头重新导出更干净
如果 PDF 是 Word 或 Google Docs 出来的,从源文件重新导一遍,比从一份反复存过的 PDF 提取出来干净得多。
OCR 放上游做,不要放下游
如果你经常要从扫描 PDF 提文字,扫描时就 OCR 一次。从已 OCR 的 PDF 提文字比每次都重新 OCR 快得多。
完整的 PDF 工具套件
探索我们全面的 PDF 工具集合,旨在处理您的所有文档需求
PNG 转 PDF
将 PNG 图片合并为单个可打印的 PDF
JPG 转 PDF
将 JPG 图片转换为 PDF 格式
合并 PDF
将多个 PDF 文件合并为一个
压缩 PDF
高效减小 PDF 文件大小
PDF 转 PNG
将 PDF 页面转换为 PNG 图片
PDF 转文本
从 PDF 文件中提取文本内容
拆分 PDF
将 PDF 拆分为单独的页面
编辑 PDF
编辑和注释 PDF 文档
整理 PDF
整理和重新排列 PDF 页面
常见问题
关于从 PDF 提取文字的常见疑问
PDF 转文字是免费的吗?
是的——这个页面上的每一次提取都免费,不需要注册。 没有每日次数限制,输出无水印,除了 50 MB 上传大小外没有别的限制。
能从扫描 PDF 里提取文字吗?
不能——本工具提取的是 PDF 里已经嵌入的文字,不是图像里的文字像素。 扫描收据、拍摄的文档、纯图像 PDF 都需要先做 OCR。先用 OCR 工具处理一遍,再回来从 OCR 结果里提文字。
文字格式会保留吗?
段落分隔和换行会保留;字体、颜色和分栏版面不会。 TXT 是纯文本格式,视觉样式没办法在提取过程中保留。表格会输出成「空格对齐」的文本行。
「增强」和「简单」模式有什么区别?
「增强」保留段落结构;「简单」给原始字符输出。 几乎所有给人读的场景都用「增强」更合适。复杂版面下「增强」出奇怪空格时,「简单」往往更稳。
PDF 转文字的文件大小上限是多少?
源 PDF 最大 50 MB。 超过的话浏览器内存就成了瓶颈。先把 PDF 拆成两半,分别提取,再把 TXT 文件拼起来。
PDF 转文字过程中数据安全吗?
本工具不会上传任何东西。 提取完全在你的浏览器里通过 JavaScript 运行。PDF 留在你的设备上,关闭标签页后就从内存释放。
能从加密 PDF 里提取文字吗?
不能直接提——工具读不了加密流。 在 PDF 阅读器里打开,另存一份去掉密码的副本,再对副本做提取。
iPhone 或 Android 上怎么做 PDF 转文字?
这个页面在移动版 Safari 和 Chrome 里都能跑。 触屏控件和桌面端工作方式一样。手机能稳定处理 30 MB 以下的 PDF;超过的话用笔记本更稳。
为什么我提出来的文字是乱码?
源 PDF 大概率用了非标准字符编码的自定义字体。 先试「简单」模式。如果还是乱码,那这份 PDF 把文字渲染成了轮廓——可以的话,从源文档重新生成一遍。
能一次提取多个 PDF 的文字吗?
目前一次只能处理一个 PDF。 需要批量处理就一个一个跑——只要不关标签页,每次的输出会一直留着,下载前可以多次复制结果。
相关 PDF 工具
如果你来这里是为了从 PDF 提取文字,下面这些工具八成是你接下来要用到的:
- 把 PDF 页面转成 PNG 图片 — 需要外观而不是文字时用这个。
- 提取前先拆分长 PDF — 处理超过 50 MB 上限的文件。
- 压缩源 PDF — 更小的 PDF 在慢设备上提取更快。
- 改用编辑而不是提取 — 想加批注而不是把文字拎出来。
- 我们的工具是怎么运作的 — 隐私机制和架构概览。