什么是PDF文件?

PDF文件无处不在。从技术手册、法律合同到营销宣传册、软件文档,译者经常收到PDF格式的项目。然而,凡是与PDF打过交道的人都清楚,将其转换为可编辑、适合翻译的内容,往往比想象中困难得多。

可移植文档格式(PDF)由Adobe于20世纪90年代开发,旨在跨系统保留文档格式。与Word或HTML文件不同,PDF主要为视觉呈现而设计,而非用于编辑。PDF文件存储的内容包括:文本元素、字体与字形、矢量图形、图像、布局坐标以及嵌入式元数据。

关键在于:PDF文件是基于页面的视觉文档,而非结构化文本文档。换句话说,PDF告诉计算机页面应该呈现成什么样,而不一定说明文本的逻辑结构是什么。这正是将PDF转换为可编辑文本如此困难的根本原因。

PDF转换为何如此困难

当译者尝试将PDF转换为Word等可编辑格式时,通常会遇到以下几类问题。

一、缺乏逻辑结构

与Word文档不同,PDF并不总包含关于段落、标题或阅读顺序的清晰信息。一个三行段落在内部可能以单独定位的文本块形式存储,导致原始段落难以重建。

二、分栏布局问题

许多PDF使用多栏布局,尤其是宣传册、技术手册或学术论文。转换工具必须猜测正确的阅读顺序,结果往往出现串行混乱,在没有手动清理的情况下几乎无法正确翻译。

三、嵌入字体与字符

某些PDF使用嵌入字体或自定义字形,字符形状以图形而非真实文本的形式存储。转换过程中,这些字符可能变为错误字母、缺失字符或奇怪符号。

四、扫描版PDF

许多PDF只是文档的扫描图像,根本不含任何文本,只有图片。要提取文本,系统必须使用光学字符识别(OCR),而这会引入额外的错误。

译者为何频繁收到PDF

尽管存在上述种种限制,PDF在翻译项目中仍然极为普遍。客户偏爱PDF,因为它能保留原始布局、防止意外编辑、便于共享和存档,且在所有设备上显示效果一致。然而,这种对客户的便利往往为译者增添了额外的工作量。

SDL Trados Studio如何转换PDF文件

SDL Trados Studio等专业CAT工具内置了处理PDF的机制。典型工作流程如下:

  1. 将PDF导入SDL Trados Studio
  2. 系统尝试从文档中提取文本
  3. 提取的内容被转换为SDLXLIFF文件
  4. 译者在Trados编辑器中处理SDLXLIFF文件

SDLXLIFF格式是一种双语翻译格式,包含源语言片段、目标语言片段以及标签和格式元数据。然而,SDLXLIFF文件的质量完全取决于原始PDF能否被有效解析。

SDL Trados导入PDF后的常见问题

即使使用SDL Trados,译者在导入PDF后也可能遇到以下问题:

这些问题会显著增加项目的准备时间。

为何在CAT工具外查看转换文件有帮助

译者通常需要在CAT工具外查看提取的内容。使用Word或Excel处理文件,可以检查提取文本的结构、核实分段问题、分析术语使用情况、进行质量检查,并与审校人员或客户共享文件。这在处理大型文档或复杂布局时尤为有用。

使用Linigu转换器转换PDF文件

linigu.cloud上的PDF转换器帮助译者简化PDF文档的处理流程。无需手动提取文本或与格式问题搏斗,转换器可将PDF内容转化为更易于分析和处理的干净、可读格式

借助该工具,译者可以将PDF文件转换为结构化数据、在原始PDF环境外查看文本、为翻译工作流程准备文档,并快速检查提取的内容。这种方式可大幅缩短翻译开始前的准备时间。

译者处理PDF的最佳实践

索取源文件

尽可能请客户提供原始源文件(Word、InDesign等),而非PDF。

先检查提取效果

开始翻译前,务必审查提取的文本。

清理文档

删除格式错误、多余的换行符和重复片段。

使用转换工具

linigu.cloud PDF转换器等工具可简化文档准备流程,减少手动操作。

PDF转换在翻译领域的未来

基于AI的文档识别技术正在迅速提升PDF转换的准确性。现代系统已能识别文本结构、表格布局、文档层级和阅读顺序。随着这些技术的持续发展,译者将越来越多地依赖智能文档转换工具在翻译前准备文件。高效的文档预处理正成为专业翻译工作流程不可或缺的一环。

结语

PDF文件是译者最常遇到、也最具挑战性的格式之一。由于PDF为视觉呈现而非可编辑结构而设计,将其转换为翻译就绪的内容可能产生错误、格式问题和分段问题。SDL Trados Studio等工具尝试将PDF转换为供翻译使用的SDLXLIFF文件,但转换质量在很大程度上取决于原始文档的结构。linigu.cloud上的PDF转换器等专业工具帮助译者更高效地查看和转换PDF文件,从而简化文档准备与质量保证工作。

About the Author

👤
admin

Translator and CAT Tool Expert at Linigu

Share this article

Back to Blog