Data Extractor for Mac 是一款专为 macOS 系统设计的高效数据提取与处理工具。它能够从多种文件格式(如 PDF、图像、网页、文档)中智能识别并提取结构化数据,并将其导出为 CSV、Excel、JSON 等通用格式,极大地简化了数据收集与整理的工作流程。本文旨在提供一份详尽的操作指南,帮助用户快速掌握其核心功能。
一、核心界面与工作区详解
启动软件后,主界面主要分为以下几个功能区域:
- 菜单栏 (Menu Bar):位于屏幕顶部,包含“文件”、“编辑”、“视图”、“工具”、“窗口”、“帮助”等所有高级命令入口。
- 工具栏 (Toolbar):位于主窗口顶部,提供新建项目、打开文件、运行提取、导出等最常用操作的图标按钮,可自定义。
- 导航面板 (Navigation Panel):通常位于窗口左侧,以树状结构或列表形式展示当前项目的所有数据源文件、已定义的提取规则以及提取结果的历史记录。
- 主工作区 (Main Workspace):窗口中央的核心区域。根据当前操作不同,它会显示:
- 源文件预览:以原始格式(如PDF页面、网页渲染图)显示加载的文件。
- 数据提取规则编辑器:用于定义和调整数据抓取逻辑的可视化工具。
- 数据预览网格:以表格形式实时展示提取出的数据,支持排序和简单编辑。
- 属性/日志面板 (Properties/Log Panel):通常位于窗口底部或右侧。显示当前选中对象(如一个数据字段)的详细属性,或显示提取过程中的操作日志和错误信息。
二、完整操作流程:从项目到导出
以下是从零开始完成一次数据提取任务的标准化流程。
1. 创建或打开项目
步骤一:启动项目
- 方法:启动软件后,在欢迎界面点击“新建项目”,或通过菜单栏
文件 → 新建项目。 - 位置:欢迎屏幕或菜单栏“文件”下拉菜单。
- 快捷键:
Command (⌘) + N
步骤二:添加数据源
- 在新建的项目中,点击工具栏的“添加文件”按钮,或将文件直接拖拽至导航面板的“数据源”区域。
- 支持批量添加多个文件。
2. 定义数据提取规则
步骤三:选择提取模式
- 在主工作区预览打开的数据源文件。工具栏通常提供几种提取模式:
- 自动识别:软件自动分析页面结构,尝试识别表格和列表数据。
- 手动框选:用户手动在预览图上框选需要提取的数据区域。
- 基于模板:应用之前保存的提取规则模板。
步骤四:精确定义字段
- 在“自动识别”或“手动框选”后,工作区会进入规则编辑器。你会看到被识别出的数据区域(通常以彩色框高亮)。
- 添加/调整字段:点击高亮区域,在弹出的上下文菜单中选择“创建字段”或直接拖动调整框选范围。在右侧属性面板中,可以为字段命名(如“产品名称”、“价格”)。
- 应用到所有页面:如果数据源是多页文件(如PDF),确保在属性面板中勾选“应用于所有相似页面”或使用“学习”功能,让软件将同一规则应用到其他页面。
3. 执行提取与验证数据
步骤五:运行提取
- 方法:点击工具栏上的“运行提取”或“开始”按钮。
- 位置:工具栏中央。
- 快捷键:
Command (⌘) + R
步骤六:检查结果
- 提取完成后,主工作区会自动切换到“数据预览”网格视图。
- 逐行、逐列检查提取出的数据是否准确、完整。如有错误,可返回上一步调整提取规则,然后再次运行。
4. 导出最终数据
步骤七:选择导出格式
- 方法:在数据预览界面,点击工具栏的“导出”按钮。
- 位置:工具栏右侧。
- 快捷键:
Command (⌘) + E
步骤八:配置导出选项
- 在弹出的导出对话框中,选择目标格式(如 CSV、Excel XLSX、JSON)。
- 根据需要配置选项,如 CSV 的分隔符、编码,Excel 的工作表名称,是否包含表头等。
- 选择保存路径,点击“导出”。
三、常用功能进阶技巧
- 批量处理技巧:将结构相似的所有文件添加到一个项目中,定义好第一个文件的规则并确保能正确应用到所有页面后,一次性运行提取,即可批量处理所有文件。
- 正则表达式清洗数据:在字段的属性面板中,找到“数据清洗”或“格式化”选项,可以使用正则表达式来去除多余字符、统一日期格式等,让提取出的数据更干净。
- 使用“学习”功能处理复杂文档:对于布局不规则的文档,可以在2-3个不同页面上手动校正软件自动识别的错误。软件会“学习”你的校正模式,从而更准确地处理其余页面。
- 保存与复用提取模板:对于需要定期从固定格式报告中提取数据的工作,在完成一次规则定义后,通过
文件 → 保存为模板将其保存。下次处理同类文件时,直接加载模板即可,无需重新定义规则。
四、常见问题与解决方案
Q1: 软件无法正确识别PDF中的表格,提取出的数据错位。
A1: 这可能是因为PDF是扫描件或包含复杂边框。尝试:
1) 使用“手动框选”模式,精确框选目标表格区域。
2) 在属性面板中,将“识别模式”从“自动”切换为“文本布局”或“图像”。
3) 如果PDF是扫描图像,确保已启用OCR(光学字符识别)功能(通常在添加文件时或工具菜单中设置)。
Q2: 提取规则在第一页工作正常,但应用到其他页面时失败。
A2: 页面布局可能存在细微差异。请检查:
1) 在规则编辑器中,取消“应用于所有页面”的勾选。
2) 分别查看有问题的页面,使用“学习”功能或手动调整该页面的字段定位框。
3) 确保用于定位字段的上下文元素(如附近的标题文字)在所有页面中都存在且唯一。
Q3: 导出的CSV文件在Excel中打开出现中文乱码。
A3: 这是编码问题。解决方案:
1) 在导出CSV时,在高级设置中将“编码”明确选择为 UTF-8 with BOM(对于Windows Excel兼容性最佳)。
2) 如果已导出,可以用文本编辑器(如VS Code、TextMate)打开CSV文件,另存为UTF-8 BOM格式。
Q4: 从网页保存的文件提取数据,但样式丢失导致无法识别。
A4: Data Extractor 主要处理静态文件。对于动态网页内容,建议:
1) 使用浏览器的“打印”功能将网页保存为PDF,再用此软件处理PDF。
2) 或寻找专业的网页抓取工具获取数据后,再导入本软件进行整理。
五、快捷键汇总表
| 功能分类 | 操作描述 | Mac 快捷键 |
|---|---|---|
| 文件操作 | 新建项目 | ⌘ + N |
| 打开项目 | ⌘ + O | |
| 保存项目 | ⌘ + S | |
| 导出数据 | ⌘ + E | |
| 编辑操作 | 撤销 | ⌘ + Z |
| 重做 | ⌘ + Shift + Z | |
| 复制选中数据/字段 | ⌘ + C | |
| 项目操作 | 运行/开始提取 | ⌘ + R |
| 停止提取 | ⌘ + . | |
| 添加文件到项目 | ⌘ + I | |
| 视图控制 | 放大预览 | ⌘ + + |
| 缩小预览 | ⌘ + – | |
| 通用 | 显示/隐藏导航面板 | ⌘ + 0 |
| 通用 | 打开软件偏好设置 | ⌘ + , |









