Data Extractor for Mac 是一款专为 macOS 系统设计的高效数据提取与处理工具。它能够从多种文件格式（如 PDF、图像、网页、文档）中智能识别并提取结构化数据，并将其导出为 CSV、Excel、JSON 等通用格式，极大地简化了数据收集与整理的工作流程。本文旨在提供一份详尽的操作指南，帮助用户快速掌握其核心功能。

一、核心界面与工作区详解

启动软件后，主界面主要分为以下几个功能区域：

菜单栏 (Menu Bar)：位于屏幕顶部，包含“文件”、“编辑”、“视图”、“工具”、“窗口”、“帮助”等所有高级命令入口。
工具栏 (Toolbar)：位于主窗口顶部，提供新建项目、打开文件、运行提取、导出等最常用操作的图标按钮，可自定义。
导航面板 (Navigation Panel)：通常位于窗口左侧，以树状结构或列表形式展示当前项目的所有数据源文件、已定义的提取规则以及提取结果的历史记录。
主工作区 (Main Workspace)：窗口中央的核心区域。根据当前操作不同，它会显示：
- 源文件预览：以原始格式（如PDF页面、网页渲染图）显示加载的文件。
- 数据提取规则编辑器：用于定义和调整数据抓取逻辑的可视化工具。
- 数据预览网格：以表格形式实时展示提取出的数据，支持排序和简单编辑。
属性/日志面板 (Properties/Log Panel)：通常位于窗口底部或右侧。显示当前选中对象（如一个数据字段）的详细属性，或显示提取过程中的操作日志和错误信息。

二、完整操作流程：从项目到导出

以下是从零开始完成一次数据提取任务的标准化流程。

1. 创建或打开项目

步骤一：启动项目

方法：启动软件后，在欢迎界面点击“新建项目”，或通过菜单栏 文件 → 新建项目。
位置：欢迎屏幕或菜单栏“文件”下拉菜单。
快捷键：Command (⌘) + N

步骤二：添加数据源

在新建的项目中，点击工具栏的“添加文件”按钮，或将文件直接拖拽至导航面板的“数据源”区域。
支持批量添加多个文件。

2. 定义数据提取规则

步骤三：选择提取模式

在主工作区预览打开的数据源文件。工具栏通常提供几种提取模式：
- 自动识别：软件自动分析页面结构，尝试识别表格和列表数据。
- 手动框选：用户手动在预览图上框选需要提取的数据区域。
- 基于模板：应用之前保存的提取规则模板。

步骤四：精确定义字段

在“自动识别”或“手动框选”后，工作区会进入规则编辑器。你会看到被识别出的数据区域（通常以彩色框高亮）。
添加/调整字段：点击高亮区域，在弹出的上下文菜单中选择“创建字段”或直接拖动调整框选范围。在右侧属性面板中，可以为字段命名（如“产品名称”、“价格”）。
应用到所有页面：如果数据源是多页文件（如PDF），确保在属性面板中勾选“应用于所有相似页面”或使用“学习”功能，让软件将同一规则应用到其他页面。

3. 执行提取与验证数据

步骤五：运行提取

方法：点击工具栏上的“运行提取”或“开始”按钮。
位置：工具栏中央。
快捷键：Command (⌘) + R

步骤六：检查结果

提取完成后，主工作区会自动切换到“数据预览”网格视图。
逐行、逐列检查提取出的数据是否准确、完整。如有错误，可返回上一步调整提取规则，然后再次运行。

4. 导出最终数据

步骤七：选择导出格式

方法：在数据预览界面，点击工具栏的“导出”按钮。
位置：工具栏右侧。
快捷键：Command (⌘) + E

步骤八：配置导出选项

在弹出的导出对话框中，选择目标格式（如 CSV、Excel XLSX、JSON）。
根据需要配置选项，如 CSV 的分隔符、编码，Excel 的工作表名称，是否包含表头等。
选择保存路径，点击“导出”。

三、常用功能进阶技巧

批量处理技巧：将结构相似的所有文件添加到一个项目中，定义好第一个文件的规则并确保能正确应用到所有页面后，一次性运行提取，即可批量处理所有文件。
正则表达式清洗数据：在字段的属性面板中，找到“数据清洗”或“格式化”选项，可以使用正则表达式来去除多余字符、统一日期格式等，让提取出的数据更干净。
使用“学习”功能处理复杂文档：对于布局不规则的文档，可以在2-3个不同页面上手动校正软件自动识别的错误。软件会“学习”你的校正模式，从而更准确地处理其余页面。
保存与复用提取模板：对于需要定期从固定格式报告中提取数据的工作，在完成一次规则定义后，通过 文件 → 保存为模板 将其保存。下次处理同类文件时，直接加载模板即可，无需重新定义规则。

四、常见问题与解决方案

Q1: 软件无法正确识别PDF中的表格，提取出的数据错位。

A1: 这可能是因为PDF是扫描件或包含复杂边框。尝试：
1) 使用“手动框选”模式，精确框选目标表格区域。
2) 在属性面板中，将“识别模式”从“自动”切换为“文本布局”或“图像”。
3) 如果PDF是扫描图像，确保已启用OCR（光学字符识别）功能（通常在添加文件时或工具菜单中设置）。

Q2: 提取规则在第一页工作正常，但应用到其他页面时失败。

A2: 页面布局可能存在细微差异。请检查：
1) 在规则编辑器中，取消“应用于所有页面”的勾选。
2) 分别查看有问题的页面，使用“学习”功能或手动调整该页面的字段定位框。
3) 确保用于定位字段的上下文元素（如附近的标题文字）在所有页面中都存在且唯一。

Q3: 导出的CSV文件在Excel中打开出现中文乱码。

A3: 这是编码问题。解决方案：
1) 在导出CSV时，在高级设置中将“编码”明确选择为 UTF-8 with BOM（对于Windows Excel兼容性最佳）。
2) 如果已导出，可以用文本编辑器（如VS Code、TextMate）打开CSV文件，另存为UTF-8 BOM格式。

Q4: 从网页保存的文件提取数据，但样式丢失导致无法识别。

A4: Data Extractor 主要处理静态文件。对于动态网页内容，建议：
1) 使用浏览器的“打印”功能将网页保存为PDF，再用此软件处理PDF。
2) 或寻找专业的网页抓取工具获取数据后，再导入本软件进行整理。

五、快捷键汇总表

功能分类	操作描述	Mac 快捷键
文件操作	新建项目	⌘ + N
打开项目	⌘ + O
保存项目	⌘ + S
导出数据	⌘ + E
编辑操作	撤销	⌘ + Z
重做	⌘ + Shift + Z
复制选中数据/字段	⌘ + C
项目操作	运行/开始提取	⌘ + R
停止提取	⌘ + .
添加文件到项目	⌘ + I
视图控制	放大预览	⌘ + +
缩小预览	⌘ + –
通用	显示/隐藏导航面板	⌘ + 0
通用	打开软件偏好设置	⌘ + ,