Data Extractor for Mac 详细使用指南

Data Extractor for Mac 是一款专为 macOS 系统设计的高效数据提取与处理工具。它能够从多种文件格式(如 PDF、图像、网页、文档)中智能识别并提取结构化数据,并将其导出为 CSV、Excel、JSON 等通用格式,极大地简化了数据收集与整理的工作流程。本文旨在提供一份详尽的操作指南,帮助用户快速掌握其核心功能。

一、核心界面与工作区详解

启动软件后,主界面主要分为以下几个功能区域:

  • 菜单栏 (Menu Bar):位于屏幕顶部,包含“文件”、“编辑”、“视图”、“工具”、“窗口”、“帮助”等所有高级命令入口。
  • 工具栏 (Toolbar):位于主窗口顶部,提供新建项目、打开文件、运行提取、导出等最常用操作的图标按钮,可自定义。
  • 导航面板 (Navigation Panel):通常位于窗口左侧,以树状结构或列表形式展示当前项目的所有数据源文件、已定义的提取规则以及提取结果的历史记录。
  • 主工作区 (Main Workspace):窗口中央的核心区域。根据当前操作不同,它会显示:
    • 源文件预览:以原始格式(如PDF页面、网页渲染图)显示加载的文件。
    • 数据提取规则编辑器:用于定义和调整数据抓取逻辑的可视化工具。
    • 数据预览网格:以表格形式实时展示提取出的数据,支持排序和简单编辑。
  • 属性/日志面板 (Properties/Log Panel):通常位于窗口底部或右侧。显示当前选中对象(如一个数据字段)的详细属性,或显示提取过程中的操作日志和错误信息。

二、完整操作流程:从项目到导出

以下是从零开始完成一次数据提取任务的标准化流程。

1. 创建或打开项目

步骤一:启动项目

  • 方法:启动软件后,在欢迎界面点击“新建项目”,或通过菜单栏 文件 → 新建项目
  • 位置:欢迎屏幕或菜单栏“文件”下拉菜单。
  • 快捷键Command (⌘) + N

步骤二:添加数据源

  • 在新建的项目中,点击工具栏的“添加文件”按钮,或将文件直接拖拽至导航面板的“数据源”区域。
  • 支持批量添加多个文件。

2. 定义数据提取规则

步骤三:选择提取模式

  • 在主工作区预览打开的数据源文件。工具栏通常提供几种提取模式:
    • 自动识别:软件自动分析页面结构,尝试识别表格和列表数据。
    • 手动框选:用户手动在预览图上框选需要提取的数据区域。
    • 基于模板:应用之前保存的提取规则模板。

步骤四:精确定义字段

  • 在“自动识别”或“手动框选”后,工作区会进入规则编辑器。你会看到被识别出的数据区域(通常以彩色框高亮)。
  • 添加/调整字段:点击高亮区域,在弹出的上下文菜单中选择“创建字段”或直接拖动调整框选范围。在右侧属性面板中,可以为字段命名(如“产品名称”、“价格”)。
  • 应用到所有页面:如果数据源是多页文件(如PDF),确保在属性面板中勾选“应用于所有相似页面”或使用“学习”功能,让软件将同一规则应用到其他页面。

3. 执行提取与验证数据

步骤五:运行提取

  • 方法:点击工具栏上的“运行提取”或“开始”按钮。
  • 位置:工具栏中央。
  • 快捷键Command (⌘) + R

步骤六:检查结果

  • 提取完成后,主工作区会自动切换到“数据预览”网格视图。
  • 逐行、逐列检查提取出的数据是否准确、完整。如有错误,可返回上一步调整提取规则,然后再次运行。

4. 导出最终数据

步骤七:选择导出格式

  • 方法:在数据预览界面,点击工具栏的“导出”按钮。
  • 位置:工具栏右侧。
  • 快捷键Command (⌘) + E

步骤八:配置导出选项

  • 在弹出的导出对话框中,选择目标格式(如 CSV、Excel XLSX、JSON)。
  • 根据需要配置选项,如 CSV 的分隔符、编码,Excel 的工作表名称,是否包含表头等。
  • 选择保存路径,点击“导出”。

三、常用功能进阶技巧

  • 批量处理技巧:将结构相似的所有文件添加到一个项目中,定义好第一个文件的规则并确保能正确应用到所有页面后,一次性运行提取,即可批量处理所有文件。
  • 正则表达式清洗数据:在字段的属性面板中,找到“数据清洗”或“格式化”选项,可以使用正则表达式来去除多余字符、统一日期格式等,让提取出的数据更干净。
  • 使用“学习”功能处理复杂文档:对于布局不规则的文档,可以在2-3个不同页面上手动校正软件自动识别的错误。软件会“学习”你的校正模式,从而更准确地处理其余页面。
  • 保存与复用提取模板:对于需要定期从固定格式报告中提取数据的工作,在完成一次规则定义后,通过 文件 → 保存为模板 将其保存。下次处理同类文件时,直接加载模板即可,无需重新定义规则。

四、常见问题与解决方案

Q1: 软件无法正确识别PDF中的表格,提取出的数据错位。

A1: 这可能是因为PDF是扫描件或包含复杂边框。尝试:
1) 使用“手动框选”模式,精确框选目标表格区域。
2) 在属性面板中,将“识别模式”从“自动”切换为“文本布局”或“图像”。
3) 如果PDF是扫描图像,确保已启用OCR(光学字符识别)功能(通常在添加文件时或工具菜单中设置)。

Q2: 提取规则在第一页工作正常,但应用到其他页面时失败。

A2: 页面布局可能存在细微差异。请检查:
1) 在规则编辑器中,取消“应用于所有页面”的勾选。
2) 分别查看有问题的页面,使用“学习”功能或手动调整该页面的字段定位框。
3) 确保用于定位字段的上下文元素(如附近的标题文字)在所有页面中都存在且唯一。

Q3: 导出的CSV文件在Excel中打开出现中文乱码。

A3: 这是编码问题。解决方案:
1) 在导出CSV时,在高级设置中将“编码”明确选择为 UTF-8 with BOM(对于Windows Excel兼容性最佳)。
2) 如果已导出,可以用文本编辑器(如VS Code、TextMate)打开CSV文件,另存为UTF-8 BOM格式。

Q4: 从网页保存的文件提取数据,但样式丢失导致无法识别。

A4: Data Extractor 主要处理静态文件。对于动态网页内容,建议:
1) 使用浏览器的“打印”功能将网页保存为PDF,再用此软件处理PDF。
2) 或寻找专业的网页抓取工具获取数据后,再导入本软件进行整理。

五、快捷键汇总表

功能分类 操作描述 Mac 快捷键
文件操作 新建项目 ⌘ + N
打开项目 ⌘ + O
保存项目 ⌘ + S
导出数据 ⌘ + E
编辑操作 撤销 ⌘ + Z
重做 ⌘ + Shift + Z
复制选中数据/字段 ⌘ + C
项目操作 运行/开始提取 ⌘ + R
停止提取 ⌘ + .
添加文件到项目 ⌘ + I
视图控制 放大预览 ⌘ + +
缩小预览 ⌘ + –
通用 显示/隐藏导航面板 ⌘ + 0
通用 打开软件偏好设置 ⌘ + ,

爱上MAC 一站式Mac软件下载平台
第三方登录
captcha
第三方登录