Skip to content

设置与高级设置

这一页专门解释设置页中的参数项,以及哪些属于日常配置,哪些属于高级设置。

设置页结构

设置页按三块组织:

  • 接口配置
  • 处理策略
  • 识别配置

不同解析模式下,页面会自动隐藏不相关字段。

一、接口配置

这一块主要放连接地址和云端服务凭据。

后端 API 地址

默认行为:

  • 浏览器会自动探测 API 地址
  • 一般不需要手动修改

适合手动修改的情况:

  • 本地联调
  • 特殊部署
  • 反向代理路径与默认推断不一致

相关操作:

  • 应用地址
  • 自动探测

MinerU 相关

当当前解析链路使用 MinerU 时,会显示:

  • MinerU Token
  • MinerU Base URL
  • MinerU 模型版本
  • MinerU 语言
  • 启用公式识别
  • 启用表格识别
  • 启用 MinerU OCR

适合场景:

  • 复杂结构文档
  • 表格 / 公式较多
  • 希望走云端结构化解析

二、处理策略

这一块决定最终输出如何组织。

页面图片处理方式

这个设置直接影响 PPT 中图片是怎么保留的。

可选项:

  • 图片拆出来(可单独编辑)
  • 图片留在整页背景里(更像原图)

一般建议:

  • 想先求稳:选整页背景
  • 想后续编辑图片元素:选拆图

文字消除模式

常见选项:

  • 纯色填充(推荐)
  • 智能消除

推荐:

  • 大多数情况下优先用 纯色填充
  • 只有特殊页面再尝试 智能消除

OCR 渲染 DPI

这个设置只影响 OCR 输入图的渲染精度。

影响:

  • 数值更高时,小字识别可能更好
  • 但会增加耗时和内存

通常不需要一开始就调。

删除页脚 NotebookLM

适合源文件存在特定页脚标记时使用。
这个选项不是通用清理开关。

图片底图清除与图块阈值

这是典型的高级设置,主要包括:

  • 清除扩边最小值
  • 清除扩边最大值
  • 清除扩边比例
  • 图块最小面积比例
  • 图块最大面积比例
  • 图块最大长宽比

只在这些情况下再调:

  • 背景清理不干净
  • 图块拆分明显误判
  • 小图标 / 小图块经常丢失

页面也提供了:

  • 恢复默认阈值

三、识别配置

这一块决定 OCR 或文档解析怎么跑。

OCR 提供方

在相关模式下,会看到不同 OCR 提供方,例如:

  • AIOCR
  • 本地 OCR(PaddleOCR)
  • 本地 OCR(Tesseract)
  • 百度 OCR

你不需要所有都配置,只需要配置当前路线真正会用到的那个。

AIOCR 接口参数

当使用 AIOCR 时,常见字段包括:

  • OCR API Key
  • OCR Base URL
  • AIOCR 厂商适配
  • AIOCR 识别链路
  • 版面切块模型
  • PaddleOCR-VL 长边上限
  • OCR 模型
  • 检测 OCR 配置

AIOCR 识别链路

这是最重要的一组设置之一。

常见链路:

  • 本地切块识别
  • 模型直出框和文字
  • 内置文档解析(PaddleOCR-VL)

理解方式:

  • 本地切块识别:更稳,适合通用场景
  • 模型直出:更依赖模型和提示词,风险更高
  • 内置文档解析:更适合 PaddleOCR-VL 结构化路径

OCR 模型

模型输入框支持:

  • 手动输入
  • 候选列表选择

并且不同链路下,候选会自动过滤。

例如:

  • doc_parser 只显示 PaddleOCR-VL
  • direct 会过滤掉不适合的模型

OCR 配置检测

按钮:

  • 检测 OCR 配置

这个功能会直接检查:

  • 当前模型是否可用
  • 当前链路是否能正确返回识别结果
  • 是否有明显报错

适合在真正跑任务前先做联调。

提示词实验

这属于高级设置。

适用范围:

  • 模型直出链路
  • 本地切块识别链路

你可以调:

  • 提示词预设
  • 当前链路提示词覆盖
  • 图片区域检测提示词覆盖

建议:

  • 默认先用内置预设
  • 只有当前模型经常漏字、顺序错乱、回显标签时再改

并发与限流

这也是高级设置,主要包括:

  • 多页并发数
  • 单页切块并发
  • RPM 上限
  • TPM 上限
  • 失败重试次数

适合场景:

  • 云端 OCR 配额敏感
  • 模型经常超时
  • 希望平衡速度与稳定性

百度解析 / 百度 OCR

当走百度相关路线时,会出现:

  • 文档解析类型
  • 百度 API Key
  • 百度 Secret Key
  • 百度 App ID(可选)

如果是百度文档解析,重点是结构化结果;
如果是百度 OCR,重点是识别本身。

Tesseract 设置

典型字段:

  • 最低置信度
  • 语言

适合:

  • 纯本地环境
  • 不依赖外部 OCR 服务

本地 OCR 综合检测

这是很有用的诊断区。

它会分别检测:

  • Tesseract
  • PaddleOCR

并区分:

  • 运行环境是否就绪
  • 模型文件是否齐全

如果本地 OCR 跑不通,优先看这里。

日常配置 vs 高级设置

日常最常用

  • 解析引擎
  • 页面图片处理方式
  • OCR 提供方 / OCR 路线
  • OCR API Key / Base URL / 模型
  • 删除页脚 NotebookLM

只有调优或诊断时再动

  • API 地址覆盖
  • 文字消除模式
  • OCR 渲染 DPI
  • 图片底图清除阈值
  • 提示词实验
  • 并发与限流
  • 本地 OCR 综合检测

推荐使用顺序

  1. 先选解析引擎
  2. 再补当前链路必需的凭据和模型
  3. 用默认策略先跑通
  4. 只有结果不理想时,再展开高级设置调优

MIT Licensed