设置与高级设置

这一页专门解释设置页中的参数项，以及哪些属于日常配置，哪些属于高级设置。

设置页结构

设置页按三块组织：

接口配置
处理策略
识别配置

不同解析模式下，页面会自动隐藏不相关字段。

一、接口配置

这一块主要放连接地址和云端服务凭据。

后端 API 地址

默认行为：

浏览器会自动探测 API 地址
一般不需要手动修改

适合手动修改的情况：

本地联调
特殊部署
反向代理路径与默认推断不一致

MinerU 相关

当当前解析链路使用 MinerU 时，会显示：

MinerU Token
MinerU Base URL
MinerU 模型版本
MinerU 语言
启用公式识别
启用表格识别
启用 MinerU OCR

适合场景：

复杂结构文档
表格 / 公式较多
希望走云端结构化解析

二、处理策略

这一块决定最终输出如何组织。

页面图片处理方式

这个设置直接影响 PPT 中图片是怎么保留的。

可选项：

图片拆出来（可单独编辑）
图片留在整页背景里（更像原图）

一般建议：

想先求稳：选整页背景
想后续编辑图片元素：选拆图

文字消除模式

常见选项：

纯色填充（推荐）
智能消除

OCR 渲染 DPI

这个设置只影响 OCR 输入图的渲染精度。

影响：

数值更高时，小字识别可能更好
但会增加耗时和内存

通常不需要一开始就调。

删除页脚 NotebookLM

适合源文件存在特定页脚标记时使用。
这个选项不是通用清理开关。

图片底图清除与图块阈值

这是典型的高级设置，主要包括：

清除扩边最小值
清除扩边最大值
清除扩边比例
图块最小面积比例
图块最大面积比例
图块最大长宽比

只在这些情况下再调：

背景清理不干净
图块拆分明显误判
小图标 / 小图块经常丢失

页面也提供了：

恢复默认阈值

三、识别配置

这一块决定 OCR 或文档解析怎么跑。

OCR 提供方

在相关模式下，会看到不同 OCR 提供方，例如：

AIOCR
本地 OCR（PaddleOCR）
本地 OCR（Tesseract）
百度 OCR

你不需要所有都配置，只需要配置当前路线真正会用到的那个。

AIOCR 接口参数

当使用 AIOCR 时，常见字段包括：

OCR API Key
OCR Base URL
AIOCR 厂商适配
AIOCR 识别链路
版面切块模型
PaddleOCR-VL 长边上限
OCR 模型
检测 OCR 配置

AIOCR 识别链路

这是最重要的一组设置之一。

常见链路：

本地切块识别
模型直出框和文字
内置文档解析（PaddleOCR-VL）

理解方式：

本地切块识别：更稳，适合通用场景
模型直出：更依赖模型和提示词，风险更高
内置文档解析：更适合 PaddleOCR-VL 结构化路径

OCR 模型

模型输入框支持：

手动输入
候选列表选择

并且不同链路下，候选会自动过滤。

例如：

doc_parser 只显示 PaddleOCR-VL
direct 会过滤掉不适合的模型

OCR 配置检测

按钮：

检测 OCR 配置

这个功能会直接检查：

当前模型是否可用
当前链路是否能正确返回识别结果
是否有明显报错

适合在真正跑任务前先做联调。

提示词实验

这属于高级设置。

适用范围：

模型直出链路
本地切块识别链路

你可以调：

提示词预设
当前链路提示词覆盖
图片区域检测提示词覆盖

建议：

默认先用内置预设
只有当前模型经常漏字、顺序错乱、回显标签时再改

并发与限流

这也是高级设置，主要包括：

多页并发数
单页切块并发
RPM 上限
TPM 上限
失败重试次数

适合场景：

云端 OCR 配额敏感
模型经常超时
希望平衡速度与稳定性

百度解析 / 百度 OCR

当走百度相关路线时，会出现：

文档解析类型
百度 API Key
百度 Secret Key
百度 App ID（可选）

如果是百度文档解析，重点是结构化结果；
如果是百度 OCR，重点是识别本身。

Tesseract 设置

典型字段：

最低置信度
语言

适合：

纯本地环境
不依赖外部 OCR 服务

本地 OCR 综合检测

这是很有用的诊断区。

它会分别检测：

Tesseract
PaddleOCR

并区分：

运行环境是否就绪
模型文件是否齐全

如果本地 OCR 跑不通，优先看这里。

日常配置 vs 高级设置

日常最常用

解析引擎
页面图片处理方式
OCR 提供方 / OCR 路线
OCR API Key / Base URL / 模型
删除页脚 NotebookLM

只有调优或诊断时再动

API 地址覆盖
文字消除模式
OCR 渲染 DPI
图片底图清除阈值
提示词实验
并发与限流
本地 OCR 综合检测

设置与高级设置 ​

设置页结构 ​

一、接口配置 ​

后端 API 地址 ​

MinerU 相关 ​

二、处理策略 ​

页面图片处理方式 ​

文字消除模式 ​

OCR 渲染 DPI ​

删除页脚 NotebookLM ​

图片底图清除与图块阈值 ​

三、识别配置 ​

OCR 提供方 ​

AIOCR 接口参数 ​

AIOCR 识别链路 ​

OCR 模型 ​

OCR 配置检测 ​

提示词实验 ​

并发与限流 ​

百度解析 / 百度 OCR ​

Tesseract 设置 ​

本地 OCR 综合检测 ​

日常配置 vs 高级设置 ​

日常最常用 ​

只有调优或诊断时再动 ​

推荐使用顺序 ​