设置与高级设置
这一页专门解释设置页中的参数项,以及哪些属于日常配置,哪些属于高级设置。
设置页结构
设置页按三块组织:
接口配置处理策略识别配置
不同解析模式下,页面会自动隐藏不相关字段。
一、接口配置
这一块主要放连接地址和云端服务凭据。
后端 API 地址
默认行为:
- 浏览器会自动探测 API 地址
- 一般不需要手动修改
适合手动修改的情况:
- 本地联调
- 特殊部署
- 反向代理路径与默认推断不一致
相关操作:
应用地址自动探测
MinerU 相关
当当前解析链路使用 MinerU 时,会显示:
MinerU TokenMinerU Base URLMinerU 模型版本MinerU 语言启用公式识别启用表格识别启用 MinerU OCR
适合场景:
- 复杂结构文档
- 表格 / 公式较多
- 希望走云端结构化解析
二、处理策略
这一块决定最终输出如何组织。
页面图片处理方式
这个设置直接影响 PPT 中图片是怎么保留的。
可选项:
图片拆出来(可单独编辑)图片留在整页背景里(更像原图)
一般建议:
- 想先求稳:选整页背景
- 想后续编辑图片元素:选拆图
文字消除模式
常见选项:
纯色填充(推荐)智能消除
推荐:
- 大多数情况下优先用
纯色填充 - 只有特殊页面再尝试
智能消除
OCR 渲染 DPI
这个设置只影响 OCR 输入图的渲染精度。
影响:
- 数值更高时,小字识别可能更好
- 但会增加耗时和内存
通常不需要一开始就调。
删除页脚 NotebookLM
适合源文件存在特定页脚标记时使用。
这个选项不是通用清理开关。
图片底图清除与图块阈值
这是典型的高级设置,主要包括:
- 清除扩边最小值
- 清除扩边最大值
- 清除扩边比例
- 图块最小面积比例
- 图块最大面积比例
- 图块最大长宽比
只在这些情况下再调:
- 背景清理不干净
- 图块拆分明显误判
- 小图标 / 小图块经常丢失
页面也提供了:
恢复默认阈值
三、识别配置
这一块决定 OCR 或文档解析怎么跑。
OCR 提供方
在相关模式下,会看到不同 OCR 提供方,例如:
AIOCR本地 OCR(PaddleOCR)本地 OCR(Tesseract)百度 OCR
你不需要所有都配置,只需要配置当前路线真正会用到的那个。
AIOCR 接口参数
当使用 AIOCR 时,常见字段包括:
OCR API KeyOCR Base URLAIOCR 厂商适配AIOCR 识别链路版面切块模型PaddleOCR-VL 长边上限OCR 模型检测 OCR 配置
AIOCR 识别链路
这是最重要的一组设置之一。
常见链路:
本地切块识别模型直出框和文字内置文档解析(PaddleOCR-VL)
理解方式:
- 本地切块识别:更稳,适合通用场景
- 模型直出:更依赖模型和提示词,风险更高
- 内置文档解析:更适合 PaddleOCR-VL 结构化路径
OCR 模型
模型输入框支持:
- 手动输入
- 候选列表选择
并且不同链路下,候选会自动过滤。
例如:
doc_parser只显示 PaddleOCR-VLdirect会过滤掉不适合的模型
OCR 配置检测
按钮:
检测 OCR 配置
这个功能会直接检查:
- 当前模型是否可用
- 当前链路是否能正确返回识别结果
- 是否有明显报错
适合在真正跑任务前先做联调。
提示词实验
这属于高级设置。
适用范围:
- 模型直出链路
- 本地切块识别链路
你可以调:
- 提示词预设
- 当前链路提示词覆盖
- 图片区域检测提示词覆盖
建议:
- 默认先用内置预设
- 只有当前模型经常漏字、顺序错乱、回显标签时再改
并发与限流
这也是高级设置,主要包括:
- 多页并发数
- 单页切块并发
- RPM 上限
- TPM 上限
- 失败重试次数
适合场景:
- 云端 OCR 配额敏感
- 模型经常超时
- 希望平衡速度与稳定性
百度解析 / 百度 OCR
当走百度相关路线时,会出现:
文档解析类型百度 API Key百度 Secret Key百度 App ID(可选)
如果是百度文档解析,重点是结构化结果;
如果是百度 OCR,重点是识别本身。
Tesseract 设置
典型字段:
最低置信度语言
适合:
- 纯本地环境
- 不依赖外部 OCR 服务
本地 OCR 综合检测
这是很有用的诊断区。
它会分别检测:
TesseractPaddleOCR
并区分:
- 运行环境是否就绪
- 模型文件是否齐全
如果本地 OCR 跑不通,优先看这里。
日常配置 vs 高级设置
日常最常用
- 解析引擎
- 页面图片处理方式
- OCR 提供方 / OCR 路线
- OCR API Key / Base URL / 模型
- 删除页脚 NotebookLM
只有调优或诊断时再动
- API 地址覆盖
- 文字消除模式
- OCR 渲染 DPI
- 图片底图清除阈值
- 提示词实验
- 并发与限流
- 本地 OCR 综合检测
推荐使用顺序
- 先选解析引擎
- 再补当前链路必需的凭据和模型
- 用默认策略先跑通
- 只有结果不理想时,再展开高级设置调优