set Api
初始化 Tesseract OCR 引擎,指定识别语言和 OCR 引擎模式。
语言参数可以是单一语言代码(例如 eng
表示英文,chi_sim
表示简体中文), 也可以是多语言组合(例如 eng+chi_sim
),用于同时识别多种语言。 在调用此方法前,需通过 addTrainedData 添加对应的训练数据文件。
OCR 引擎模式(ocrEngineMode
)决定了 Tesseract 的识别算法:
0:仅使用传统 Tesseract 引擎(速度快,精度较低)
1:仅使用 LSTM 神经网络(精度高,速度较慢)
2:结合 Tesseract 和 LSTM(平衡速度与精度)
3:默认模式(根据 Tesseract 版本自动选择,通常为 LSTM)
Parameters
language
语言代码或语言组合(例如 eng
、eng+chi_sim
)
ocr Engine Mode
OCR 引擎模式(0 = Tesseract, 1 = LSTM, 2 = 两者结合, 3 = 默认)
See also
Throws
如果语言代码无效或 ocrEngineMode
值不在 0, 3 范围内
如果指定语言的训练数据未准备好或初始化失败