💡 前言

最近在折腾truenas scale上的私人相册神器 Immich，并且为我十万张级别的照片库开启了全量 OCR（文本识别）扫描。为了追求极致的识别率，我启用了 Server 级别的识别模型（PP-OCRv5_server），并把任务交给了 NAS 上的独立显卡（16G 显存）来跑。但很快就遇到了一个极其崩溃的问题：任务跑不了多久，GPU 显存就会被撑爆（OOM），导致 ML（机器学习）容器异常重启。最终跑了一两天，识别成功的图片寥寥无几，任务队列处于反复崩溃的死循环中。

分析

设置如图

我为了追求高ocr识别，所以提高了immich的ocr默认缩放分辨率736为1024，同时采用PP-OCRv5_server模型，识别更精确。导致显存占用需求比默认配置高不少，从而导致了各种显存问题。分析共同点发现这主要怪 OCR 的工作原理和 ONNX 的“仓鼠症”内存管理：

动态切割（大小不一的碎片）：OCR 分为两步：先“框”出文字，再“读”出文字。每张照片框出来的文字长短、大小都不一样。所以送给识别模型（Recognition）的图片碎片，每一张的尺寸（Shape）都在变化。
ONNX 的“仓鼠症”（BFC Arena）：为了追求极致速度，ONNX 底层的内存分配器（BFC Arena）有一个致命逻辑：它会为它见过的每一种尺寸开辟一块专属的显存缓存，并且用完之后死活不还给显卡，而是自己囤着留给下次用。
量变引起质变：当你刚跑前几百张时，尺寸种类不多，显存占用很低。但当你连续跑了一整天，处理了几万张照片，ONNX 见过了成千上万种不同尺寸的文字截图，它在你的 16G 显卡里建了成千上万个大大小小的“蓄水池”，导致 15G 显存全被这些死水池占满了。

最终崩溃：当新来了一张照片，需要申请一个 40MB 的新池子时，虽然显卡名义上有 16G，但已经被切得稀碎，找不出一块连续的 40MB 空间了，于是系统抛出 Failed to allocate memory… size 45889024（分配失败），容器当场去世。

解决经历

修改机器学习相关环境变量

参考：https://docs.immich.app/install/environment-variables/

关闭内存预分配模式：
MACHINE_LEARNING_MODEL_ARENA=false
设置 OCR 模型一次同时处理的最大文本框数量(默认值是 6)：
注意: 不是官网的MACHINE_LEARNING_MAX_BATCH_SIZE__OCR，这个环境变量设置不生效，而且还会报TypeError: 'NoneType' object cannot be interpreted as an integer异常。
使用如下变量：
MACHINE_LEARNING_MAX_BATCH_SIZE__TEXT_RECOGNITION=4
设置4就行，1和2太小了速度会太慢，6显存爆得更快。
参考来源：https://github.com/immich-app/immich/issues/23442
设置 文字识别（OCR）并发数 为 1
全量跑的时候，求稳比较好，降低并发，防止爆显存。
重启immich，执行全量ocr识别任务

此时本以为万事大吉，结果发现依然遇到了如下异常：

以下就是相关时间段的日志：“2026-03-08 17:02:35.283257+00:00[2;36m[03/08/26 17:02:35][0m[2;36m [0m[34mINFO    [0m Loading detection model [32m'PP-OCRv5_server'[0m to memory
2026-03-08 17:02:35.286717+00:00[2;36m[03/08/26 17:02:35][0m[2;36m [0m[34mINFO    [0m Setting execution providers to                     
2026-03-08 17:02:35.286788+00:00[2;36m                    [0m         [1m[[0m[32m'CUDAExecutionProvider'[0m, [32m'CPUExecutionProvider'[0m[1m][0m, 
2026-03-08 17:02:35.286830+00:00[2;36m                    [0m         in descending order of preference                  
2026-03-08 17:02:40.079462+00:00[2;36m[03/08/26 17:02:40][0m[2;36m [0m[34mINFO    [0m Loading recognition model [32m'PP-OCRv5_server'[0m to     
2026-03-08 17:02:40.079612+00:00[2;36m                    [0m         memory                                             
2026-03-08 17:02:40.080680+00:00[2;36m[03/08/26 17:02:40][0m[2;36m [0m[34mINFO    [0m Setting execution providers to                     
2026-03-08 17:02:40.080769+00:00[2;36m                    [0m         [1m[[0m[32m'CUDAExecutionProvider'[0m, [32m'CPUExecutionProvider'[0m[1m][0m, 
2026-03-08 17:02:40.080812+00:00[2;36m                    [0m         in descending order of preference                  
2026-03-08 17:02:40.790773+00:00[32m[INFO] 2026-03-08 17:02:40,790 [RapidOCR] base.py:22: Using engine_name: onnxruntime[0m
2026-03-08 17:44:38.164543+00:00[1;31m2026-03-08 17:44:38.164081849 [E:onnxruntime:, sequential_executor.cc:572 ExecuteKernel] Non-zero status code returned while running Concat node. Name:'Concat.8' Status Message: /onnxruntime_src/onnxruntime/core/framework/bfc_arena.cc:359 void* onnxruntime::BFCArena::AllocateRawInternal(size_t, bool, onnxruntime::Stream*) Failed to allocate memory for requested buffer of size 28618752
2026-03-08 17:44:38.164776+00:00[m
2026-03-08 17:44:38.946682+00:00[2;36m[03/08/26 17:44:38][0m[2;36m [0m[1;31mERROR   [0m Exception in ASGI application                      
2026-03-08 17:44:38.946836+00:00[2;36m                    [0m                                                            
2026-03-08 17:44:38.946883+00:00[2;36m                    [0m         [31m╭─[0m[31m──────[0m[31m [0m[1;31mTraceback [0m[1;2;31m(most recent call last)[0m[31m [0m[31m──────[0m[31m─╮[0m
2026-03-08 17:44:38.946949+00:00[2;36m                    [0m         [31m│[0m [2m/opt/venv/lib/python3.11/site-packages/rapidocr[0m [31m│[0m
2026-03-08 17:44:38.946993+00:00[2;36m                    [0m         [31m│[0m [2m/inference_engine/onnxruntime/[0m[1mmain.py[0m:88 in     [31m│[0m
2026-03-08 17:44:38.947053+00:00[2;36m                    [0m         [31m│[0m __call__                                        [31m│[0m
2026-03-08 17:44:38.947092+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.947129+00:00[2;36m                    [0m         [31m│[0m   [2m 85 [0m[2m│   [0m[94mdef[0m [92m__call__[0m([96mself[0m, input_content: np. [31m│[0m
2026-03-08 17:44:38.947247+00:00[2;36m                    [0m         [31m│[0m   [2m 86 [0m[2m│   │   [0minput_dict = [96mdict[0m([96mzip[0m([96mself[0m.get_in [31m│[0m
2026-03-08 17:44:38.947462+00:00[2;36m                    [0m         [31m│[0m   [2m 87 [0m[2m│   │   [0m[94mtry[0m:                              [31m│[0m
2026-03-08 17:44:38.947512+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m 88 [2m│   │   │   [0m[94mreturn[0m [96mself[0m.session.run([96mself[0m. [31m│[0m
2026-03-08 17:44:38.947699+00:00[2;36m                    [0m         [31m│[0m   [2m 89 [0m[2m│   │   [0m[94mexcept[0m [96mException[0m [94mas[0m e:            [31m│[0m
2026-03-08 17:44:38.947748+00:00[2;36m                    [0m         [31m│[0m   [2m 90 [0m[2m│   │   │   [0merror_info = traceback.format [31m│[0m
2026-03-08 17:44:38.947859+00:00[2;36m                    [0m         [31m│[0m   [2m 91 [0m[2m│   │   │   [0m[1;4;94mraise[0m[1;4m ONNXRuntimeError(error_[0m [31m│[0m
2026-03-08 17:44:38.947906+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.948009+00:00[2;36m                    [0m         [31m│[0m [2m/opt/venv/lib/python3.11/site-packages/onnxrunt[0m [31m│[0m
2026-03-08 17:44:38.948052+00:00[2;36m                    [0m         [31m│[0m [2mime/capi/[0m[1monnxruntime_inference_collection.py[0m:28 [31m│[0m
2026-03-08 17:44:38.948256+00:00[2;36m                    [0m         [31m│[0m 7 in run                                        [31m│[0m
2026-03-08 17:44:38.948307+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.948411+00:00[2;36m                    [0m         [31m│[0m   [2m 284 [0m[2m│   │   [0m[94mif[0m [95mnot[0m output_names:             [31m│[0m
2026-03-08 17:44:38.948458+00:00[2;36m                    [0m         [31m│[0m   [2m 285 [0m[2m│   │   │   [0moutput_names = [output.name  [31m│[0m
2026-03-08 17:44:38.948520+00:00[2;36m                    [0m         [31m│[0m   [2m 286 [0m[2m│   │   [0m[94mtry[0m:                             [31m│[0m
2026-03-08 17:44:38.948560+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m 287 [2m│   │   │   [0m[94mreturn[0m [96mself[0m._sess.run(output [31m│[0m
2026-03-08 17:44:38.948621+00:00[2;36m                    [0m         [31m│[0m   [2m 288 [0m[2m│   │   [0m[1;4;94mexcept[0m[1;4m C.EPFail [0m[1;4;94mas[0m[1;4m err:[0m          [31m│[0m
2026-03-08 17:44:38.948718+00:00[2;36m                    [0m         [31m│[0m   [2m 289 [0m[2m│   │   │   [0m[1;4;94mif[0m[1;4m [0m[1;4;96mself[0m[1;4m._enable_fallback:[0m    [31m│[0m
2026-03-08 17:44:38.948762+00:00[2;36m                    [0m         [31m│[0m   [2m 290 [0m[2m│   │   │   │   [0m[1;4;96mprint[0m[1;4m([0m[1;4;33mf[0m[1;4;33m"[0m[1;4;33mEP Error: [0m[1;4;33m{[0m[1;4merr[0m[1;4;33m!s[0m [31m│[0m
2026-03-08 17:44:38.948866+00:00[2;36m                    [0m         [31m╰─────────────────────────────────────────────────╯[0m
2026-03-08 17:44:38.948937+00:00[2;36m                    [0m         [1;91mRuntimeException: [0m[1m[[0mONNXRuntimeError[1m][0m : [1;36m6[0m :         
2026-03-08 17:44:38.948979+00:00[2;36m                    [0m         RUNTIME_EXCEPTION : Non-zero status code returned  
2026-03-08 17:44:38.949016+00:00[2;36m                    [0m         while running Concat node. Name:[32m'Concat.8'[0m Status  
2026-03-08 17:44:38.949084+00:00[2;36m                    [0m         Message:                                           
2026-03-08 17:44:38.949123+00:00[2;36m                    [0m         [35m/onnxruntime_src/onnxruntime/core/framework/[0m[95mbfc_are[0m
2026-03-08 17:44:38.949266+00:00[2;36m                    [0m         [95mna.cc[0m:[1;36m359[0m void*                                    
2026-03-08 17:44:38.949307+00:00[2;36m                    [0m         onnxruntim[1;92me::BFCA[0mren[1;92ma::A[0m[1;35mllocateRawInternal[0m[1m([0msize_t, 
2026-03-08 17:44:38.949345+00:00[2;36m                    [0m         bool, onnxruntime::Stream*[1m)[0m Failed to allocate     
2026-03-08 17:44:38.949457+00:00[2;36m                    [0m         memory for requested buffer of size [1;36m28618752[0m       
2026-03-08 17:44:38.949501+00:00[2;36m                    [0m                                                            
2026-03-08 17:44:38.949625+00:00[2;36m                    [0m                                                            
2026-03-08 17:44:38.949669+00:00[2;36m                    [0m         [3mThe above exception was the direct cause of the [0m   
2026-03-08 17:44:38.949707+00:00[2;36m                    [0m         [3mfollowing exception:[0m                               
2026-03-08 17:44:38.949771+00:00[2;36m                    [0m                                                            
2026-03-08 17:44:38.949810+00:00[2;36m                    [0m         [31m╭─[0m[31m──────[0m[31m [0m[1;31mTraceback [0m[1;2;31m(most recent call last)[0m[31m [0m[31m──────[0m[31m─╮[0m
2026-03-08 17:44:38.949874+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/[0m[1mmain.py[0m:191 in predict       [31m│[0m
2026-03-08 17:44:38.949914+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.949981+00:00[2;36m                    [0m         [31m│[0m   [2m188 [0m[2m│   │   [0minputs = text                     [31m│[0m
2026-03-08 17:44:38.950022+00:00[2;36m                    [0m         [31m│[0m   [2m189 [0m[2m│   [0m[94melse[0m:                                 [31m│[0m
2026-03-08 17:44:38.950235+00:00[2;36m                    [0m         [31m│[0m   [2m190 [0m[2m│   │   [0m[94mraise[0m HTTPException([94m400[0m, [33m"[0m[33mEither [0m [31m│[0m
2026-03-08 17:44:38.950327+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m191 [2m│   [0mresponse = [1;4;94mawait[0m[1;4m run_inference(inputs[0m [31m│[0m
2026-03-08 17:44:38.950519+00:00[2;36m                    [0m         [31m│[0m   [2m192 [0m[2m│   [0m[94mreturn[0m ORJSONResponse(response)       [31m│[0m
2026-03-08 17:44:38.950608+00:00[2;36m                    [0m         [31m│[0m   [2m193 [0m                                          [31m│[0m
2026-03-08 17:44:38.950720+00:00[2;36m                    [0m         [31m│[0m   [2m194 [0m                                          [31m│[0m
2026-03-08 17:44:38.950794+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.950895+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/[0m[1mmain.py[0m:218 in run_inference [31m│[0m
2026-03-08 17:44:38.950965+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.951112+00:00[2;36m                    [0m         [31m│[0m   [2m215 [0m[2m│   [0mwithout_deps, with_deps = entries     [31m│[0m
2026-03-08 17:44:38.951193+00:00[2;36m                    [0m         [31m│[0m   [2m216 [0m[2m│   [0m[94mawait[0m asyncio.gather(*[_run_inference [31m│[0m
2026-03-08 17:44:38.951435+00:00[2;36m                    [0m         [31m│[0m   [2m217 [0m[2m│   [0m[94mif[0m with_deps:                         [31m│[0m
2026-03-08 17:44:38.951515+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m218 [2m│   │   [0m[1;4;94mawait[0m[1;4m asyncio.gather(*[_run_infer[0m [31m│[0m
2026-03-08 17:44:38.951612+00:00[2;36m                    [0m         [31m│[0m   [2m219 [0m[2m│   [0m[94mif[0m [96misinstance[0m(payload, Image):        [31m│[0m
2026-03-08 17:44:38.951681+00:00[2;36m                    [0m         [31m│[0m   [2m220 [0m[2m│   │   [0mresponse[[33m"[0m[33mimageHeight[0m[33m"[0m], response [31m│[0m
2026-03-08 17:44:38.951874+00:00[2;36m                    [0m         [31m│[0m   [2m221 [0m                                          [31m│[0m
2026-03-08 17:44:38.951944+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.952042+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/[0m[1mmain.py[0m:211 in               [31m│[0m
2026-03-08 17:44:38.952108+00:00[2;36m                    [0m         [31m│[0m _run_inference                                  [31m│[0m
2026-03-08 17:44:38.952300+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.952374+00:00[2;36m                    [0m         [31m│[0m   [2m208 [0m[2m│   │   │   │   [0mmessage = [33mf[0m[33m"[0m[33mTask [0m[33m{[0mentry[[33m'[0m [31m│[0m
2026-03-08 17:44:38.952478+00:00[2;36m                    [0m         [31m│[0m       [33moutput of [0m[33m{[0mdep[33m}[0m[33m"[0m                          [31m│[0m
2026-03-08 17:44:38.952544+00:00[2;36m                    [0m         [31m│[0m   [2m209 [0m[2m│   │   │   │   [0m[94mraise[0m HTTPException([94m400[0m,  [31m│[0m
2026-03-08 17:44:38.952647+00:00[2;36m                    [0m         [31m│[0m   [2m210 [0m[2m│   │   [0mmodel = [94mawait[0m load(model)         [31m│[0m
2026-03-08 17:44:38.952715+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m211 [2m│   │   [0moutput = [1;4;94mawait[0m[1;4m run(model.predict,[0m [31m│[0m
2026-03-08 17:44:38.952862+00:00[2;36m                    [0m         [31m│[0m   [2m212 [0m[2m│   │   [0moutputs[model.identity] = output  [31m│[0m
2026-03-08 17:44:38.952965+00:00[2;36m                    [0m         [31m│[0m   [2m213 [0m[2m│   │   [0mresponse[entry[[33m"[0m[33mtask[0m[33m"[0m]] = output  [31m│[0m
2026-03-08 17:44:38.953034+00:00[2;36m                    [0m         [31m│[0m   [2m214 [0m                                          [31m│[0m
2026-03-08 17:44:38.953170+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.953236+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/[0m[1mmain.py[0m:229 in run           [31m│[0m
2026-03-08 17:44:38.953382+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.953450+00:00[2;36m                    [0m         [31m│[0m   [2m226 [0m[2m│   [0m[94mif[0m thread_pool [95mis[0m [94mNone[0m:               [31m│[0m
2026-03-08 17:44:38.953625+00:00[2;36m                    [0m         [31m│[0m   [2m227 [0m[2m│   │   [0m[94mreturn[0m func(*args, **kwargs)      [31m│[0m
2026-03-08 17:44:38.953708+00:00[2;36m                    [0m         [31m│[0m   [2m228 [0m[2m│   [0mpartial_func = partial(func, *args, * [31m│[0m
2026-03-08 17:44:38.953878+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m229 [2m│   [0m[94mreturn[0m [1;4;94mawait[0m[1;4m asyncio.get_running_loop[0m [31m│[0m
2026-03-08 17:44:38.953961+00:00[2;36m                    [0m         [31m│[0m   [2m230 [0m                                          [31m│[0m
2026-03-08 17:44:38.954073+00:00[2;36m                    [0m         [31m│[0m   [2m231 [0m                                          [31m│[0m
2026-03-08 17:44:38.954150+00:00[2;36m                    [0m         [31m│[0m   [2m232 [0m[94masync[0m [94mdef[0m [92mload[0m(model: InferenceModel) ->  [31m│[0m
2026-03-08 17:44:38.954287+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.954362+00:00[2;36m                    [0m         [31m│[0m [2m/usr/local/lib/python3.11/concurrent/futures/[0m[1mth[0m [31m│[0m
2026-03-08 17:44:38.954560+00:00[2;36m                    [0m         [31m│[0m [1mread.py[0m:58 in run                               [31m│[0m
2026-03-08 17:44:38.954634+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.954699+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/models/[0m[1mbase.py[0m:60 in predict [31m│[0m
2026-03-08 17:44:38.954808+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.954879+00:00[2;36m                    [0m         [31m│[0m   [2m 57 [0m[2m│   │   [0m[96mself[0m.load()                       [31m│[0m
2026-03-08 17:44:38.955055+00:00[2;36m                    [0m         [31m│[0m   [2m 58 [0m[2m│   │   [0m[94mif[0m model_kwargs:                  [31m│[0m
2026-03-08 17:44:38.955126+00:00[2;36m                    [0m         [31m│[0m   [2m 59 [0m[2m│   │   │   [0m[96mself[0m.configure(**model_kwargs [31m│[0m
2026-03-08 17:44:38.955280+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m 60 [2m│   │   [0m[94mreturn[0m [1;4;96mself[0m[1;4m._predict(*inputs)[0m     [31m│[0m
2026-03-08 17:44:38.955416+00:00[2;36m                    [0m         [31m│[0m   [2m 61 [0m[2m│   [0m                                      [31m│[0m
2026-03-08 17:44:38.955480+00:00[2;36m                    [0m         [31m│[0m   [2m 62 [0m[2m│   [0m[1;95m@abstractmethod[0m                       [31m│[0m
2026-03-08 17:44:38.955620+00:00[2;36m                    [0m         [31m│[0m   [2m 63 [0m[2m│   [0m[94mdef[0m [92m_predict[0m([96mself[0m, *inputs: Any, **mo [31m│[0m
2026-03-08 17:44:38.955690+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.955838+00:00[2;36m                    [0m         [31m│[0m [2m/usr/src/immich_ml/models/ocr/[0m[1mrecognition.py[0m:74 [31m│[0m
2026-03-08 17:44:38.955904+00:00[2;36m                    [0m         [31m│[0m in _predict                                     [31m│[0m
2026-03-08 17:44:38.956080+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.956150+00:00[2;36m                    [0m         [31m│[0m   [2m 71 [0m[2m│   │   [0mboxes, box_scores = texts[[33m"[0m[33mboxes[0m[33m"[0m [31m│[0m
2026-03-08 17:44:38.956301+00:00[2;36m                    [0m         [31m│[0m   [2m 72 [0m[2m│   │   [0m[94mif[0m boxes.shape[[94m0[0m] == [94m0[0m:           [31m│[0m
2026-03-08 17:44:38.956366+00:00[2;36m                    [0m         [31m│[0m   [2m 73 [0m[2m│   │   │   [0m[94mreturn[0m [96mself[0m._empty            [31m│[0m
2026-03-08 17:44:38.956500+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m 74 [2m│   │   [0mrec = [1;4;96mself[0m[1;4m.model(TextRecInput(img[0m [31m│[0m
2026-03-08 17:44:38.956569+00:00[2;36m                    [0m         [31m│[0m   [2m 75 [0m[2m│   │   [0m[94mif[0m rec.txts [95mis[0m [94mNone[0m:              [31m│[0m
2026-03-08 17:44:38.956678+00:00[2;36m                    [0m         [31m│[0m   [2m 76 [0m[2m│   │   │   [0m[94mreturn[0m [96mself[0m._empty            [31m│[0m
2026-03-08 17:44:38.956819+00:00[2;36m                    [0m         [31m│[0m   [2m 77 [0m                                          [31m│[0m
2026-03-08 17:44:38.956886+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.956950+00:00[2;36m                    [0m         [31m│[0m [2m/opt/venv/lib/python3.11/site-packages/rapidocr[0m [31m│[0m
2026-03-08 17:44:38.957149+00:00[2;36m                    [0m         [31m│[0m [2m/ch_ppocr_rec/[0m[1mmain.py[0m:120 in __call__           [31m│[0m
2026-03-08 17:44:38.957231+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.957351+00:00[2;36m                    [0m         [31m│[0m   [2m117 [0m[2m│   │   │   │   [0mnorm_img_batch.append(nor [31m│[0m
2026-03-08 17:44:38.957430+00:00[2;36m                    [0m         [31m│[0m   [2m118 [0m[2m│   │   │   [0mnorm_img_batch = np.concatena [31m│[0m
2026-03-08 17:44:38.957606+00:00[2;36m                    [0m         [31m│[0m   [2m119 [0m[2m│   │   │   [0m                              [31m│[0m
2026-03-08 17:44:38.957684+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m120 [2m│   │   │   [0mpreds = [1;4;96mself[0m[1;4m.session(norm_img[0m [31m│[0m
2026-03-08 17:44:38.957877+00:00[2;36m                    [0m         [31m│[0m   [2m121 [0m[2m│   │   │   [0mline_results, word_results =  [31m│[0m
2026-03-08 17:44:38.957953+00:00[2;36m                    [0m         [31m│[0m   [2m122 [0m[2m│   │   │   │   [0mpreds,                    [31m│[0m
2026-03-08 17:44:38.958124+00:00[2;36m                    [0m         [31m│[0m   [2m123 [0m[2m│   │   │   │   [0mreturn_word_box,          [31m│[0m
2026-03-08 17:44:38.958196+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.958371+00:00[2;36m                    [0m         [31m│[0m [2m/opt/venv/lib/python3.11/site-packages/rapidocr[0m [31m│[0m
2026-03-08 17:44:38.958440+00:00[2;36m                    [0m         [31m│[0m [2m/inference_engine/onnxruntime/[0m[1mmain.py[0m:91 in     [31m│[0m
2026-03-08 17:44:38.958624+00:00[2;36m                    [0m         [31m│[0m __call__                                        [31m│[0m
2026-03-08 17:44:38.958727+00:00[2;36m                    [0m         [31m│[0m                                                 [31m│[0m
2026-03-08 17:44:38.958853+00:00[2;36m                    [0m         [31m│[0m   [2m 88 [0m[2m│   │   │   [0m[94mreturn[0m [96mself[0m.session.run([96mself[0m. [31m│[0m
2026-03-08 17:44:38.958921+00:00[2;36m                    [0m         [31m│[0m   [2m 89 [0m[2m│   │   [0m[94mexcept[0m [96mException[0m [94mas[0m e:            [31m│[0m
2026-03-08 17:44:38.959111+00:00[2;36m                    [0m         [31m│[0m   [2m 90 [0m[2m│   │   │   [0merror_info = traceback.format [31m│[0m
2026-03-08 17:44:38.959182+00:00[2;36m                    [0m         [31m│[0m [31m❱ [0m 91 [2m│   │   │   [0m[1;4;94mraise[0m[1;4m ONNXRuntimeError(error_[0m [31m│[0m
2026-03-08 17:44:38.959335+00:00[2;36m                    [0m         [31m│[0m   [2m 92 [0m[2m│   [0m                                      [31m│[0m
2026-03-08 17:44:38.959403+00:00[2;36m                    [0m         [31m│[0m   [2m 93 [0m[2m│   [0m[94mdef[0m [92mget_input_names[0m([96mself[0m) -> List[[96mstr[0m [31m│[0m
2026-03-08 17:44:38.959558+00:00[2;36m                    [0m         [31m│[0m   [2m 94 [0m[2m│   │   [0m[94mreturn[0m [v.name [94mfor[0m v [95min[0m [96mself[0m.sess [31m│[0m
2026-03-08 17:44:38.959682+00:00[2;36m                    [0m         [31m╰─────────────────────────────────────────────────╯[0m
2026-03-08 17:44:38.959749+00:00[2;36m                    [0m         [1;91mONNXRuntimeError: [0mTraceback [1m([0mmost recent call      
2026-03-08 17:44:38.959872+00:00[2;36m                    [0m         last[1m)[0m:                                             
2026-03-08 17:44:38.959940+00:00[2;36m                    [0m           File                                             
2026-03-08 17:44:38.960022+00:00[2;36m                    [0m         [32m"/opt/venv/lib/python3.11/site-packages/rapidocr/in[0m
2026-03-08 17:44:38.960326+00:00[2;36m                    [0m         [32mference_engine/onnxruntime/main.py"[0m, line [1;36m88[0m, in   
2026-03-08 17:44:38.960398+00:00[2;36m                    [0m         __call__                                           
2026-03-08 17:44:38.960462+00:00[2;36m                    [0m             return                                         
2026-03-08 17:44:38.960599+00:00[2;36m                    [0m         [1;35mself.session.run[0m[1m([0m[1;35mself.get_output_names[0m[1m([0m[1m)[0m,          
2026-03-08 17:44:38.960668+00:00[2;36m                    [0m         input_dict[1m)[0m[1m[[0m[1;36m0[0m[1m][0m                                     
2026-03-08 17:44:38.960790+00:00[2;36m                    [0m                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
2026-03-08 17:44:38.960856+00:00[2;36m                    [0m         ^^^^^^^^^^^^^                                      
2026-03-08 17:44:38.960918+00:00[2;36m                    [0m           File                                             
2026-03-08 17:44:38.961042+00:00[2;36m                    [0m         [32m"/opt/venv/lib/python3.11/site-packages/onnxruntime[0m
2026-03-08 17:44:38.961110+00:00[2;36m                    [0m         [32m/capi/onnxruntime_inference_collection.py"[0m, line   
2026-03-08 17:44:38.961257+00:00[2;36m                    [0m         [1;36m287[0m, in run                                        
2026-03-08 17:44:38.961323+00:00[2;36m                    [0m             return [1;35mself._sess.run[0m[1m([0moutput_names, input_feed,
2026-03-08 17:44:38.961398+00:00[2;36m                    [0m         run_options[1m)[0m                                       
2026-03-08 17:44:38.961537+00:00[2;36m                    [0m                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
2026-03-08 17:44:38.961604+00:00[2;36m                    [0m         ^^^^^^^^^^^^^                                      
2026-03-08 17:44:38.961668+00:00[2;36m                    [0m         onnxruntime.capi.onnxruntime_pybind11_state.Runtime
2026-03-08 17:44:38.961814+00:00[2;36m                    [0m         Exception: [1m[[0mONNXRuntimeError[1m][0m : [1;36m6[0m :                
2026-03-08 17:44:38.961881+00:00[2;36m                    [0m         RUNTIME_EXCEPTION : Non-zero status code returned  
2026-03-08 17:44:38.961943+00:00[2;36m                    [0m         while running Concat node. Name:[32m'Concat.8'[0m Status  
2026-03-08 17:44:38.962051+00:00[2;36m                    [0m         Message:                                           
2026-03-08 17:44:38.962117+00:00[2;36m                    [0m         [35m/onnxruntime_src/onnxruntime/core/framework/[0m[95mbfc_are[0m
2026-03-08 17:44:38.962304+00:00[2;36m                    [0m         [95mna.cc[0m:[1;36m359[0m void*                                    
2026-03-08 17:44:38.962387+00:00[2;36m                    [0m         onnxruntim[1;92me::BFCA[0mren[1;92ma::A[0m[1;35mllocateRawInternal[0m[1m([0msize_t, 
2026-03-08 17:44:38.962652+00:00[2;36m                    [0m         bool, onnxruntime::Stream*[1m)[0m Failed to allocate     
2026-03-08 17:44:38.962720+00:00[2;36m                    [0m         memory for requested buffer of size [1;36m28618752[0m       
2026-03-08 17:44:38.962783+00:00[2;36m                    [0m                                                            
2026-03-08 17:44:38.962895+00:00[2;36m                    [0m                                                            
2026-03-08 17:47:05.953736+00:00[1;31m2026-03-08 17:47:05.953359445 [E:onnxruntime:, sequential_executor.cc:572 ExecuteKernel] Non-zero status code returned while running Concat node. Name:'Concat.8' Status Message: /onnxruntime_src/onnxruntime/core/framework/bfc_arena.cc:359 void* onnxruntime::BFCArena::AllocateRawInternal(size_t, bool, onnxruntime::Stream*) Failed to allocate memory for requested buffer of size 33945600
2026-03-08 17:47:05.954011+00:00[m
2026-03-08 17:47:06.616105+00:00[2;36m[03/08/26 17:47:05][0m[2;36m [0m[1;31mERROR   [0m Exception in ASGI application ”

这应该是由于 Immich / ONNX 引擎在处理连续数万张高强度全量图片时，底层代码存在细微的内存泄漏导致的。而且遇到有人同步照片以及使用智能搜索功能时，PP-OCRv5_server + XLM-Roberta-Large + buffalo_l，这三个“性能巨兽”根本无法在 16G 的显存里和平共处。这种情况对于参数配置方面的优化已经无能为力，所以当时想到采取高显存时，主动释放显存的方式来解决。

思考解决

初始为了省事采用Automa浏览器插件，设置在定时任务页面定时点击开始/暂停按钮来控制显存的释放与占用，防止显存泄露以及爆显存。但是后续发现，显存的增长很不好估算，有时候几分钟，有时候一个多小时才会爆满异常，所以放弃。最终采用编写脚本，读取GPU显存占用，调用immich官方api控制ocr任务启停的方式成功解决。对了，immich默认释放显存是300秒，所以脚本的停止到继续的间隔必须大于5分钟，让immich自己释放显存。

通过脚本启停OCR全量定时任务，防止爆显存

#!/bin/bash

# ================= 配置区域 =================
# 1. 你的 Immich 访问地址 (请把 192.168.x.x 换成你 NAS 的真实局域网 IP地址和端口)
API_URL="http://192.168.x.x:xxxx/api"

# 2. 刚才在网页端生成的 API Key
API_KEY="你immich里获取的api_key"

# 3. 危险警戒线 (单位：MB。我的总显存约 16384，设 15000 留出安全缓冲)
THRESHOLD=15000
# 4. 精准打击的任务队列名称：文本识别 (OCR)
JOB_NAME="ocr"
# ============================================

echo "=================================================="
echo " 🛡️ Immich OCR 智能显存雷达 (详细日志版) 已启动！"
echo " 🎯 当前显存警戒线：${THRESHOLD} MB"
echo " 💡 提示：随时按 [Ctrl + C] 可以安全退出本脚本"
echo "=================================================="
echo ""

while true; do
    # 提取当前 GPU 0 的已用显存数字
    VRAM=$(nvidia-smi -i 0 --query-gpu=memory.used --format=csv,noheader,nounits)

    # 判断：如果当前显存 >= 警戒线
    if [ "$VRAM" -ge "$THRESHOLD" ]; then
        echo "" # 换行，打断实时刷新的那一行
        echo "🚨 =================================================="
        echo "🛑 [$(date '+%Y-%m-%d %H:%M:%S')] 触发显存警戒线！"
        echo "🛑 执行【暂停】任务，当时显存占用：${VRAM} MB"
        
        # 调用 API 暂停 OCR 任务
        curl -s -X PUT "$API_URL/jobs/$JOB_NAME" \
             -H "x-api-key: $API_KEY" \
             -H "Content-Type: application/json" \
             -d '{"command": "pause"}' > /dev/null

        echo "⏳ 队列已成功挂起，等待 5 分半钟 (330秒) 释放显存..."
        
        # 前台运行倒计时显示（每 30 秒汇报一次进度）
        for i in {11..1}; do
            sleep 30
            echo "   ...倒计时 $((i * 30)) 秒..."
        done

        # 休息完毕，重新获取一次当前的显存，验证是否已清空！
        CLEARED_VRAM=$(nvidia-smi -i 0 --query-gpu=memory.used --format=csv,noheader,nounits)
        
        echo "▶️ [$(date '+%Y-%m-%d %H:%M:%S')] 休息完毕！"
        echo "▶️ 执行【继续】任务，当时显存已降至：${CLEARED_VRAM} MB"
        
        # 调用 API 恢复 OCR 任务
        curl -s -X PUT "$API_URL/jobs/$JOB_NAME" \
             -H "x-api-key: $API_KEY" \
             -H "Content-Type: application/json" \
             -d '{"command": "resume"}' > /dev/null
             
        echo "✅ =================================================="
        echo "" # 留个空行准备下一轮监控
    else
        # 安全状态下：在同一行实时刷新显存数字，不刷屏
        echo -ne "\r🟢 [$(date '+%H:%M:%S')] 监控中... 当前显存: ${VRAM} MB / 16384 MB  "
    fi

    # 每 3 秒钟扫描一次
    sleep 3
done

脚本日志输出情况：
在这里插入图片描述