硬件要求(RTX 3060 12GB 完全满足)
软件要求
powershell
# 打开 PowerShell 或 CMD ollama pull qwen3-vl:8b
首次运行会自动下载约 5–6GB 的 GGUF 量化模型文件(4-bit)。
目前 Ollama 库中常见的标签包括:
qwen3-vl:8b → 默认 4-bit 量化(推荐)qwen3-vl:8b-q4_K_M → 明确指定量化方式qwen3-vl:8b-fp16 → 半精度(不推荐,显存可能不足)查看所有可用标签:https://ollama.com/library/qwen3-vl
powershell
ollama run qwen3-vl:8b >>> /? # 查看帮助 >>> 请描述这张图片的内容。 [上传图片]
Ollama 启动后默认监听 http://localhost:11434,可用 HTTP 调用:
import requests
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
# 准备请求
image_b64 = encode_image("test.jpg")
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "qwen3-vl:8b",
"prompt": "请用中文提取图中所有文字内容。",
"images": [image_b64],
"stream": False
}
)
print(response.json()["response"])
| 项目 | 表现 |
|---|---|
显存占用 |
~5.8 GB(4-bit GGUF) |
推理速度 |
单图 4–8 秒(取决于图像复杂度) |
最大图像 |
自动缩放到 1024px 长边 |
中文支持 |
优秀(专为中文优化) |
结构化输出 |
支持 JSON/Markdown(需明确 prompt) |
注意:Ollama 的 VL 模型不支持
max_image_size等高级参数,灵活性略低于transformers原生方案。
可以!使用 modelfile 创建自定义版本:
FROM qwen3-vl:8b SYSTEM """ 你是一个专业的 OCR 引擎,请只输出识别到的文字,不要解释。 """
然后:
powershell
ollama create my-ocr -f Modelfile ollama run my-ocr
如果没有使用GPU使用的是CPU,那会很卡,需要排查原因,如重装显卡驱动
我是在官网下载相对应驱动后重装才好的
# 打开 命令提示符(CMD)或 PowerShell,运行 nvidia-smi # 正常会显示如下信息 如果显示错误信息或者什么都不显示则需要重新安装驱动 PS C:\Windows\System32> nvidia-smi Sat Apr 4 19:22:04 2026 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 595.79 Driver Version: 595.79 CUDA Version: 13.2 | +-----------------------------------------+------------------------+----------------------+ | GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA GeForce RTX 3060 WDDM | 00000000:01:00.0 On | N/A | | 0% 32C P8 17W / 170W | 1453MiB / 12288MiB | 28% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+
设置环境变量强制启用 GPU(可选)
虽然 Ollama 通常自动启用 GPU,但你可以显式指定:
设置系统环境变量: 按 Win + R → 输入 sysdm.cpl → 高级 → 环境变量 在 系统变量 中点击“新建”: 变量名:OLLAMA_GPU_LAYERS 变量值:999(表示尽可能多的层 offload 到 GPU) (可选)再新建一个: 变量名:OLLAMA_GPU_BACKEND 变量值:cuda 重启 Ollama 后生效。 或者直接重启电脑。
经查询发现Ollama安装的模型不支持多线程处理,忍疼干掉。