1.4 ollama Qwen3-VL:8B 本地windows 11部署-文艺知识分享平台

查询码: 00000243

1.4 ollama Qwen3-VL:8B 本地windows 11部署

作者: 文艺范儿于 2026年04月07日 发布在分类 / AI / openclaw ,于 2026年04月07日编辑

1.4 ollama Qwen3-VL:8B 本地windows 11部署

1.4.1 前提条件

硬件要求（RTX 3060 12GB 完全满足）

GPU: NVIDIA RTX 3060 12GB（支持 CUDA）
内存: ≥16GB RAM
磁盘空间: ≥10GB（用于模型缓存

软件要求

Ollama：≥ v0.19.0（官网下载）
Windows 11（需启用 WSL2 或原生支持 —— Ollama 从 v0.17+ 开始原生支持 Windows）

1.4.2 安装 Qwen3-VL-8B（Ollama 命令）

方法 1：直接拉取（推荐）

powershell

# 打开 PowerShell 或 CMD
ollama pull qwen3-vl:8b

首次运行会自动下载约 5–6GB 的 GGUF 量化模型文件（4-bit）。

方法 2：指定量化级别（可选）

目前 Ollama 库中常见的标签包括：

qwen3-vl:8b → 默认 4-bit 量化（推荐）
qwen3-vl:8b-q4_K_M → 明确指定量化方式
qwen3-vl:8b-fp16 → 半精度（不推荐，显存可能不足）

查看所有可用标签：https://ollama.com/library/qwen3-vl

1.4.3运行与调用

1. 命令行交互

powershell

ollama run qwen3-vl:8b
>>> /?  # 查看帮助
>>> 请描述这张图片的内容。 [上传图片]

在 Ollama 终端中，输入文字后可拖入图片，模型会自动分析。

2. Python 调用（通过 Ollama API）

Ollama 启动后默认监听 http://localhost:11434，可用 HTTP 调用：

import requests
import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

# 准备请求
image_b64 = encode_image("test.jpg")
response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "qwen3-vl:8b",
        "prompt": "请用中文提取图中所有文字内容。",
        "images": [image_b64],
        "stream": False
    }
)

print(response.json()["response"])

1.4.4 性能与限制（RTX 3060 实测）

项目	表现
显存占用	~5.8 GB（4-bit GGUF）
推理速度	单图 4–8 秒（取决于图像复杂度）
最大图像	自动缩放到 1024px 长边
中文支持	优秀（专为中文优化）
结构化输出	支持 JSON/Markdown（需明确 prompt）

注意：Ollama 的 VL 模型不支持 max_image_size 等高级参数，灵活性略低于 transformers 原生方案。

1.4.5 自定义系统提示词

可以！使用 modelfile 创建自定义版本：

FROM qwen3-vl:8b
SYSTEM """
你是一个专业的 OCR 引擎，请只输出识别到的文字，不要解释。
"""

然后：

powershell

ollama create my-ocr -f Modelfile
ollama run my-ocr

1.4.6 检查是否使用GPU

如果没有使用GPU使用的是CPU，那会很卡，需要排查原因，如重装显卡驱动

我是在官网下载相对应驱动后重装才好的

https://www.nvidia.cn/

# 打开 命令提示符（CMD）或 PowerShell，运行
nvidia-smi


# 正常会显示如下信息 如果显示错误信息或者什么都不显示则需要重新安装驱动
PS C:\Windows\System32> nvidia-smi                                                                                      
Sat Apr  4 19:22:04 2026                                                                                                
+-----------------------------------------------------------------------------------------+                             
| NVIDIA-SMI 595.79                 Driver Version: 595.79         CUDA Version: 13.2     |                             
+-----------------------------------------+------------------------+----------------------+                             
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |                             
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |                             
|                                         |                        |               MIG M. |                             
|=========================================+========================+======================|                             
|   0  NVIDIA GeForce RTX 3060      WDDM  |   00000000:01:00.0  On |                  N/A |                             
|  0%   32C    P8             17W /  170W |    1453MiB /  12288MiB |     28%      Default |                             
|                                         |                        |                  N/A |                             
+-----------------------------------------+------------------------+----------------------+

设置环境变量强制启用 GPU（可选）
虽然 Ollama 通常自动启用 GPU，但你可以显式指定：

设置系统环境变量：
按 Win + R → 输入 sysdm.cpl → 高级 → 环境变量
在 系统变量 中点击“新建”：
变量名：OLLAMA_GPU_LAYERS
变量值：999（表示尽可能多的层 offload 到 GPU）
（可选）再新建一个：
变量名：OLLAMA_GPU_BACKEND
变量值：cuda

 重启 Ollama 后生效。
 或者直接重启电脑。

经查询发现Ollama安装的模型不支持多线程处理，忍疼干掉。

综合
评分

0.0分

0人参与

备注	修改日期	修改人
创建版本	2026-04-07 03:10:44[当前版本]	文艺范儿

[Title]

1.4 ollama Qwen3-VL:8B 本地windows 11部署

1.4.1 前提条件

1.4.2 安装 Qwen3-VL-8B（Ollama 命令）

方法 1：直接拉取（推荐）

方法 2：指定量化级别（可选）

1.4.3运行与调用

1. 命令行交互

2. Python 调用（通过 Ollama API）

1.4.4 性能与限制（RTX 3060 实测）

1.4.5 自定义系统提示词

1.4.6 检查是否使用GPU