TensorRT-LLM使用方式

6次阅读

共计 1022 个字符，预计需要花费 3 分钟才能阅读完成。

在用 tensorrt-llm 部署大模型服务之前，需要先确认，想要部署的模型是否被支持

请访问官方的文档：https://nvidia.github.io/TensorRT-LLM/latest/models/supported-models.html

该网页中会列出某版本下支持的大模型和多模态大模型。请着重注意版本号，如下图中 1.1.0 为正式版本，1.3.0rc2为预发版本。各个版本之间支持的模型可能有所不同（一般情况下，版本号越大，支持的模型越多）

（极力推荐使用镜像的方式来部署）

针对第一步确认好的版本，请访问官方的镜像仓库来获取具体版本的镜像地址：https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tensorrt-llm/containers/release/tags

以 1.3.0rc2 版本为例，下载命令为：

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc2

启动命令示例

docker run --rm -it --ipc host \    
    --gpus '"device=0"' \           # 使用 0 号显卡
    --ulimit memlock=-1 \           
    --ulimit stack=67108864 \
    -p 0.0.0.0:8000:8000 \          # 透出 8000 端口
    -v ./Qwen3-VL-8B-Instruct:/Qwen3-VL-8B-Instruct \  # 挂载模型文件目录
    -v ./data:/data \  # 附加挂载目录（该处可存放 config.yml 文件）\   
    nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc2

启动后，会自动进入容器内的 bash

启动命令：

trtllm-serve < 模型目录 > --config <config 文件路径 > --host 0.0.0.0 --port 8000

示例：

trtllm-serve /Qwen3-VL-8B-Instruct --config /data/config.yml --host 0.0.0.0 --port 8000

--free_gpu_memory_fraction 0.7：显存占用 70%
--max_num_tokens 40000：最大传入 tokens 40000（默认值为 8k）
--max_batch_size 4：限制 batch 数

正文完

发表至：人工智能

近一天内

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

TensorRT-LLM使用方式

1. 确认模型支持情况

2. 下载镜像

3. 启动容器

4. 启动服务

4.1 默认启动

4.2 其他参数