TensorRT-LLM使用方式

6次阅读
没有评论

共计 1022 个字符,预计需要花费 3 分钟才能阅读完成。

1. 确认模型支持情况

在用 tensorrt-llm 部署大模型服务之前,需要先确认,想要部署的模型是否被支持

请访问官方的文档:https://nvidia.github.io/TensorRT-LLM/latest/models/supported-models.html

该网页中会列出某版本下支持的大模型和多模态大模型。请着重注意版本号,如下图中 1.1.0 为正式版本,1.3.0rc2为预发版本。各个版本之间支持的模型可能有所不同(一般情况下,版本号越大,支持的模型越多)

TensorRT-LLM 使用方式

2. 下载镜像

(极力推荐使用镜像的方式来部署)

针对第一步确认好的版本,请访问官方的镜像仓库来获取具体版本的镜像地址:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tensorrt-llm/containers/release/tags

TensorRT-LLM 使用方式

1.3.0rc2 版本为例,下载命令为:

docker pull nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc2

3. 启动容器

启动命令示例

docker run --rm -it --ipc host \    
    --gpus '"device=0"' \           # 使用 0 号显卡
    --ulimit memlock=-1 \           
    --ulimit stack=67108864 \
    -p 0.0.0.0:8000:8000 \          # 透出 8000 端口
    -v ./Qwen3-VL-8B-Instruct:/Qwen3-VL-8B-Instruct \  # 挂载模型文件目录
    -v ./data:/data \  # 附加挂载目录(该处可存放 config.yml 文件)\   
    nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc2  

启动后,会自动进入容器内的 bash

4. 启动服务

4.1 默认启动

启动命令:

trtllm-serve < 模型目录 > --config <config 文件路径 > --host 0.0.0.0 --port 8000

示例:

trtllm-serve /Qwen3-VL-8B-Instruct --config /data/config.yml --host 0.0.0.0 --port 8000

4.2 其他参数

  • --free_gpu_memory_fraction 0.7:显存占用 70%
  • --max_num_tokens 40000:最大传入 tokens 40000(默认值为 8k)
  • --max_batch_size 4:限制 batch 数
正文完
 0
icvuln
版权声明:本站原创文章,由 icvuln 于2026-02-09发表,共计1022字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)