欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所见所闻,希望大家喜欢,感谢支持!
NVIDIA-SMI为英伟达NVIDIA显卡自带的工具,一般位置为C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe
,可以用来监控GPU状态和使用情况,尤其是我们最关心的温度和使用率。
1、查看GPU当前各项信息
在命令行中进入nvidia-smi.exe文件所在目录,并运行。
各项参数含义:
第一行 | 第二行 |
---|---|
GPU(显卡序号) | 0(第一块显卡) |
FAN(风扇) | N/A(无风扇) |
Name(显卡型号) | GeForce MX150 |
Temp(GPU温度) | 35C(35度) |
Perf(性能状态) | P8(P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)) |
TCC/WDDM(两种使用模式) | WDDM(NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置为 TCC(Tesla Compute Cluster)模式或 WDDM(Windows Display Driver Model)模式。二者区别在于,TCC 模式下,GPU完全用于计算,并不需要本地显示功能;而 WDDM 模式下,GPU 同时扮演计算卡 + 显卡的角色。) |
Pwr:Usage/Cap(GPU功耗) | N/A / N/A (无数据) |
Bus-Id(GPU总线) | 00000000:01:00.0(domain: bus:device.function) |
Disp.A(Display Active,表示GPU的显示是否初始化) | off |
Memory-Usage(显存使用率) | 64MiB / 2048 MiB |
Volatile GPU-Util(GPU使用率) | 0% |
Uncorr. ECC(Error Correcting Code,错误检查与纠正) | N/A (无数据) |
Compute M.(计算模式) | Default |
2、滚动检测
以滚动条形式显示GPU设备统计信息。
# 指定刷新时间(默认为1秒)
nvidia-smi dmon –d xxx
# 指定显示哪些监控指标(默认为puc),其中:
# p:电源使用情况和温度(pwr:功耗,temp:温度)
# u:GPU使用率(sm:流处理器,mem:显存,enc:编码资源,dec:解码资源)
# c:GPU处理器和GPU内存时钟频率(mclk:显存频率,pclk:处理器频率)
# v:电源和热力异常
# m:FB内存和Bar1内存
# e:ECC错误和PCIe重显错误个数
# t:PCIe读写带宽
nvidia-smi dmon –s xxx
3、其他命令
3.1、列出所有可用的 NVIDIA 设备信息
nvidia-smi -L
3.2、查询GPU当前详细信息
# 查询所有GPU的当前信息
nvidia-smi -q
# 查询指定GPU的当前信息,xxx为GPU序号
nvidia-smi –q –i xxx
# 指定显示GPU卡某些信息,xxx参数可以为:MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING
nvidia-smi -q –d xxx
# 动态刷新信息,按Ctrl+C停止,可指定刷新频率,以秒为单位
nvidia-smi –q –l xxx
# 将查询的信息输出到具体的文件中,不在终端显示
nvidia-smi –q –f xxx