本日も乙

ただの自己満足な備忘録。

CentOS 6.6にCUDA 7.5をインストールしたときにカーネルパニックが起こったときの対処方法

CentOS 6.6にwaifu2xをインストールしてみたでCUDAをインストールした後、nvidia-smiコマンドを実行するとカーネルパニックを起こしてサーバが固まることがありました。

原因はよくわかりませんが、CUDAのバージョンが7.5に上がってNVIDIAドライバーのバージョンも上がってしまったことが原因だということがわかりました。 CUDAのバージョンを7.0に指定してインストールすれば解決しそうですが、NVIDIAドライバーのバージョンは上がったままになってしまい、結局カーネルパニックが発生してしまいました。

仕方ないので NVIDIAドライバーを1つずつインストールすることにしました。 CUDA は依存関係のあるパッケージが多く、とても面倒です。

以下の順番でインストールしていけば入るかと思います。

$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/cuda-repo-rhel6-7.0-28.x86_64.rpm

# カーネルのバージョンに合わせる。なかったらRPMからインストールする
$ sudo yum install kernel-devel-$(uname -r)

$ sudo yum install libvdpau dkms
$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/nvidia-kmod-346.46-2.el6.x86_64.rpm
$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/nvidia-uvm-kmod-346.46-3.el6.x86_64.rpm

$ sudo yum install atk cairo gdk-pixbuf2 gtk2

# お互い依存関係にあるため一緒にインストール
$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/xorg-x11-drv-nvidia-346.46-1.el6.x86_64.rpm http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/xorg-x11-drv-nvidia-libs-346.46-1.el6.x86_64.rpm

$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/xorg-x11-drv-nvidia-gl-346.46-1.el6.x86_64.rpm
$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/xorg-x11-drv-nvidia-devel-346.46-1.el6.x86_64.rpm
$ sudo rpm -ivh http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/cuda-drivers-346.46-0.x86_64.rpm

# CUDA 7.0をインストール
$ sudo yum install cuda-7.0-28

# 再起動する
$ sudo reboot