Linux 和 Unix 系统的使用

date
Apr 13, 2022
slug
Linux_Doc
status
Published
tags
Linux
summary
UNIX好文明,基本是笔记
type
Post

目录

命令

nvidia-smi 相关

WARNING: infoROM is corrupted at gpu 0000:xx:00.0问题

问题描述
A100上开多卡任务会掉任务,英伟达官方回复是没救了赶紧保修
拯救步骤
  1. 尝试重装驱动,从470.103.01升级到515.76,问题解决(显卡没事)

禁用某一张显卡

xx为显卡 PCI-E 地址

nvidia 显卡持续模式

配置

新系统的配置

重装系统前,需要备份或者记录的配置文件包括

软件安装

sshd 配置

文件系统的配置

 

ssh 连接

禁用PAM模块加速ssh连接

参考 🔗 https://jrs-s.net/2017/07/01/slow-ssh-logins/ 注释掉 /etc/pam.d/common-session 中的 session optional pam_systemd.so
2023/5/13日志 ssh -vvv 连接104的调试模式卡在
解决办法:注释掉了/etc/ssh/sshd_config 中的 UsePAM yes
代价🤔:UsePAM yes 注释掉会影响无密码用户的密钥登陆👇 https://github.com/camptocamp/puppet-accounts/issues/35#issuecomment-206673240

swap分区

zsh配置相关

密码安全策略配置

Ubuntu 多版本Cuda(8.0,9.0)以及CuDnn安装

/usr/bin/chattr 等可执行文件被修改埋后门

曾出现过的案例:
/usr/bin/nvidia-smi
/usr/bin/gpustat
/usr/bin/ssh
/usr/bin/chattr
/usr/bin/lsattr
/usr/bin/rm
/usr/bin/cp
其中前几个比较难察觉,第一个会在卸载驱动时提醒没有操作权限,第三个极可能泄露密码。
比较棘手的是第四个 chattr 被挖矿程序替换(首次发现在98服务器)这个chattr是用以修改文件标识的,见 wiki,想象一下,如果修改文件标识的文件被替换,修改标识的目的便达不到,挖矿程序甚至可以守护本身不被用户修改。因此需要从Linux源码中找到 chattr.c 重新编译一遍。下方的 github是一个简易的 chattr 文件,编译好的可执行程序在 share 中可以找到。
重装系统

Git 同步错误 gnutls_handshake() failed

TODO

修改所有机器sshd配置
端口 2222
密钥登陆
注释掉 UsePAM yes
添加RSA密钥可用选项
写一个 ssh 步骤
删除known_host文件
检查本地私钥文件权限
配置本地ssh config文件
 

pkesi.service


© Kenny Ni 2018 - 2025