如果你正在运行Linux服务器并且重视正常运行时间和稳定性,那么本服务器维护指南将帮助你保持正常运行。出于各种原因,最好定期进行维护和检查。作为系统管理员并发现本可以很容易地防止导致停机的问题并不有趣。
Linux服务器维护指南
1. 检查磁盘使用情况:导致停机和问题的最常见的事情之一是文件系统填满并达到100%的使用率。使用80%通常是警告,使用90%是关键。为软件包、数据库、站点文件、日志等分配足够的空间非常重要。如果文件系统变得太满,你将不得不在为时已晚和服务之前争先恐后地寻找要删除的文件和日志开始挂起。要检查你的文件系统使用情况,你可以使用“df”命令,例如:df-h将以人类可读的格式显示使用情况。
2. 检查RAID阵列:检查RAID阵列的状态很重要。如果阵列中缺少成员磁盘,则应尽快更换它。根据你的RAID控制器,你可以下载和使用单独的实用程序。例如:Adaptec控制器将使用arcconf,而LSI控制器可能需要MegaCLI或tw\_cli,具体取决于型号。最好参考制造商的文档以获取指南。
3. 检查存储设备智能统计数据:密切关注存储设备的智能统计数据可以警告你发生故障前。重新分配的、当前未决或不可纠正的部门通常会引起关注。数字越高,你应该越早更换磁盘。通电时间也可能需要寻找。我们更换了超过40,000通电时间的驱动器。在Linux服务器上,你可以使用“smartctl”命令运行测试并检查统计信息。可以在此处找到有关smartctl的更多信息。
4. 验证备份是否正常工作:检查备份是否正常运行是一种很好的做法。你还应该经常测试备份的恢复,并验证它们在测试环境中是否按预期工作。
5. 确保应用安全补丁:修补在你的服务器上运行的软件中的漏洞是重中之重。最好订阅你的发行版安全公告邮件列表,以便在你需要修补时收到通知。你可以使用操作系统包管理器(例如yum或apt)来安装和升级新包。
6. 检查远程管理:根据你的服务器制造商,IPMI、iLO和iDRAC等远程管理工具已被证明是有用的。当你需要使用它们时,你应该为它们做好准备。当无法通过SSH连接到服务器时,远程控制台已经保存了很多。
7. 检查硬件问题:查看syslog和IPMI事件日志之类的内容可以让你知道何时出现问题。内存错误、过热和电源故障是需要快速响应的一些示例。根据损坏的硬件组件,记录的条目会有所不同。
8. 检查软件错误:应定期监控软件错误日志和系统日志。软件有时会达到配置的限制,当内存不足时会激活OOM杀手。有时这可能会被忽视。根据你在哪里找到这些日志的软件和配置的日志文件输出会有所不同。但是,大多数日志都可以在/var/log目录中找到。
9. 查看访问权限:检查哪些用户和个人应有权访问服务器并根据需要修改该访问权限。可以在这里找到你应该查看的文件的一个很好的概述。
10. 使用强密码:无论是随机生成还是使用“diceware”方法制作的强密码都是必须的。不要缩短密码并使用低熵组合。
松果号 作者:松果号原创文章,如若转载,请注明出处:https://www.6480i.com/archives/104557.html