Linux进程管理基础命令总结

21次阅读
kquote>答案是掌握Linux进程管理需熟练使用pstopkill等命令。通过pstop查看进程状态,利用kill、killall和pkill终止失控进程,结合&、nohupjobs命令实现后台运行与作业控制,并通过nicerenice调整优先级,辅以free、df、lsof等工具监控资源,形成“观察—分析—干预”的系统管理闭环。kquote>

rc="https://img.php.cn/upload/article/000/969/633/175810014388122.jpeg" alt="Linux进程管理基础命令总结">

Linux进程管理,在我看来,核心就是理解并掌控系统上所有正在“忙碌”的程序。它不只是敲几个命令那么简单,更是一种深入洞察系统状态、优化资源分配、甚至在关键时刻力挽狂澜的能力。掌握这些基础命令,就好比拥有了一套透视镜和操作杆,能让你清晰地看到系统的心跳,并适时进行干预。

解决方案

在我日常的Linux运维和开发工作中,进程管理是绕不开的话题。无论是排查系统资源占用过高的问题,还是确保某个服务稳定运行,亦或是将耗时任务放到后台执行,一套清晰的思路和熟练的命令操作是必不可少的。我的方法论是:先观察,再分析,最后才动手干预。这意味着我们要先用工具看清当前有哪些进程,它们的状态如何,占用了多少资源;接着根据观察到的现象,结合系统日志或应用行为进行判断;最后,才决定是调整优先级、发送信号终止,还是将其转为后台运行。这个过程不是线性的,往往需要反复迭代,但核心始终是围绕着“查看”、“控制”和“调度”这三大方面展开。

如何查看Linux系统中正在运行的进程?

要理解系统在做什么,第一步无疑是查看当前运行的进程。这方面,我最常用且觉得最基础的工具就是

re>psre>

re>topre>

,它们各有侧重。

re>psre>

命令,全称是“process status”,它能提供某一时刻的进程快照。我个人最喜欢用

re>ps auxre>

re>ps -efre>

这两个组合。

  • re>ps auxre>

    :这个命令会列出所有用户(a)、所有终端(x)上的进程,并且会显示详细信息,比如进程的用户、PID(进程ID)、CPU和内存占用百分比、启动时间以及完整的命令。它给我的感觉就像是打开了一扇窗,瞬间看到系统里所有正在发生的事情。举个例子,如果我想找一个特定的服务,比如Nginx,我可能会这样用:

    re>ps aux | grep nginxre>

    re>ps aux | head -n 5re>

    输出示例:

    re>USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND root 1 0.0 0.0 170892 10880 ? Ss Oct26 0:02 /sbin/init root 2 0.0 0.0 0 0 ? S Oct26 0:00 [kthreadd] root 3 0.0 0.0 0 0 ? I< Oct26 0:00 [rcu_gp] root 4 0.0 0.0 0 0 ? I< Oct26 0:00 [rcu_par_gp]re>

  • re>ps -efre>

    :这个命令会以BSD风格显示所有进程,包括父进程ID(PPID)。在需要追踪进程的父子关系时,这个命令就显得特别有用。比如,我想知道某个进程是由哪个服务启动的,

    re>ps -ef | grep [process_name]re>

    就能帮我定位。

    re>ps -ef | head -n 5re>

    输出示例:

    re>UID PID PPID C STIME TTY TIME CMD root 1 0 0 Oct26 ? 00:00:02 /sbin/init root 2 0 0 Oct26 ? 00:00:00 [kthreadd] root 3 2 0 Oct26 ? 00:00:00 [rcu_gp] root 4 2 0 Oct26 ? 00:00:00 [rcu_par_gp]re>

re>topre>

命令,则提供了一个实时动态的视图。它就像一个仪表盘,持续更新CPU、内存使用情况以及进程列表。我经常用它来快速定位系统瓶颈,比如哪个进程突然吃满了CPU。在

re>topre>

界面里,我可以通过按键进行交互操作,比如按

re>Mre>

按内存使用排序,按

re>Pre>

按CPU使用排序,按

re>kre>

可以杀掉进程,按

re>rre>

可以调整进程优先级。

为了更直观,我个人更偏爱

re>htopre>

。它不是Linux自带的,但安装后体验非常好,提供了一个彩色的、交互性更强的界面,像一个增强版的

re>topre>

。你可以用鼠标点击列头排序,用F键进行各种操作,非常方便。

当一个进程失控时,我们应该如何有效地终止它?

有时候,程序会陷入死循环、内存泄漏,或者干脆就是僵死不动,这时候就需要我们手动“干预”了。终止进程的命令主要是

re>killre>

re>killallre>

,但这里面学问可不小,不能随便乱用。

  • re>killre>

    命令:顾名思义,就是“杀死”进程。它通过向指定PID发送信号来终止进程。最常用的信号是

    re>SIGTERMre>

    (信号15)和

    re>SIGKILLre>

    (信号9)。

    • re>kill PIDre>

      re>kill -15 PIDre>

      :这是最“礼貌”的终止方式。

      re>SIGTERMre>

      信号会请求进程优雅地退出,给它时间来清理资源、保存数据。我通常会优先使用这种方式,因为它能最大程度地减少数据丢失或系统状态不一致的风险。如果一个服务正在处理请求,它可能会等待当前请求处理完毕再退出。

    • re>kill -9 PIDre>

      :这是“强制”终止。

      re>SIGKILLre>

      信号会直接让操作系统强制终止进程,不给它任何清理的机会。这就像拔掉电源一样,简单粗暴,但有效。我只在进程对

      re>SIGTERMre>

      无响应时才使用

      re>kill -9re>

      ,因为它可能导致数据损坏或资源泄露。

    举个例子,如果我发现一个PID为12345的进程卡住了:

    re>kill 12345 # 尝试温柔地终止 # 如果进程依然存在 kill -9 12345 # 强制终止re>

  • re>killallre>

    命令:如果你知道进程的名字,而不是PID,

    re>killallre>

    就非常方便了。它会向所有匹配指定名称的进程发送信号。比如,我想关闭所有Nginx工作进程:

    re>killall nginx # 默认发送SIGTERM killall -9 nginx # 强制终止所有Nginx进程re>

    使用

    re>killallre>

    时要特别小心,因为如果系统中有多个同名进程,它会全部终止,这在生产环境操作时需要格外谨慎。

  • re>pkillre>

    命令:这是一个更灵活的工具,它允许你根据进程名的一部分、用户、终端等多种条件来杀死进程。比如,我想杀死所有由用户

    re>johnre>

    运行的进程:

    re>pkill -u johnre>

    或者杀死所有名称中包含“python_script”的进程:

    re>pkill -f python_scriptre>

    re>pkillre>

    在脚本中处理特定场景时非常强大,但同样需要精确匹配,避免误杀。

在实际操作中,我总会先用

re>ps aux | grep [process_name]re>

确认进程的存在和PID,然后尝试温柔的

re>killre>

,如果不行,再考虑

re>kill -9re>

。这是我的基本原则,确保操作的安全性和有效性。

如何在后台运行命令或管理作业?

很多时候,我们运行的命令或脚本需要执行很长时间,或者我们希望它们在终端关闭后仍然继续运行。这时候,将它们放到后台运行就变得至关重要。

  • rong>

    re>&amp;amp;re>

    符号rong>:这是最直接的方式。在命令的末尾加上

    re>&amp;amp;re>

    ,就能让它立即在后台运行。

    re>my_long_running_script.sh &amp;amp;amp;re>

    这样,你就可以继续在当前终端输入其他命令了。不过,这种方式有一个限制:如果你的SSH会话断开,这个后台进程通常也会随之终止。

  • rong>

    re>Ctrl+Zre>

    re>jobsre>

    re>bgre>

    re>fgre>

    rong>:

    • 如果你已经启动了一个前台命令,突然发现它需要长时间运行,或者你想暂时停止它去做别的事情,可以按下

      re>Ctrl+Zre>

      。这会将当前前台进程“挂起”(stopped),但它并没有被杀死。

    • 接着,你可以使用

      re>jobsre>

      命令查看当前终端下所有被挂起或正在后台运行的作业。

      re>jobsre>

      输出示例:

      re>[1]- Stopped my_long_running_script.shre>

    • 如果你想让这个被挂起的作业在后台继续运行,可以使用

      re>bgre>

      命令。

      re>bg %1 # %1表示jobs列表中第一个作业,也可以直接 bgre>

    • 如果需要将某个后台作业重新拉到前台进行交互,可以使用

      re>fgre>

      命令。

      re>fg %1 # 将第一个后台作业带回前台re>

      这些命令的组合使用,让我能够非常灵活地在终端中调度任务,尤其是在处理一些交互式但又需要长时间等待的程序时。

  • rong>

    re>nohupre>

    命令rong>:这是我处理那些“即使终端关闭也绝不能停”的后台任务的首选。

    re>nohupre>

    (no hang up)命令会在命令运行时忽略HUP(hangup)信号。这意味着即使你退出SSH会话,使用

    re>nohupre>

    启动的进程也不会终止。

    re>nohup my_server_app.py > app.log 2>&amp;amp;1 &amp;amp;re>

    这个命令的含义是:

    • re>nohupre>

      :确保进程在终端关闭后继续运行。

    • re>my_server_app.pyre>

      :要执行的命令。

    • re>> app.logre>

      :将标准输出重定向到

      re>app.logre>

      文件,而不是屏幕。

    • re>2>&amp;amp;1re>

      :将标准错误重定向到与标准输出相同的地方(即

      re>app.logre>

      )。

    • re>&amp;amp;re>

      :将整个

      re>nohupre>

      命令放到后台执行。

    使用

    re>nohupre>

    时,通常会把输出重定向到一个文件,因为默认情况下

    re>nohupre>

    会将输出写入

    re>nohup.outre>

    ,这可能会导致文件过大或混淆。这是确保关键服务在后台稳定运行的常用方法。

了解进程的优先级和资源占用,我们能做些什么?

理解进程的优先级和资源占用,并进行适当的调整,是优化系统性能、确保关键服务稳定运行的关键。这不仅仅是看一眼

re>topre>

那么简单,更涉及到如何主动管理。

  • rong>

    re>nicere>

    re>renicere>

    命令rong>:这两个命令用来调整进程的“niceness”值,从而影响其调度优先级。在Linux中,

    re>nicenessre>

    值的范围是-20到19。值越小(-20),优先级越高;值越大(19),优先级越低。默认情况下,进程的

    re>nicenessre>

    值是0。

    • re>nicere>

      :用于在启动一个新进程时设置其优先级。比如,我有一个非常耗费CPU的报告生成脚本,但它不是紧急任务,我希望它不要影响到其他关键服务。

      re>nice -n 10 my_report_script.sh &amp;amp;amp;re>

      这里,

      re>-n 10re>

      表示给脚本一个较低的优先级(niceness值为10),让它在后台“谦让”其他进程。

    • re>renicere>

      :用于修改一个已经运行的进程的优先级。如果我发现某个正在运行的进程突然变得非常“霸道”,占用了太多CPU,我可以降低它的优先级。

      re>renice 15 -p 12345 # 将PID为12345的进程优先级设置为15re>

      或者,如果某个关键服务因为资源竞争而运行缓慢,我可以在权限允许的情况下,提升它的优先级(降低niceness值)。

      re>sudo renice -5 -p 54321 # 将PID为54321的进程优先级设置为-5re>

      请注意,提升优先级通常需要root权限。

  • rong>资源监控与分析rong>:除了

    re>topre>

    re>htopre>

    ,还有一些命令能帮助我更深入地了解进程的资源占用:

    • re>free -hre>

      :快速查看系统的内存使用情况,包括总内存、已用、空闲、缓存等,以人类可读的格式显示。这对于判断系统是否存在内存瓶颈非常有用。

      re>free -hre>

      输出示例:

      re> total used free shared buff/cache available Mem: 7.7Gi 3.0Gi 1.2Gi 209Mi 3.5Gi 4.2Gi Swap: 2.0Gi 40Mi 1.9Gire>

    • re>df -hre>

      :查看磁盘空间使用情况。虽然不是直接的进程管理,但如果一个进程因为磁盘空间不足而卡死,

      re>dfre>

      就能提供线索。

    • re>lsof -ire>

      :这个命令非常强大,可以列出所有打开的文件。结合进程管理,我经常用它来查看某个进程打开了哪些网络连接,或者监听了哪些端口。比如,想知道哪个进程占用了80端口:

      re>sudo lsof -i :80re>

      这在排查端口冲突或网络服务问题时,是不可或缺的工具。

通过这些工具和命令,我能够更细致地观察和调整系统行为。这不是一蹴而就的,需要结合实际情况反复尝试和学习。但掌握这些,无疑能让你在Linux的世界里游刃有余。

相关标签:

k="hits_log(2,'www',this);" href-data="/zt/15718.html" target="_blank">linux k="hits_log(2,'www',this);" href-data="/zt/15730.html" target="_blank">python k="hits_log(2,'www',this);" href-data="/zt/16000.html" target="_blank">nginx k="hits_log(2,'www',this);" href-data="/zt/16016.html" target="_blank">操作系统 k="hits_log(2,'www',this);" href-data="/zt/16186.html" target="_blank">app k="hits_log(2,'www',this);" href-data="/zt/16709.html" target="_blank">端口 k="hits_log(2,'www',this);" href-data="/zt/16887.html" target="_blank">工具 k="hits_log(2,'www',this);" href-data="/zt/17539.html" target="_blank">ai k="hits_log(2,'www',this);" href-data="/zt/21592.html" target="_blank">linux系统 k="hits_log(2,'www',this);" href-data="/zt/38616.html" target="_blank">内存占用 k="hits_log(2,'www',this);" href-data="/zt/38926.html" target="_blank">数据丢失 k="hits_log(2,'www',this);" href-data="/zt/122037.html" target="_blank">red k="hits_log(2,'www',this);" href-data="/search?word=nginx" target="_blank">nginx k="hits_log(2,'www',this);" href-data="/search?word=循环" target="_blank">循环 k="hits_log(2,'www',this);" href-data="/search?word=linux" target="_blank">linux k="hits_log(2,'www',this);" href-data="/search?word=ssh" target="_blank">ssh

k="hits_log(2,'www',this);" href-data="/zt/15718.html" target="_blank">linux k="hits_log(2,'www',this);" href-data="/zt/15730.html" target="_blank">python k="hits_log(2,'www',this);" href-data="/zt/16000.html" target="_blank">nginx k="hits_log(2,'www',this);" href-data="/zt/16016.html" target="_blank">操作系统 k="hits_log(2,'www',this);" href-data="/zt/16186.html" target="_blank">app k="hits_log(2,'www',this);" href-data="/zt/16709.html" target="_blank">端口 k="hits_log(2,'www',this);" href-data="/zt/16887.html" target="_blank">工具 k="hits_log(2,'www',this);" href-data="/zt/17539.html" target="_blank">ai k="hits_log(2,'www',this);" href-data="/zt/21592.html" target="_blank">linux系统 k="hits_log(2,'www',this);" href-data="/zt/38616.html" target="_blank">内存占用 k="hits_log(2,'www',this);" href-data="/zt/38926.html" target="_blank">数据丢失 k="hits_log(2,'www',this);" href-data="/zt/122037.html" target="_blank">red k="hits_log(2,'www',this);" href-data="/search?word=nginx" target="_blank">nginx k="hits_log(2,'www',this);" href-data="/search?word=循环" target="_blank">循环 k="hits_log(2,'www',this);" href-data="/search?word=linux" target="_blank">linux k="hits_log(2,'www',this);" href-data="/search?word=ssh" target="_blank">ssh

text=ZqhQzanResources