Linux 内核基础与系统调用解析

1次阅读

系统调用通过软中断（如syscall指令）进入内核，经sys_call_table跳转至对应处理函数；glibc封装隐藏部分调用（如fopen→openat、getpid缓存），vdso加速time相关调用，新增系统调用需改三处且不推荐。

Linux 内核基础与系统调用解析

系统调用到底走的是哪条路径？

用户态程序调用 open() 或 read() 时，并不直接进入内核代码，而是触发软中断（x86 是 int 0x80，现代 x86-64 更常用 syscall 指令），跳转到内核预设的入口函数 sys_call_table 对应的处理函数，比如 sys_open()。这条路径是硬编码在内核镜像里的，不是动态注册的。

常见错误现象：strace ls 显示大量 openat(…) 却找不到对应用户代码里的 fopen() —— 因为 glibc 把 fopen() 实现为对 openat() 的封装，且默认启用 AT_FDCWD；别在用户代码里硬写汇编去调 int 0x80，glibc 已经做了 ABI 适配和错误码转换。

syscall 指令比 int 0x80 快，但仅限 x86-64；i386 上仍得用后者
系统调用号在不同架构上不通用：比如 write 在 x86-64 是 1，在 arm64 是 64
内核配置 CONFIG_IA32_EMULATION 关闭时，32 位程序在 64 位内核上会直接 ENOSYS

怎么自己加一个系统调用？（以 linux 5.15+ 为例）

不推荐。主线内核已冻结新增系统调用接口，除非是硬件驱动强依赖的底层功能（如新 CPU 的安全扩展）。绝大多数需求应该走 /dev 字符设备、ioctl、netlink 或 eBPF。

如果真要实验：必须同时改三处——头文件 arch/x86/entry/syscalls/syscall_64.tbl 加编号和函数名，include/linux/syscalls.h 声明函数原型，再在 fs/read_write.c 或新建文件里实现 sys_my_syscall()。漏掉任一环都会导致链接失败或运行时 ENOSYS。

新系统调用函数签名必须以 asmlinkage long 开头，参数不超过 6 个，类型受限（不能传结构体指针，需用 copy_from_user()）
返回值必须是 long，负数表示错误（如 -EINVAL），正数或 0 才是成功
编译后需重装内核并重启，systemctl reboot 不等于热加载

`strace` 看不见的调用：哪些系统调用被 libc 隐藏了？

strace 默认只显示“裸”系统调用，但 glibc 大量内部优化会让某些行为完全不经过内核——比如小块内存分配用 brk()，但后续 malloc() 分配可能复用堆内存，根本不触发任何系统调用；又比如 getpid() 在多数场景下直接读取 TLS 中缓存的 pid，连 syscall 指令都不发。

常见误解：看到 printf() 没触发 write() 就以为出 bug —— 实际是输出被行缓冲或全缓冲，内容还在用户态 FILE 结构体的缓冲区里。

用 strace -e trace=%all 强制显示所有，但性能开销极大，别在生产环境跑
gettimeofday() 在 2.6.29+ 内核中已被 vDSO 替代，strace 完全看不到它进内核
clock_gettime(CLOCK_MONOTONIC, ...) 同样走 vDSO，除非时钟源切换导致回退到真实系统调用

为什么 `fork()` 和 `vfork()` 行为差异这么大？

根本区别不在“是否拷贝页表”，而在于内存执行权的让渡时机：fork() 返回后父子进程可并发执行；vfork() 要求子进程必须先调 execve() 或 _exit()，否则父进程被挂起 —— 这是 POSIX 强制语义，不是优化技巧。

容易踩的坑：在 vfork() 后调 printf()、malloc() 或任何可能修改父进程数据的函数，结果未定义；GCC 甚至可能把局部变量优化到寄存器，导致子进程 execve() 失败后父进程恢复时读到垃圾值。

现代 glibc 中 vfork() 已基本等价于 fork() + membarrier()，但语义约束仍在
clone() 是更底层接口，fork() 和 vfork() 都是它封装，但普通代码不该直接用 clone()
容器场景下 fork() 触发 COW，若父进程有大堆内存，首次写入延迟明显；vfork() 可规避，但风险极高

事情说清了就结束。系统调用不是 API 文档里那几行声明，它是用户态和内核态之间一道有状态、有缓存、有 ABI 约束、还带硬件特性的窄门。越想绕过它，越容易撞上 vDSO、COW、seccomp 或 ptrace 的边界。

发表于：web3.0

近一天内

复制链接

fstab 中 UUID 写错导致开机 emergency mode 的快速修复流程

如何管理你的加密货币投资组合？资产配置与风险控制技巧。

欧易OKX官网注册流程指南欧易App v6.210.0新手一键安装

Golang中如何实现异步错误的实时报警_集成钉钉/飞书机器人

SQL 大表加字段的在线变更与默认值填充性能优化路径

Linux 内核基础与系统调用解析

系统调用到底走的是哪条路径？

怎么自己加一个系统调用？（以 linux 5.15+ 为例）

`strace` 看不见的调用：哪些系统调用被 libc 隐藏了？

为什么 `fork()` 和 `vfork()` 行为差异这么大？

为什么VSCode的调试功能对初学者至关重要【教程】

欧易官方App下载地址 OKX交易所安卓版v7.165.1

如何在 GORM 中将嵌入结构体以 JSON 形式存储为单字段

c++如何计算正弦余弦值_c++ math库常用函数【入门】

ios如何调用html5推送通知_ios调用html5推送设置法【技巧】

SQL CASE 表达式复杂逻辑应用

Linux 源列表配置与镜像加速

Vaadin 中 Enter 快捷键触发被防火墙拦截的解决方案

Linux 系统服务管理与优化方法

SQL EXISTS 与 JOIN 优化实践

Linux 内核基础与系统调用解析

系统调用到底走的是哪条路径？

怎么自己加一个系统调用？（以 linux 5.15+ 为例）

strace 看不见的调用：哪些系统调用被 libc 隐藏了？

为什么 fork() 和 vfork() 行为差异这么大？

`strace` 看不见的调用：哪些系统调用被 libc 隐藏了？

为什么 `fork()` 和 `vfork()` 行为差异这么大？