Linux 系统调用

与内核通信

为了和用户空间上运行的进程进行交互，内核提供了一组接口。透过该接口，应用程序可以访问硬件设备和其他操作系统资源。这组接口在应用程序和内核之间扮演了使者的角色，应用程序发送各种请求，而内核负责满足这些需求（或者让应用程序暂时搁置）。实际上提供这组接口主要是为了保证系统稳定可靠，避免应用程序恣意妄行，惹出大麻烦。

系统调用在用户空间进程和硬件设备之间添加了一个中间层，该层的主要作用有三个。第一，它为用户空间提供了一种硬件的抽象接口。第二，系统调用保证了系统的稳定和安全。作为硬件设备和应用程序之间的中间人，内核可以基于权限和其他一些规则对需要的访问进行裁决。第三，每个进程都运行在虚拟系统中，而在用户空间和系统的其余部分提欧共这样的一层公共接口，也是出于这种考虑，如果应用程序可以随意访问硬件尔内核又对此一无所知的话，几乎就没法实现多任务和虚拟内存，当然也不可能实现良好的稳定性和安全性。

API、POSIX和C库

1、一般情况下，应用程序通过在用户空间实现的应用编程接口（API）而不是直接通过系统调用来编程。一个API定义了一组应用程序使用的编程接口。它可以实现成一个系统调用，也可以通过调用多个系统调用来实现，而完全不使用任何系统调用也不存在任何问题。

2、在Unix系统中，最流行的应用程序编程接口是基于POSIX标准的。

3、Linux的系统调用作为C库的一部分提供。C库实现了Unix系统主要API，包括标准C库函数和系统调用接口。

4、应用编程与系统调用无关紧要，但内核只跟系统调用打交道；库函数及应用程序是怎么使用系统调用的，不是内核所关心的。

5、Unix接口设计有一句格言：“提供机制而不提供策略”，换句话说，Unix系统调用抽象出了用于完成某种确定目的的函数。至于这些函数怎么使用完全不用内核关心。

系统调用

系统调用（在Linux种常称作syscalls）通常通过函数进行调用。它们通常都需要定义一个或者多个参数，而且可能产生一些副作用，例如写某个文件或向给定的指针拷贝数据等等。系统调用还会通过一个long类型的返回值来表示成功或者错误。通常，用一个负的返回值来表示错误。返回一个0值表示成功。Unix系统调用在出现错误的时候，C库会把错误码写入errno全局变量，通过调用perror()库函数，可以把变量翻译成用户可以理解的错误字符串。

当然，系统调用最终具有一种明确的操作：例如getpid() 系统调用，根据定义它会返回当前进程的PID，内核中他的实现非常简单：

/**
 * sys_getpid - return the thread group id of the current process
 *
 * Note, despite the name, this returns the tgid not the pid.  The tgid and
 * the pid are identical unless CLONE_THREAD was specified on clone() in
 * which case the tgid is the same in all threads of the same group.
 *
 * This is SMP safe as current->tgid does not change.
 */
SYSCALL_DEFINE0(getpid)
{
    return task_tgid_vnr(current);
}

SYSCALL_DEFINE0只是一个宏，它定义了一个无参数的系统调用（这里数字为0），展开后的代码如下：

asmlinkage long sys_getpid(void);

首先，必须在声明中使用asmlinkage限定词，这是一个编译指令，通知编译器仅从栈中提取该函数的参数，所有的系统调用都需要这个词。

其次，函数返回值。为了保证32位和64位系统的兼容，系统调用在用户空间和内核空间有不同的返回值类型，用户空间为int，内核空间为long。

最后，系统调用应该被定义与sys_XX的形式。这是Linux种所有系统调用都应该遵守的命名规则。
（1）系统调用号
1、在Linux中，每个系统调用被赋予一个系统调用号。通过这个系统调用号可以关联系统调用。

2、系统调用号非常重要，一旦分配就不能再有任何变更，否则编译好的应用程序就会崩溃。

3、如果一个系统调用被删除，它所占用的系统调用号也不允许被回收利用，否则，以前编译过的代码会调用此系统调用，但事实上却调用另一个系统调用。

4、Linux中有一个“未实现”系统调用 sys_ni_syscall()，它除了返回-ENOSYS外不做任何事，此错误号就是专门针对无效的系统调用而设的。

5、内核记录了系统调用表中的所有已注册过的系统调用的列表，存储在sys_call_tabe中。

（2）系统调用性能
Linux系统调用比其他许多操作系统执行的要快。

系统调用处理函数

1、应用程序通知内核的机制是靠软中断实现的：通过引发一个异常来促使系统切换到内核态去执行异常处理程序。此时的异常处理程序实际上就是系统调用处理程序。

2、指定恰当的系统调用
1）、仅仅陷入内核空间是不够的。必须把系统调用号一并传给内核。
2）、在X86上，系统调用号是通过eax寄存器传递给内核的。在陷入内核之前，用户空间就把相应系统调用所对应的号放入eax中。
3）、system_call函数通过将给定的系统调用号与NR_syscalls作比较来检查其有效性。如果它大于或等于NR_syscalls，该函数就返回-ENOSYS。否则，就执行相应的系统调用。

call  *sys_call_table( , %rax,  8);

3、参数传递
1）、除了系统调用号之外，大部分系统调用还需要一些外部参数的输入。再发生陷入的时候，应该把这些参数从用户空间中传给内核。
2）、用寄存器传递系统调用。在X86系统上，ebx、ecx、edx、esi和edi按顺序存放前五个参数。留个或留个以上参数不常见。此外，应该用一个单独的寄存器存放指向所有这些参数在用户空间地址的指针。

系统调用的实现

1）、实现一个新的系统调用的第一步是决定它的用途，它要做些什么？每个系统调用应该有一个明确的用途，Linux中不提倡多用途的系统调用（一个系统调用通过传递不同的参数值来完成不同的工作），ioctl 就是一个典型的反例。

2）、系统调用必须仔细检查它们所有的参数是否合法有效。最重要的一种检查就是检查用户提供的指针是否有效，在接收一个用户空间的指针之前，内核必须保证：
I、指针指向的内存区域属于用户空间。
II、指针指向的内存区域在进程的地址空间里。
III、如果是读，改内核应被标记为可读；如果是写，改内核应被标记为可写；如果是可执行，改内核应被标记为可执行。
3）、内核提供了两个方法来完成必须的检查和内核空间与用户空间之间数据的来回拷贝。
I、copy_to_user();
II、copy_from_user();
III、如果执行失败，这两个函数返回的都是没能完成拷贝的数据的字节数。如果成功，则返回0.当出现上述错误时，系统调用返回标准-EEAULT。
4）、检查针对是否有合法权限。
系统允许检查针对特定资源的特殊权限，调用者可以使用ns_capable（）函数来检查是否有权能对特定的资源进行操作。
例如：下面reboot的系统调用，第一步是判断是否具有CAP_SYS_BOOT的权能？

SYSCALL_DEFINE4(reboot, int, magic1, int, magic2, unsigned int, cmd,
        void __user *, arg)
{
    struct pid_namespace *pid_ns = task_active_pid_ns(current);
    char buffer[256];
    int ret = 0;

    /* We only trust the superuser with rebooting the system. */
    if (!ns_capable(pid_ns->user_ns, CAP_SYS_BOOT))
        return -EPERM;

    /* For safety, we require "magic" arguments. */
    if (magic1 != LINUX_REBOOT_MAGIC1 ||
            (magic2 != LINUX_REBOOT_MAGIC2 &&
            magic2 != LINUX_REBOOT_MAGIC2A &&
            magic2 != LINUX_REBOOT_MAGIC2B &&
            magic2 != LINUX_REBOOT_MAGIC2C))
        return -EINVAL;

    /*
     * If pid namespaces are enabled and the current task is in a child
     * pid_namespace, the command is handled by reboot_pid_ns() which will
     * call do_exit().
     */
    ret = reboot_pid_ns(pid_ns, cmd);
    if (ret)
        return ret;

    /* Instead of trying to make the power_off code look like
     * halt when pm_power_off is not set do it the easy way.
     */
    if ((cmd == LINUX_REBOOT_CMD_POWER_OFF) && !pm_power_off)
        cmd = LINUX_REBOOT_CMD_HALT;

    mutex_lock(&reboot_mutex);
    switch (cmd) {
    case LINUX_REBOOT_CMD_RESTART:
        kernel_restart(NULL);
        break;

    case LINUX_REBOOT_CMD_CAD_ON:
        C_A_D = 1;
        break;

    case LINUX_REBOOT_CMD_CAD_OFF:
        C_A_D = 0;
        break;

    case LINUX_REBOOT_CMD_HALT:
        kernel_halt();
        do_exit(0);
        panic("cannot halt");

    case LINUX_REBOOT_CMD_POWER_OFF:
        kernel_power_off();
        do_exit(0);
        break;

    case LINUX_REBOOT_CMD_RESTART2:
        ret = strncpy_from_user(&buffer[0], arg, sizeof(buffer) - 1);
        if (ret < 0) {
            ret = -EFAULT;
            break;
        }
        buffer[sizeof(buffer) - 1] = '\0';

        kernel_restart(buffer);
        break;

#ifdef CONFIG_KEXEC
    case LINUX_REBOOT_CMD_KEXEC:
        ret = kernel_kexec();
        break;
#endif

#ifdef CONFIG_HIBERNATION
    case LINUX_REBOOT_CMD_SW_SUSPEND:
        ret = hibernate();
        break;
#endif

    default:
        ret = -EINVAL;
        break;
    }
    mutex_unlock(&reboot_mutex);
    return ret;
}

系统调用上下文

系统调用运行在进程上下文，所以可以休眠，可以被抢占，所以要保证该系统调用时可重入的。
1、绑定一个系统调用的最后步骤
1）、把系统调用注册成一个正式的系统调用：
I、首先，在系统调用表的最后加入一个表项。
II、对于所支持的各种体系结构，系统调用号都必须定义于<asm/unistd.h>中。
III、系统调用必须被编译进内核映像（不能编译成模块）。

2、从用户空间访问系统调用
1）、用户程序通过包含标准头文件和C库连接，就可以使用系统调用。
2）、Linux本身提供一个宏，用于直接对系统调用进行访问。
以Android系统一个reboot系统调用为例，应用程序调用reboot系统调用的方法如下：

ret = syscall(__NR_reboot, LINUX_REBOOT_MAGIC1, LINUX_REBOOT_MAGIC2,
                           LINUX_REBOOT_CMD_RESTART2, arg);

系统调用号的宏定义：位于文件/bionic/libc/kernel/uapi/asm-arm/asm/unistd.h
其中：

#define __NR_reboot 142

汇编定义相关函数的中断调用过程：syscall位于文件/bionic/libc/arch-arm64/bionic/syscall.S，内容如下：

ENTRY(syscall)
    /* Move syscall No. from x0 to x8 */
    mov     x8, x0
    /* Move syscall parameters from x1 thru x6 to x0 thru x5 */
    mov     x0, x1
    mov     x1, x2
    mov     x2, x3
    mov     x3, x4
    mov     x4, x5
    mov     x5, x6
    svc     #0

    /* check if syscall returned successfully */
    cmn     x0, #(MAX_ERRNO + 1)
    cneg    x0, x0, hi
    b.hi    __set_errno_internal

    ret
END(syscall)

3、不通过系统调用的方式实现的原因。
尽量不要自己添加系统调用，有很多其他方法可以替代：
1)实现一个设备节点，对设备进行read,write操作，使用ioctl对特定的设置进行操作。
2)把增加的信息作为一个文件放在sysfs中。

最后编辑于：2017.12.11 06:08:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345