Unix环境高级编程笔记2

"Linux"

Posted by Mas9uerade on August 24, 2018

“Unix环境高级编程第二版读书笔记 - 2”

Unix基础知识

进程控制

1.进程标志符 进程ID

在linux中进程的id是区分进程的别一标准。

调度进程ID为0 init进程ID为1 …… 孤儿进程

#include <unistd.h>
pid_t getpid(void);     //获取当前进程ID
pid_t getppid(void);    //获取父进程ID
uid_t getuid(void);     //该进程的用户ID
.....

2. fork函数创造子进程

fork函数用于创建一个新进程

#include <unistd.h>
pid_t fork(void);
  1. fork函数被调用一次会有两个返回值,它在父进程中返回新的子进程的ID,而在子进程中返回值为0。 在linux中之所以需要这么做的原因是linux中没有像Windows那样可以通过共同的进程名访问到所有子进程,因此每次创建子进程都需要在父进程返回子进程id,用于控制子进程。

  2. fork之后,子进程作为父进程的福本,获得父进程数据空间、堆、栈的福本,不是完全的一个new出来的进程,可以继续fork时父进程的状态进行工作,但是这个地方做的不是完全的深拷贝,而是在写时复制(Copy-On-Write,COW),提升了一部分效率;

  3. fork后的子进程与父进程共享同一文件偏移量;

vfork已被废弃,先不讨论;

3. exit函数

进程结束的方法有5种

  1. 在main中执行return,等效于调用exit;
  2. 调用exit;
  3. 调用_exit或_Exit函数;
  4. 进程的最后一个线程在其启动例程中执行返回语句。但是,该线程的返回值不会用作进程返回值。当最后一个线程从启动例程返回时,该进程以终止状态0返回;
  5. 进程的最后一个线程调用pthread_exit函数; 3种异常终止方式:
  6. 调用abort;
  7. 当进程接收到某些信号,信号可由进程自身,其他进程或内核产生。例如,进程越出其地址空间访问存储单元或者除以0,内核就会为该进程产生对应信号();
  8. 最后一个线程对“cancellation”请求做出响应, 按系统默认,“Cancellation”以延迟方式发生。

不论进程如何终止,都会执行内核为进程关闭所有打开描述符,释放内存等操作的代码。(避免IO冲突/内存泄漏)

4. 孤儿进程与僵死进程-参考链接

孤儿进程:一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养,并由init进程对它们完成状态收集工作。

僵死进程:一个进程使用fork创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程。

4.1 问题及危害

Unix提供了一种机制可以保证只要父进程想知道子进程结束时的状态信息, 就可以得到。这种机制就是: 在每个进程退出的时候,内核释放该进程所有的资源,包括打开的文件,占用的内存等。 但是仍然为其保留一定的信息(包括进程号the process ID,退出状态the termination status of the process,运行时间the amount of CPU time taken by the process等)。直到父进程通过wait / waitpid来取时才释放。 但这样就导致了问题,如果进程不调用wait / waitpid的话, 那么保留的那段信息就不会释放,其进程号就会一直被占用,但是系统所能使用的进程号是有限的,如果大量的产生僵死进程,将因为没有可用的进程号而导致系统不能产生新的进程. 此即为僵尸进程的危害,应当避免。

孤儿进程是没有父进程的进程,孤儿进程这个重任就落到了init进程身上,init进程就好像是一个民政局,专门负责处理孤儿进程的善后工作。每当出现一个孤儿进程的时候,内核就把孤 儿进程的父进程设置为init,而init进程会循环地wait()它的已经退出的子进程。这样,当一个孤儿进程凄凉地结束了其生命周期的时候,init进程就会代表党和政府出面处理它的一切善后工作。因此孤儿进程并不会有什么危害。

任何一个子进程(init除外)在exit()之后,并非马上就消失掉,而是留下一个称为僵尸进程(Zombie)的数据结构,等待父进程处理。这是每个 子进程在结束时都要经过的阶段。如果子进程在exit()之后,父进程没有来得及处理,这时用ps命令就能看到子进程的状态是“Z”。如果父进程能及时 处理,可能用ps命令就来不及看到子进程的僵尸状态,但这并不等于子进程不经过僵尸状态。 如果父进程在子进程结束之前退出,则子进程将由init接管。init将会以父进程的身份对僵尸状态的子进程进行处理。

4.2 僵尸进程危害场景:

例如有个进程,它定期的产 生一个子进程,这个子进程需要做的事情很少,做完它该做的事情之后就退出了,因此这个子进程的生命周期很短,但是,父进程只管生成新的子进程,至于子进程 退出之后的事情,则一概不闻不问,这样,系统运行上一段时间之后,系统中就会存在很多的僵死进程,倘若用ps命令查看的话,就会看到很多状态为Z的进程。 严格地来说,僵死进程并不是问题的根源,罪魁祸首是产生出大量僵死进程的那个父进程。因此,当我们寻求如何消灭系统中大量的僵死进程时,答案就是把产生大 量僵死进程的那个元凶枪毙掉(也就是通过kill发送SIGTERM或者SIGKILL信号啦)。枪毙了元凶进程之后,它产生的僵死进程就变成了孤儿进 程,这些孤儿进程会被init进程接管,init进程会wait()这些孤儿进程,释放它们占用的系统进程表中的资源,这样,这些已经僵死的孤儿进程 就能瞑目而去了。

4.3 僵尸进程的解决方法

  1. 通过信号机制 子进程退出时向父进程发送SIGCHILD信号,父进程处理SIGCHILD信号。在信号处理函数中调用wait进行处理僵尸进程。

  2. fork两次 《Unix 环境高级编程》8.6节说的非常详细。原理是将子进程成为孤儿进程,从而其的父进程变为init进程,通过init进程可以处理僵尸进程。

5. wait 与 waitpid函数

pid_t wait(int *statloc);
pid_t waitpid(pid_t pid, int *statloc, int options);
其中startloc是作为进程状态的输出指针,若不关心返回的进程状态,可设为空
具体返回的类型需要查定义宏

当一个进程终止时,内核就像其父进程发送SIGCHLD信号(signal children)。因为子进程的终止是异步事件,所以这种信号实际上是内核向父进程发起的异步通知。此时,父进程可以选择调用wait或者waitpid来获取其终止状态,在父进程调用wait或者waitpid的时候,有三种可能情况

  1. 如果其所有子线程都在运行中,则阻塞直至有一子线程终止;
  2. 如果已经有一个子线程已终止,正等待父线程来获取其终止状态,则成功获取终止状态并立即返回;
  3. 如果没有任何子线程,则立即出错返回;

其中waitpid提供了wait函数没有提供的三个功能:

  1. 顾名思义,waitpid可等待某一制定进程,而wait则返回任一终止子进程的状态;
  2. waitpid提供了一个wait的非阻塞版本;
  3. waitpid支持作业控制;
  4. waitpid相对于wait多了一个pid与option的输入,用于指定进程与模式,同样模式需要查看定义宏

5.1 之后还有waitid, wait2, wait3……

6. 竞争状态Race Condition

当多个进程都企图对共享数据进行某种处理时,而最后的结果又取决于进程运行的顺序,这就可以被理解为发生了竞争状态。

当多个进程都企图对共享数据进行某种处理,而最后的结果又取决于进程进行的顺序时,则我们认为这发生了竞争条件。一个例子是在fork出子进程之后,父、子进程的执行顺序是不确定的,这种不确定决定了后面程序的结果,那么这便产生了一个竞争条件。

如果一个进程希望等待一个子进程终止,则它必须调用wait或waitpid函数。如果一个进程要等待其父进程终止,则可使用如下的轮询方式:

while (getppid() != 1)
    sleep(1);

这样的轮询(polling)需要休眠、唤醒等工作,很显然浪费了CPU资源。

为了避免竞争条件与轮询,UNIX中使用了信号机制与STREAM(管道)。

7. exec函数

当我们创建了一个进程之后,通常将子进程替换成新的进程映象,这可以用exec系列的函数来进行。当然,exec系列的函数也可以将当前进程替换掉。

exec只是用磁盘上的一个新程序替换了当前进程的正文段, 数据段, 堆段和栈段.

其中由于进程id没有改变,与进程id相关的其他一切都没改变(进程父子关系,用户组,文件锁,进程信号屏蔽等)