Linux复习——进程概念

1.冯诺依曼体系结构

截止目前。我们所认识的计算机，都是一个个的硬件组件组成

*输入单元：包括键盘、鼠标、扫描仪、写板等

*中央处理器（CPU）：含有运算器和控制器等

*输出单元：显示器、打印机等

关于冯诺依曼，必须强调几点

*这里的存储器指的是内存

*不考虑缓存情况，这里的CPU能且只能对内存进行读写，不能访问外设（输入输出设备）

*外设要输入或者输出数据，也只能写入内存或者从内存中读取

*一句话，所有设备都只能直接和内存打交道

2.操作系统（Operator System）

概念：任何计算机系统都包含一个基本的程序集合，称为操作系统（OS）。

笼统理解OS包括：内核（进程管理、内存管理、文件管理、驱动管理）、其他程序（例如函数库，shell程序等）

设计OS的目的：与硬件交互，管理所有的软硬件资源。为用户程序（应用程序）提供一个良好的执行环境

OS的定位：在整个计算机软硬件架构中，操作系统的定位是：一款纯正的“搞管理”的软件

管理首先要有被管理的对象，我们需要将他的各个属性描述清楚（通过结构体），然后将他们组织起来（通过数据结构）

系统调用和库函数的概念：

*在开发角度，操作系统对外会表现为一个整体，但是会暴露自己的部分接口（OS对用户绝对的不信任），供上层开发使用，这部分由操作系统提供的接口，叫做系统调用

*系统调用在使用上，功能比较基础，对用户的要求相对比较高，所以，有心的开发者可以对部分系统调用进行适度封装，从而形成库，有了库，就很有利于供上层用户或者开发者进行二次开发

3.进程

基本概念：

*课本概念：程序的一个执行实例，正在执行的程序等

*内核观点：担当分配系统资源（CPU时间，内存）的实体

描述进程——PCB：

*进程信息被放在一个叫做进程控制块的数据结构中，可以理解为进程属性的集合

*课本上将其称为PCB，Linux操作系统下的PCB是：task_struct

task_struct-PCB的一种

*Linux中描述进程的结构体叫做task_struct

*task_struct是Linux内核的一种数据结构，他会被装在到RAM（内存）里并且包含着进程的信息

task_struct内容分类：

标示符: 描述本进程的唯一标示符，用来区别其他进程。

状态: 任务状态，退出代码，退出信号等。

优先级: 相对于其他进程的优先级。

程序计数器: 程序中即将被执行的下一条指令的地址。

内存指针: 包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针

上下文数据: 进程执行时处理器的寄存器中的数据[休学例子，要加图CPU，寄存器]。

I／O状态信息: 包括显示的I/O请求,分配给进程的I／O设备和被进程使用的文件列表。

记账信息: 可能包括处理器时间总和，使用的时钟数总和，时间限制，记账号等。

其他信息

组织进程：可以在内核源代码里找到它。所有运行在系统里的进程都以task_struct链表的形式存在内核里

查看进程：进程信息可以用/proc系统文件夹查看，如要获取PID为1的进程信息可以产看/proc/1这个文件夹

还可以通过ps来查看进程

通过系统调用获取进程标示符进程id（PID）、父进程id（PPID）

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{printf("pid: %d\n", getpid());printf("ppid: %d\n", getppid());return 0;
}

通过系统调用创建进程-fork，一般来说fork之后需要通过if分流。

4.进程状态

R运行状态（running）: 并不意味着进程一定在运行中，它表明进程要么是在运行中要么在运行队列里。

S睡眠状态（sleeping): 意味着进程在等待事件完成（这里的睡眠有时候也叫做可中断睡眠（interruptible sleep））。

D磁盘休眠状态（Disk sleep）有时候也叫不可中断睡眠状态（uninterruptible sleep），在这个状态的进程通常会等待IO的结束。

T停止状态（stopped）：可以通过发送 SIGSTOP 信号给进程来停止（T）进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。

X死亡状态（dead）：这个状态只是一个返回状态，你不会在任务列表里看到这个状态

进程状态可以通过ps aux | ps axj来查看

僵尸进程：当子进程退出但是父进程并没有读取子进程的退出返回代码，子进程就会进入僵尸状态，僵尸状态会以终止状态保持在进程表中，并且会一直在等待父进程读取退出状态代码

僵尸进程的危害：

进程退出状态必须被维持下去，因为子进程的创建是为了完成某个任务，它退出后必须告诉父进程认为完成的怎么样了，如果父进程一直不读取子进程退出代码，那么子进程会一直保持Z状态

如果一个父进程创建了多个子进程而不回收将会造成内存泄漏

如何避免请看这篇文章：linux僵尸进程产生的原因以及如何避免产生僵尸进程 - 莫水千流 - 博客园

孤儿进程：父进程先于子进程退出，这是子进程称为“孤儿进程”，这样的进程会被1号init进程领养，并由init进程回收。孤儿进程的一个重要用法就是守护进程用作服务器。详情看下面这篇文章

linux系统编程之进程（八）：守护进程详解及创建，daemon()使用 - mickole - 博客园

5.进程优先级

基本概念：

*CPU资源分配的先后顺序就是指进程的优先权

*优先权高的进程有优先执行的权利，配置进程优先权对多任务环境的linux很有用，可以改善系统性能

*可以将进程运行到指定的CPU上，这样一来，把不重要的进程安排到某个CPU，可以大大改善系统整体性能

查看系统进程：在linux或者unix系统中，用ps -l命令会输出一下内容

其中UID代表执行者的身份、PID代表这个进程的代号、PPID代表这个进程是由哪个进程发展衍生而来的，也就是父进程的代号、PRI代表这个进程可以被执行的优先级，其值越小越早被执行、NI代表这个进程的nice值

PRI and NI

PRI就是进程的优先级，或者说是程序被CPU执行的先后顺序，值越小越早被执行即优先级越高

NI是进程可被执行的优先级的修正数值

PRI实际上等于 PRI(new) = PRI(old) + nice

调整进程优先级只需要调整进程的nice值，nice值的范围是-20到19一共40级

我们可以通过top命令修改已存在进程的nice值：具体操作就是命令行输入top后输入进程ID然后输入nice值即可

进程的其他概念

竞争性：系统进程数目众多，而CPU资源只有少量，甚至一个，所以进程之间具有竞争性，为了高效的完成任务，更合理竞争相关资源，便具有了优先级

独立性：多进程运行，需要独享各种资源，多进程运行期间互不干扰

并行：多个进程在多个CPU下分别，同时进行运行

并发：多个进程在一个CPU下采用进程切换的方式，在同一段时间内，让多个进程得以推进

6.环境变量

基本概念：环境变量一般指在操作系统中用来指定操作系统运行环境的一些参数

常见的环境变量：PATH：指定命令的搜索路径、HOME：指定用户的主工作目录、SHELL：当前Shell

我们可以通过echo $环境变量名的方法来查看环境变量

环境变量的组织方式：每个程序都会收到一张环境表，环境表是一个字符指针数组，每个指针指向一个以'\0'结尾的环境字符串

通过代码方式获取环境变量

第一种方法命令行参数

#include <stdio.h>
int main(int argc, char *argv[], char *env[])
{int i = 0;for(; env[i]; i++){printf("%s\n", env[i]);}return 0;
}

第二种方法第三方变量environ获取

#include <stdio.h>
int main(int argc, char *argv[])
{extern char **environ;int i = 0;for(; environ[i]; i++){printf("%s\n", environ[i]);}return 0;
}

还可以通过系统调用获取环境变量 getenv

#include <stdio.h>
#include <stdlib.h>
int main()
{printf("%s\n", getenv("PATH"));return 0;
}

环境变量具有全局属性可被子进程继承

7.程序地址空间

#include<iostream>
#include<stdio.h>
#include<sys/types.h>
#include<unistd.h>int main()
{int ret = 314;pid_t id = fork();if(id > 0){sleep(4);std::cout<<"pid"<<getpid()<<" "<<"ret:"<<ret<<" ";std::cout<<"&ret"<<&ret<<std::endl;}else if(id == 0){while(ret>=200){ret--;std::cout<<"pid:"<<getpid()<<" "<<"ppid:"<<getppid()<<"ret:"<<ret;std::cout<<" "<<"&ret:"<<&ret<<std::endl;}}return 0;
}

这个代码中打印的地址是一样的但是打印的值却不一样，这就能说明这个地址绝对不是物理地址（磁盘），在Linux下我们称这种地址为虚拟地址，我们以前用C/C++看到的地址都是虚拟地址。物理地址由OS统一管理，OS负责将虚拟地址转化wield物理地址（通过分页来完成）

通过上图就能知道同一个变量，地址相同其实是虚拟地址相同，内容不同其实是被映射到了不同的物理地址