diff --git a/docs/zh/cloud/nestos/nestos/installation_and_deployment.md b/docs/zh/cloud/nestos/nestos/installation_and_deployment.md index e69de29bb2d1d6434b8b29ae775ad8c2e48c5391..aba81fd1464180e341292cd51df6821e14ae2567 100644 --- a/docs/zh/cloud/nestos/nestos/installation_and_deployment.md +++ b/docs/zh/cloud/nestos/nestos/installation_and_deployment.md @@ -0,0 +1,126 @@ +# 安装与部署 + +## 在 VMware 上部署 NestOS + +本指南展示了如何在VMware虚拟机管理程序上配置最新的 NestOS。 + +目前NestOS仅支持x86_64架构。 + +### 开始之前 + +​在开始部署 NestOS 之前,需要做如下准备工作: + +- 下载 NestOS ISO +- 准备 config.bu 文件 +- 配置 butane 工具(Linux环境/win10环境) +- 安装有VMware的宿主机 + +### 初步安装与启动 + +#### 启动 NestOS + +初次启动 NestOS ,ignition 尚未安装,可根据系统提示使用 nestos-installer 组件进行ignition的安装。 + +### 配置 ignition 文件 + +#### 获取 Butane + +可以通过 Butane 将 bu 文件转化为 ignition 文件。ignition 配置文件被设计为可读但不可写,是为了阻止用户尝试手动编写配置。Butane 提供了多种环境的支持,可以在 linux/windows 宿主机中或容器环境中进行配置。 + +```shell +docker pull quay.io/coreos/butane:release +``` + +#### 生成登录密码 + +在宿主机执行如下命令,并输入你的密码。 + +```shell +# openssl passwd -1 -salt yoursalt +Password: +$1$yoursalt$1QskegeyhtMG2tdh0ldQN0 +``` + +#### 生成ssh-key + +在宿主机执行如下命令,获取公钥和私钥以供后续 ssh 登录。 + +```shell +# ssh-keygen -N '' -f ./id_rsa +Generating public/private rsa key pair. +Your identification has been saved in ./id_rsa +Your public key has been saved in ./id_rsa.pub +The key fingerprint is: +SHA256:4fFpDDyGHOYEd2fPaprKvvqst3T1xBQuk3mbdon+0Xs root@host-12-0-0-141 +``` + +```shell +The key's randomart image is: ++---[RSA 3072]----+ +| ..= . o . | +| * = o * . | +| + B = * | +| o B O + . | +| S O B o | +| * = . . | +| . +o . . | +| +.o . .E | +| o*Oo ... | ++----[SHA256]-----+ +``` + +可以在当前目录查看id_rsa.pub公钥: + +```shell +# cat id_rsa.pub +ssh-rsa +AAAAB3NzaC1yc2... +``` + +#### 编写bu文件 + +进行最简单的初始配置,如需更多详细的配置,参考后面的 ignition 详解。 +如下为最简单的 config.bu 文件: + +```shell +variant: fcos +version: 1.1.0 +passwd: + users: + - name: nest + password_hash: "$1$yoursalt$1QskegeyhtMG2tdh0ldQN0" + ssh_authorized_keys: + - "ssh-rsa + AAAAB3NzaC1yc2EAAA..." +``` + +#### 生成ignition文件 + +将 config.bu 通过 Butane 工具转换为 config.ign 文件,如下为在容器环境下进行转换。 + +```shell +# docker run --interactive --rm quay.io/coreos/butane:release \ +--pretty --strict < your_config.bu > transpiled_config.ign +``` + +### 安装 NestOS + +将宿主机生成的config.ign文件通过scp拷贝到前面初步启动的 NestOS 中,该OS目前运行在内存中, +并没有安装到硬盘。 + +```shell +sudo -i +scp root@your_ipAddress:/root/config.ign /root +``` + +根据系统所给提示,执行如下指令完成安装。 + +```shell +nestos-installer install /dev/sda --ignition-file config.ign +``` + +安装完成后重启 NestOS 。 + +```shell +systemctl reboot +``` diff --git a/docs/zh/virtualization/_toc.yaml b/docs/zh/virtualization/_toc.yaml new file mode 100644 index 0000000000000000000000000000000000000000..9d8725feb82a3a970b423ee5fcca15993b411953 --- /dev/null +++ b/docs/zh/virtualization/_toc.yaml @@ -0,0 +1,10 @@ +label: 虚拟化 +sections: + - label: 虚拟化平台 + sections: + - href: ./virtualization_platform/virtualization/_toc.yaml + - href: ./virtualization_platform/stratovirt/_toc.yaml + - label: openStack用户指南 + href: >- + https://openstack-sig.readthedocs.io/zh/latest/ + description: 一个开源的云计算管理平台项目 diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/_toc.yaml b/docs/zh/virtualization/virtualization_platform/stratovirt/_toc.yaml new file mode 100644 index 0000000000000000000000000000000000000000..18875e6529190e9cc74681f8bcdfcf55287d09cb --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/_toc.yaml @@ -0,0 +1,21 @@ +label: StratoVirt用户指南 +isManual: true +description: StratoVirt是计算产业中面向云数据中心的企业级虚拟化平台,实现了一套架构支持虚拟机、容器、Serverless三种场景 +sections: + - label: StratoVirt介绍 + href: ./stratovirt_introduction.md + - label: 安装StratoVirt + href: ./install_stratovirt.md + - label: 准备使用环境 + href: ./prepare_env.md + - label: 虚拟机配置 + href: ./vm_configuration.md + - label: 虚拟机管理 + href: ./vm_management.md + - label: 对接iSula安全容器 + href: ./interconnect_isula.md + - label: 对接libvirt + href: ./interconnect_libvirt.md + - label: StratoVirt VFIO 使用说明 + href: ./stratovirt_vfio_instructions.md + \ No newline at end of file diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/figures/StratoVirt_architecture.jpg b/docs/zh/virtualization/virtualization_platform/stratovirt/figures/StratoVirt_architecture.jpg new file mode 100644 index 0000000000000000000000000000000000000000..93f1697131dd2a6f8c010def9f42ad067b9b0bd9 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/stratovirt/figures/StratoVirt_architecture.jpg differ diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/install_stratovirt.md b/docs/zh/virtualization/virtualization_platform/stratovirt/install_stratovirt.md new file mode 100644 index 0000000000000000000000000000000000000000..b338a05b895699522a7287d802ac169c3116fd7b --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/install_stratovirt.md @@ -0,0 +1,32 @@ +# 安装StratoVirt + +## 软硬件要求 + +### 最低硬件要求 + +- 处理器架构:仅支持AArch64和x86_64处理器架构。AArch64需要ARMv8及更高版本且支持虚拟化扩展;x86_64支持VT-x。 + +- 2核CPU +- 4GiB内存 +- 16GiB可用磁盘空间 + +### 软件要求 + +操作系统:openEuler 22.03 LTS SP4 + +## 安装组件 + +使用StratoVirt虚拟化,需要安装StratoVirt。安装前,请确保已经配置了openEuler yum源。 + +1. 使用root权限,安装StratoVirt组件,参考命令如下: + + ```sh + # yum install stratovirt + ``` + +2. 查看是否安装成功。 + + ```sh + $ stratovirt -version + StratoVirt 2.1.0 + ``` diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_isula.md b/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_isula.md new file mode 100644 index 0000000000000000000000000000000000000000..d5c2efd7a0ecda637f8eb50de8a62677b1133b2b --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_isula.md @@ -0,0 +1,220 @@ +# 对接iSula安全容器 + +## 概述 + +为了给容器提供更好的隔离环境,提高系统安全性,可以使用 iSula 安全容器,即通过 StratoVirt 对接 iSula 安全容器。 + +## 对接iSula安全容器 + +### **前提条件** + +已安装 iSulad 和 kata-containers,并确保 iSulad 支持 containerd-kata-shim-v2 容器运行时和 devicemapper 存储驱动。 + +此处给出安装 iSulad 和 kata-containers 并进行相应配置的参考方法。 + +1. 配置 yum 源,使用 root 权限安装 iSulad 和 kata-containers : + + ```shell + # yum install iSulad + # yum install kata-containers + ``` + +2. 制作并配置存储 Storage: + + 需要用户规划好磁盘如/dev/sdxx,该磁盘会被格式化。 + + ```shell + # pvcreate /dev/sdxx + # vgcreate isulaVG0 /dev/sdxx + # lvcreate --wipesignatures y -n thinpool isulaVG0 -l 95%VG + # lvcreate --wipesignatures y -n thinpoolmeta isulaVG0 -l 1%VG + # lvconvert -y --zero n -c 512K --thinpool isulaVG0/thinpool --poolmetadata isulaVG0/thinpoolmeta + ``` + + 在配置文件 /etc/lvm/profile/isulaVG0-thinpool.profile 中添加如下: + + ```conf + activation { + thin_pool_autoextend_threshold=80 + thin_pool_autoextend_percent=20 + } + ``` + + 更改配置文件/etc/isulad/daemon.json中的storage-driver 和 storage-opts 如下:将默认存储驱动类型 overlay 配置成 devicemapper 。 + + ```conf + "storage-driver": "devicemapper", + "storage-opts": [ + "dm.thinpooldev=/dev/mapper/isulaVG0-thinpool", + "dm.fs=ext4", + "dm.min_free_space=10%" + ], + ``` + +3. 重启 isulad : + + ```shell + # systemctl daemon-reload + # systemctl restart isulad + ``` + +4. 确认 iSula 存储驱动是否配置成功: + + ```shell + # isula info + ``` + + 若回显有如下信息,说明配置成功。 + + ```text + Storage Driver: devicemapper + ``` + +### **对接指导** + +StratoVirt 通过对接 kata-containers来接入 isula 容器生态,此处给出对接 kata-containers 的操作指导。 + +#### 对接轻量虚拟机 + +1. 修改 kata 配置文件(默认路径为 /usr/share/defaults/kata-containers/configuration.toml,也可以参考同一目录下的configuration-stratovirt.toml进行配置) 。将安全容器的 hypervisor 类型修改为 stratovirt,kernel 修改为 kata-containers 的 kernel 镜像绝对路径,initrd 修改为 kata-containers 的 initrd 镜像文件(使用 yum 安装 kata-containers 时,默认会下载这两个镜像文件并存放在 /var/lib/kata/ 目录,配置时也可以使用其他镜像 )。 + + 替换的配置内容参考如下: + + ```shell + [hypervisor.stratovirt] + path = "/usr/bin/stratovirt" + kernel = "/var/lib/kata/kernel" + initrd = "/var/lib/kata/kata-containers-initrd.img" + machine_type = "microvm" + block_device_driver = "virtio-mmio" + use_vsock = true + enable_netmon = true + internetworking_model="tcfilter" + sandbox_cgroup_with_emulator = false + disable_new_netns = false + disable_block_device_use = false + disable_vhost_net = true + ``` + +2. 使用 root 权限和 **isula** 命令运行 busybox 安全容器,完成 StratoVirt 和 安全容器的对接。 + + ```shell + # isula run -tid --runtime "io.containerd.kata.v2" --net=none --name test busybox:latest sh + ``` + +3. 使用 **isula ps** 确认安全容器 test 正常运行,然后通过以下命令进入 test 容器。 + + ```shell + # isula exec -ti test sh + ``` + +4. 通过虚拟机快照加速安全容器的启动速度,降低虚拟机内存开销。 + + 修改 kata 配置文件 configuration.toml,将配置项 enable_template 设置为 true,即允许虚拟机通过制作快照方式进行启动: + + ```shell + [factory] + # VM templating support. Once enabled, new VMs are created from template + # using vm cloning. They will share the same initial kernel, initramfs and + # agent memory by mapping it readonly. It helps speeding up new container + # creation and saves a lot of memory if there are many kata containers running + # on the same host. + # + # When disabled, new VMs are created from scratch. + # + # Note: Requires "initrd=" to be set ("image=" is not supported). + # + # Default false + enable_template = true + ``` + + 配置项 enable_template 设置为 true 后,kata-containers 创建安全容器时,将会检查默认路径(/run/vc/vm/template)下是否存在快照文件,如果存在,直接以该快照文件启动虚拟机,如果不存在,则会创建虚拟机快照,创建完成后,以该快照文件启动虚拟机。 + +5. 通过安全组件 ozone 进一步增强安全容器的隔离性。 + + 修改 kata 配置文件 configuration.toml,将配置项 ozone_path 设置为 ozone 可执行文件的路径(如果使用 yum 安装 stratovirt,ozone 可执行文件默认在 /usr/bin 目录下)。配置该项后,将打开 ozone 安全沙箱功能,作为虚拟化层隔离被攻击者突破后的保险,进一步增强 StratoVirt 安全容器的隔离性: + + ```shell + # Path for the ozone specific to stratovirt + # If the ozone path is set, stratovirt will be launched in + # ozone secure environment. It is disabled by default. + ozone_path = "/usr/bin/ozone" + ``` + + 至此,可以在 test 容器内运行容器命令。 + +#### 对接标准虚拟机 + +使用 StratoVirt 标准虚拟机作为安全容器的 sandbox,需要额外修改少量配置。具体步骤如下: + +1. 配置参考如下: + + ```shell + [hypervisor.stratovirt] + path = "/usr/bin/stratovirt" + kernel = "/var/lib/kata/kernel" + initrd = "/var/lib/kata/kata-containers-initrd.img" + # x86_64 架构 + machine_type = "q35" + # aarch64 架构 + machine_type = "virt" + block_device_driver = "virtio-blk" + pcie_root_port = 2 + use_vsock = true + enable_netmon = true + internetworking_model = "tcfilter" + sandbox_cgroup_with_emulator = false + disable_new_netns = false + disable_block_device_use = false + disable_vhost_net = true + ``` + + 上述配置中,需要根据主机架构,修改对应的虚拟机机型。需要将 block_device_driver 驱动类型改为 virtio-blk。另外,StratoVirt 只支持将设备热插到root port,根据需要热插的设备数量,合理设置 pcie_root_port 值。 + +2. 安装启动标准虚拟机需要的固件 + + x86_64 架构: + + ```shell + # yum install -y edk2-ovmf + ``` + + aarch64 架构: + + ```shell + # yum install -y edk2-aarch64 + ``` + +3. 编译替换为 kata-containers 2.x 版本二进制 + + 当前只为 kata-containers 2.x 版本(对应 kata-containers 源码仓的 openEuler-21.09 分支)适配了 StratoVirt 标准虚拟机作为 sandbox。因此,需要手动下载 kata-containers 源码,编译并替换 `/usr/bin` 目录下的 containerd-shim-kata-v2 二进制文件。 + + ```shell + # mkdir -p /root/go/src/github.com/ + # cd /root/go/src/github.com/ + # git clone https://gitee.com/src-openeuler/kata-containers.git + # cd kata-containers + # git checkout openEuler-21.09 + # ./apply-patches + # cd src/runtime + # make + ``` + + 编译出的二进制位 containerd-shim-kata-v2,需要将默认 `/usr/bin/` 目录的 kata 二进制备份后替换: + + ```shell + # cp /usr/bin/containerd-shim-kata-v2 /usr/bin/containerd-shim-kata-v2.bk + # cp containerd-shim-kata-v2 /usr/bin/containerd-shim-kata-v2 + ``` + +4. 使用 root 权限 和 **isula** 命令运行 busybox 安全容器,完成 StratoVirt 和 安全容器的对接。 + + ```shell + # isula run -tid --runtime "io.containerd.kata.v2" --net=none --name test busybox:latest sh + ``` + +5. 使用 **isula ps** 确认安全容器 test 正常运行,然后通过以下命令进入 test 容器。 + + ```shell + # isula exec -ti test sh + ``` diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_libvirt.md b/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_libvirt.md new file mode 100644 index 0000000000000000000000000000000000000000..06ca581880e1545b84683ab423e5f3f5f9202c11 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/interconnect_libvirt.md @@ -0,0 +1,637 @@ +# 对接 libvirt + +## 概述 + +libvirt 是一个管理 hypervisor 的上层软件,它通过不同的驱动统一管理不同类型的 hypervisor ,并对外提供统一、稳定的应用程序接口。 + +在云场景中,业内广泛使用 libvirt 管理大规模的虚拟机。为了方便地对大规模的 StratoVirt 虚拟机进行部署、编排和管理,StratoVirt 标准虚拟化支持对接 libvirt,打通了 libvirt 北向接口。用户可以通过 libvirt 对应的 XML 文件描述一个虚拟机,包括虚拟机名称、CPU、磁盘等。 + +本章介绍 StratoVirt 平台支持的 XML 配置,以及如何使用 virsh 命令管理虚拟机。 + +## 前提条件 + +StratoVirt 对接 libvirt,主机需要满足如下条件: + +- 已正确配置 yum 源 +- 已正确安装并启动 libvirt +- 已正确安装 StratoVirt + +## 虚拟机配置 + +libvirt 工具采用 XML 格式的文件描述一个虚拟机特征,包括虚拟机名称、CPU、内存、磁盘、网卡等信息。用户可以通过修改配置文件,对虚拟机进行管理。 + +StratoVirt 对接 libvirt 之前,需要先配置 XML 文件。本小节介绍 StratoVirt 对接 libvirt 时支持的 XML 配置项以及配置方式。 + +> [!NOTE]说明 +> +> 使用 libvirt 管理 StratoVirt 虚拟机前,应该注意到 StratoVirt 当前支持的特性、特性之间的互斥关系、特性的配置前提条件、规格等,详细信息请参见命令行方式的 "[虚拟机配置](./vm_configuration.md)”章节。 + +### 虚拟机描述 + +虚拟机 XML 文件必须包含描述虚拟机的最基本元素: domain 和 name 。 + +#### 元素介绍 + +- domain:虚拟机配置的根元素,用于配置运行 StratoVirt 虚拟机的 hypervisor 类型。 + + 属性 type:domain 的类型,在 StratoVirt 虚拟化中,该值为 kvm 。 + +- name:虚拟机名称。 + + 虚拟机名称是一个长度不超过 255 字符的字符串。同一个主机上的虚拟机名称不能重复,虚拟机名称必须由数字、字母、“_”、“-”、“:” 组成。 + +#### 配置示例 + +假设配置虚拟机名称为 StratoVirt ,示例为: + +```shell + + StratoVirt + ... + +``` + +### 虚拟CPU和内存 + +本节介绍虚拟 CPU 和虚拟内存的配置。 + +#### 元素介绍 + +- vcpu:虚拟处理器的个数。 + +- memory:虚拟内存大小。 + + 属性 unit :指定内存单位,属性值支持 KiB(210 字节)、MiB(220 字节)、GiB(230 字节)、TiB(240 字节)等。 + + > [!NOTE]说明 + > + > StratoVirt 暂不支持 CPU 拓扑结构,请勿配置该项。 + +#### 配置示例 + +配置 8GiB 内存,4 个虚拟处理器的示例如下: + +```xml + + ... + 4 + 8 + ... + +``` + +### 虚拟机设备 + +本节介绍如何使用 XML 文件配置虚拟机设备:磁盘,网卡,rng,balloon,console,vsock 设备。 + +#### 磁盘 + +##### 元素介绍 + +- 属性 type :指定后端存储介质类型,在 StratoVirt 虚拟化中,该值为 file 。 + + 属性 device:呈现给虚拟机的存储介质类型,在 StratoVirt 虚拟化中,该值为 disk 。 + +- driver:指定后端驱动的详细信息。 + + 属性 type :磁盘的格式类型,在 StratoVirt 虚拟化中,该值为 raw 。StratoVirt 当前只支持 raw 格式的磁盘。 + + 属性 iothread:为磁盘配置 iothread ,取值为 iothread 编号。在配置磁盘的 iothread 之前,需使用 iothread 元素配置 iothread 的个数。 + +- source: 指定后端存储介质。 + + 属性 file:指定磁盘路径。 + +- target:指定后端驱动的详细信息。 + + 属性 dev:指定磁盘名称。 + + 属性 bus:指定磁盘设备的类型,在 StratoVirt 虚拟化中,该值为 virtio 。 + +- iotune: 指定磁盘 IO 特性。 + + 属性 total_iops_sec:设置磁盘 iops 的值。 + +- address:用于设置设备所要挂载的总线属性。 + + 属性 type:总线类型,在 StratoVirt 虚拟化中,该值为 pci 。 + + 属性 domain:虚拟机的域。 + + 属性 bus:设备将要挂载的 bus 号。 + + 属性 slot:设备将要挂载的 slot 号,取值范围为:[0, 31] 。 + + 属性 function:设备将要挂载的 function 号,取值范围为:[0, 7] 。 + +##### 配置示例 + +配置磁盘路径为:`/home/openEuler-22.03-LTS-SP4-stratovirt.img`,配置 1 个 iothread,并且磁盘 iothread 配置为 iothread1 ,iops 为 10000,并将其挂载在 bus 为 1、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + 1 + + + + + + + 10000 + +
+ + ... + + +``` + +#### 网络设备 + +##### 元素介绍 + +- interface:网络接口 + + 属性 type:指定网络设备类型。 + +- mac:虚拟网卡地址 + + 属性 address:虚拟网卡地址。 + +- source: 指定后端网桥 + + 属性 bridge:指定网桥。 + +- target:指定后端网卡 + + 属性 dev:指定后端的 tap 设备。 + +- model: 虚拟网卡类型 + + 属性 type: 虚拟网卡类型,在 StratoVirt 虚拟化中,该值为 virtio。 + +- driver:用来指定是否开启 vhost 。 + + 属性 name:如果设置 name 为 qemu 则使用 virtio-net 设备,如果不配置 driver 或者 name 值为 vhost ,则使用 vhost-net 设备。 + +##### 配置示例 + +配置网络前请参考 [配置linux网桥](https://docs.openeuler.org/zh/docs/22.03_LTS_SP4/docs/Virtualization/%E5%87%86%E5%A4%87%E4%BD%BF%E7%94%A8%E7%8E%AF%E5%A2%83.html#%E5%87%86%E5%A4%87%E8%99%9A%E6%8B%9F%E6%9C%BA%E7%BD%91%E7%BB%9C),配置好 Linux 网桥。配置 mac 地址为:`de:ad:be:ef:00:01`,网桥为配置好的 br0 ,使用 virtio-net 设备,并将其挂载在 bus 为 2、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + + + + + + +
+ + ... + + +``` + +#### balloon 设备 + +##### 元素介绍 + +- memballoon:balloon 设备类型 + + 属性 model :指定 balloon 设备类型,在 StratoVirt 虚拟化中,该值为 virtio 。 + +- alias:balloon 设备的别名 + + 属性 name :balloon 设备的 id 。 + + 属性 autodeflate :设置 auto deflate(自动收缩)特性,可选值为:`on` 、`off` 。 + +##### 配置示例 + +配置 balloon 设备,开启 autodeflate 特性,并将其挂载在 bus 为 3、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + + + + +
+ + ... + + +``` + +#### console 设备 + +由于 console 设备挂载在 virtio-serial 下的总线上,所以在创建 console 设备时,需要创建 virtio-serial 设备。 + +> [!NOTE]说明 +> +> StratoVirt 的 console 设备暂时不支持多端口特性,每个虚拟机只能配置一个 console 设备。 + +##### 元素介绍 + +- controller:控制器 + + 属性 type:控制器类型,此处值为 virtio-serial 。 + +- alias:别名 + + 属性 name:设备的 id。 + +- console:console 设备 + + 属性 type:指定 console 设备的重定向方式。支持的重定向方式有:pty , file 和 unix 。 + +- target:配置 console 设备。 + + 属性 type:指定 console 设备类型,在 StratoVirt 虚拟化中,该值为 virtio 。 + +##### 配置示例 + +配置重定向方式为 pty ,并将其挂载在 bus 为 4、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + + + +
+ + + + + + ... + + +``` + +#### rng 设备 + +##### 元素介绍 + +- rng:rng 设备 + + 属性 model:指定 rng 设备类型,在 StratoVirt 虚拟化中,该值为 virtio 。 + +- rate:rng 设备产生随机数速率 + + 属性 period :用于设置随机数产生周期,单位为毫秒,当前 StratoVirt 不支持设置周期值,默认值为 1000 毫秒,请将该值设置为 1000。 + + 属性 bytes :周期内产生的最大字节数。 + +- backend:设置 rng 设备后端,值为 host 中 rng 设备的路径 + + 属性 model:用于指定后端设备类型,在 StratoVirt 虚拟化中,该值为 random 。 + +##### 配置示例 + +配置周期为 1000ms 内最多产生 1234 字节,rng 设备在 host 中路径为 `/dev/random` ,并将其挂载在 bus 为 5、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + + + + /dev/random +
+ + ... + + +``` + +#### vsock 设备 + +##### 元素介绍 + +- vsock:vsock 设备 + + 属性 model:指定 vsock 设备类型,在 StratoVirt 虚拟化中,该值为 virtio 。 + +- cid:设置 vsock 设备的 cid + + 属性 address:用于设置 cid 的值 + +##### 配置示例 + +配置 cid 为 8,并将其挂载在 bus 为 6、slot 为 0,function 为 0 的 PCI 总线上,示例为: + +```xml + + ... + + + +
+ + ... + + +``` + +### 体系架构相关配置 + +XML 中还有一些体系架构相关的配置,如 pflash、主板等。 + +#### 元素介绍 + +- os:定义虚拟机启动参数 + + 子元素 type :指定虚拟机类型,属性 arch 表示架构,属性 machine 表示主板类型,在 StratoVirt 虚拟化中,AArch64 架构只支持 virt 主板,x86_64 架构只支持 Q35 主板。 + + 子元素 kernel :用于指定 kernel 路径。 + + 子元素 cmdline :指定命令行启动参数。 + + 子元素 loader :指定加载固件,属性 readonly 表示是否只读;属性 type 表示类型,在 StratoVirt 虚拟化中,该值为 pflash 。 + +- features:hypervisor 支持的以下特性 + + 子元素 acpi :是否支持 ACPI,在 StratoVirt 虚拟化中使用了 ACPI 特性,所以该特性必须配置。 + + 子元素 gic :ARM 处理器指定中断处理器,属性 version 表示 GIC 的版本,在 StratoVirt 虚拟化中,该值为 3 。 + +##### 配置示例 + +配置虚拟机 CPU 架构 ARM,主板为 virt ,启动命令行为:`console=ttyAMA0 root=/dev/vda reboot=k panic=1 rw` 。pflash 路径为:`/usr/share/edk2/aarch64/QEMU_EFI-pflash.raw`,属性为只读。 kernel 路径为:`/home/std-vmlinuxz`。示例为: + +```xml + + ... + + hvm + /home/std-vmlinuxz + console=ttyAMA0 root=/dev/vda reboot=k panic=1 rw + `/usr/share/edk2/aarch64/QEMU_EFI-pflash.raw` + + ... + +``` + +### 内存大页 + +#### 元素介绍 + +- memoryBacking:表示配置内存相关的信息 + +- hugepages:配置内存大页 + +- page:大页配置 + + 属性 size :内存大页的大小 + + 属性 unit :大页大小的单位 + +#### 配置示例 + +配置 2MiB 大页示例如下: + +```xml + + ... + + + + + + ... + +``` + +### 配置示例 + +#### x86 配置示例 + +配置一台名为 StratoVirt ,内存 8GiB ,配置 1GiB 单位的内存大页,4 个虚拟 CPU,架构为 x86_64 ,主板类型为 Q35 ,对应 XML 文件的配置示例如下: + +```xml + + StratoVirt + 8 + + + + + + + 4 + + 1 + + hvm + /path/to/standard_vm_kernel + console=hvc0 root=/dev/vda reboot=k panic=1 rw + /path/to/pflash + /path/to/OVMF_VARS + + + + + + /path/to/StratoVirt_binary_file + + + + + + + + + + + + + + + + 1000 + +
+ + + + + + +
+ + + + +
+ + + + + + + + +
+ + + + + /path/to/random_file +
+ + + + +
+ + + +``` + +#### ARM 配置示例 + +如果想要配置一台名为 StratoVirt ,内存 8GiB,配置 1GiB 单位大页,4 个虚拟 CPU,架构为 aarch64 ,主板类型为 virt ,对应 XML 文件的配置示例如下: + +```xml + + StratoVirt + 8 + + + + + + + 4 + + 1 + + hvm + /path/to/standard_vm_kernel + console=ttyAMA0 root=/dev/vda reboot=k panic=1 rw + /path/to/pflash + + + + + + + /path/to/StratoVirt_binary_file + + + + + + +
+ + 1000 + + + + + + + +
+ + + + +
+ + + + + + + + +
+ + + + + /path/to/random_file +
+ + + + +
+ + + +``` + +## 管理虚拟机 + +libvirt 使用 virsh 命令来管理虚拟机,当 StratoVirt 平台和 libvirt 对接时,仅支持以下与 StratoVirt 交互的命令: + +- create:创建虚拟机 + +- suspend:挂起虚拟机 + +- resume:恢复虚拟机 + +- destroy:销毁虚拟机 + +- console:通过 console 登录虚拟机 + +> [!NOTE]说明 +> +> StratoVirt 暂不支持虚拟机重启、虚拟机关机等命令。 + +### 管理虚拟机生命周期 + +假设用户已经按照需要完成一个名为 StratoVirt 的虚拟机配置文件 st.xml ,则对应生命周期管理的命令如下: + +- 创建虚拟机 + + ```shell + virsh create st.xml + ``` + + 虚拟机创建完成后,可以通过 **virsh list** 命令查看,会存在一个名为 StratoVirt 的虚拟机。 + +- 挂起虚拟机 + + ```shell + virsh suspend StratoVirt + ``` + + 虚拟机挂起后,虚拟机暂停运行。可以通过 **virsh list** 命令查看,虚拟机 StratoVirt 的状态为 paused 。 + +- 恢复虚拟机 + + ```sh + virsh resume StratoVirt + ``` + + 虚拟机恢复后,可以通过 **virsh list** 命令查看,虚拟机 StratoVirt 的状态为 running 。 + +- 销毁虚拟机 + + ```sh + virsh destroy StratoVirt + ``` + + 虚拟机销毁后,使用 **virsh list** 查看虚拟机,发现虚拟机 StratoVirt 不存在。 + +### 登录虚拟机 + +虚拟机创建完成后,可以通过 **virsh console** 登录虚拟机内部操作虚拟机。假设虚拟机名称为 StratoVirt,参考命令如下: + +```sh +virsh console StratoVirt +``` + +> [!NOTE]说明 +> +> 为了可以正常使用 virsh console 命令,需要在 XML 中配置 console 设备的重定向类型为 pty 。 diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/prepare_env.md b/docs/zh/virtualization/virtualization_platform/stratovirt/prepare_env.md new file mode 100644 index 0000000000000000000000000000000000000000..6372640ab1c64fa67784717fbaddf67b9059e9e7 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/prepare_env.md @@ -0,0 +1,164 @@ +# 准备环境 + +## 使用说明 + +- StratoVirt仅支持运行于x86_64和AArch64处理器架构下并启动相同架构的Linux虚拟机。 +- 建议在 openEuler 22.03 LTS SP4 版本编译、调测和部署该版本 StratoVirt。 +- StratoVirt支持以非root权限运行。 + +## 环境要求 + +运行StratoVirt需要具备如下环境: + +- /dev/vhost-vsock设备(用于实现mmio) +- nmap工具 +- Kernel镜像和rootfs镜像 + +## 准备设备和工具 + +- StratoVirt运行需要实现mmio设备,所以运行之前确保存在设备`/dev/vhost-vsock` + + 查看该设备是否存在: + + ```sh + $ ls /dev/vhost-vsock + /dev/vhost-vsock + ``` + + 若该设备不存在,请执行如下命令生成/dev/vhost-vsock设备。 + + ```sh + $ modprobe vhost_vsock + ``` + +- 为了能够使用QMP命令,需要安装nmap工具,在配置yum源的前提下,可执行如下命令安装nmap。 + + ```sh + # yum install nmap + ``` + +## 准备镜像 + +### 制作kernel镜像 + +当前版本的StratoVirt仅支持x86_64和AArch64平台的PE格式内核镜像。此格式内核映像可通过以下方法生成。 + +1. 获取openEuler的kernel源代码,参考命令如下: + + ```sh + $ git clone https://gitee.com/openeuler/kernel.git + $ cd kernel + ``` + +2. 查看并切换kernel的版本到openEuler-22.03-LTS-SP4,参考命令如下: + + ```sh + $ git checkout openEuler-22.03-LTS-SP4 + ``` + +3. 配置并编译Linux kernel。目前有两种方式可以生成配置文件:1. 使用推荐配置([获取配置文件](https://gitee.com/openeuler/stratovirt/tree/master/docs/kernel_config)),将指定版本的推荐文件复制到kernel路径下并重命名为`.config`, 并执行命令`make olddefconfig`更新到最新的默认配置(否则后续编译可能有选项需要手动选择)。2. 通过以下命令进行交互,根据提示完成kernel配置,可能会提示缺少指定依赖,按照提示使用`yum install`命令进行安装。 + + ```sh + $ make menuconfig + ``` + +4. 使用下面的命令制作并转换kernel镜像为PE格式,转化后的镜像为vmlinux.bin。 + + ```sh + $ make -j vmlinux && objcopy -O binary vmlinux vmlinux.bin + ``` + +5. 如果想在x86平台使用bzImzge格式的kernel,可以使用如下命令进行编译。 + + ```sh + $ make -j bzImage + ``` + +## 制作rootfs镜像 + +rootfs镜像是一种文件系统镜像,在StratoVirt启动时可以装载带有init的ext4格式的镜像。下面是制作ext4 rootfs镜像的简单方法。 + +1. 准备一个大小合适的文件(例如在/home中创建10GiB空间大小的文件)。 + + ```sh + $ cd /home + $ dd if=/dev/zero of=./rootfs.ext4 bs=1G count=10 + ``` + +2. 在此文件上创建空的ext4文件系统。 + + ```sh + $ mkfs.ext4 ./rootfs.ext4 + ``` + +3. 挂载文件镜像。创建/mnt/rootfs,使用root权限,将rootfs.ext4挂载到/mnt/rootfs目录。 + + ```sh + $ mkdir /mnt/rootfs + # 返回刚刚创建文件系统的目录(如/home) + $ cd /home + $ sudo mount ./rootfs.ext4 /mnt/rootfs && cd /mnt/rootfs + ``` + +4. 获取对应处理器架构的最新alpine-mini rootfs。 + + - 对于AArch64处理器架构,从[alpine](http://dl-cdn.alpinelinux.org/alpine/latest-stable/releases/)网站获取最新alpine-mini rootfs,例如:alpine-minirootfs-3.16.0-aarch64.tar.gz ,参考命令如下: + + ```sh + $ wget http://dl-cdn.alpinelinux.org/alpine/latest-stable/releases/aarch64/alpine-minirootfs-3.16.0-aarch64.tar.gz + $ tar -zxvf alpine-minirootfs-3.16.0-aarch64.tar.gz + $ rm alpine-minirootfs-3.16.0-aarch64.tar.gz + ``` + + - 对于x86_64处理器架构,从[alpine](http://dl-cdn.alpinelinux.org/alpine/latest-stable/releases/)网站获取指定架构最新alpine-mini rootfs,例如:alpine-minirootfs-3.16.0-x86_64.tar.gz,参考命令如下: + + ```sh + $ wget http://dl-cdn.alpinelinux.org/alpine/latest-stable/releases/x86_64/alpine-minirootfs-3.16.0-x86_64.tar.gz + $ tar -zxvf alpine-minirootfs-3.16.0-x86_64.tar.gz + $ rm alpine-minirootfs-3.16.0-x86_64.tar.gz + ``` + +5. 为ext4文件镜像制作一个简单的/sbin/init,参考命令如下: + + ```sh + $ rm sbin/init; touch sbin/init && cat > sbin/init < /sys/bus/pci/devices/0000:03:00.0/driver/unbind + ``` + + 最后将该 PCI 设备重新绑定到 vfio-pci 驱动。 + + ```shell + lspci -ns 0000:03:00.0 |awk -F':| ' '{print 5" "6}' > /sys/bus/pci/drivers/vfio-pci/new_id + ``` + + 将网卡绑定到 vfio-pci 驱动后,在主机上无法查询到对应网卡信息,只能查询到对应的 PCI 设备信息。 + +### VFIO 设备直通 + +#### 简介 + +VFIO(Virtual Function I/O) 是内核提供的一种用户态设备驱动方案。VFIO 驱动可以安全地把设备 I/O,中断,DMA 等能力呈现给用户空间。StratoVirt 虚拟化平台使用 VFIO 设备直通方案后,在虚拟机可以极大限度地提升 I/O 性能。 + +#### 使用 VFIO 直通 + +StratoVirt 支持 libvirt 管理,可以使用 XML 文件配置虚拟机。以下内容介绍通过修改虚拟机 XML 文件的方式,使用 VFIO 设备直通功能。 + +一、修改 XML 文件 + +1. 在主机上执行如下命令,查询 CPU 架构信息 + + ```shell + # uname -m + ``` + +2. aarch64 和 x86_64 架构分别[下载](https://gitee.com/openeuler/stratovirt/tree/master/docs) StratoVirt 自带的 XML 文件 stratovirt_aarch64.xml 或 stratovirtvirt_x86.xml,并存放到任一目录,例如 /home: + + ```shell + # cp stratovirt/docs/stratovirt_$arch.xml /home + ``` + +3. 根据实际需求,修改XML文件中的VFIO配置。 bus,slot,function 为上述绑定到 vfio-pci 驱动的 PCI 设备。相关配置如下: + + ```shell + + + + +
+ + + ``` + + 上例中,设备类型为 PCI 设备,managed='yes' 表示 libvirt 将把 PCI 设备从主机解绑,并重新绑定到 vfio-pci 驱动。source 项配置了需要作为 VFIO 直通设备的 domain,bus,slot,function 信息。 + +二、使用 libvirt 命令行创建并登录虚拟机 + +```shell +# virsh create stratovirt_$arch.xml +# virsh list --all +Id Name State +-------------------- +1 StratoVirt running +# virsh console 1 +``` + +三、在虚拟机内查看并使用 VFIO 直通网卡 + +1. 配置前查看网卡信息 + + ```shell + # ip a + 1: lo: mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000 + link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 + inet 127.0.0.1/8 scope host lo + valid_lft forever preferred_lft forever + 2: enp1s0: mtu 1500 qdisc noop state DOWN group default qlen 1000 + link/ether 72:b8:51:9d:d1:27 brd ff:ff:ff:ff:ff:ff + ``` + +2. 动态配置网卡的 IP 地址 + + ```shell + # dhclient + ``` + +3. 查询 IP 是否配置成功 + + ```shell + # ip a + 1: lo: mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000 + link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 + inet 127.0.0.1/8 scope host lo + valid_lft forever preferred_lft forever + 2: enp1s0: mtu 1500 qdisc mq state UP group default qlen 1000 + link/ether 72:b8:51:9d:d1:27 brd ff:ff:ff:ff:ff:ff + inet 192.168.1.3/16 brd 192.168.255.255 scope global dynamic enp1s0 + valid_lft 86453sec preferred_lft 86453sec + ``` + + 如上回显可知,成功分配了 IP 地址 192.168.1.3,虚拟机可以直接使用配置的网卡 + + 说明:使用的直通网卡如果没有连接物理网络,将获取不到网络信息。 + +#### 解绑 VFIO 驱动 + +如果需要将直通给虚拟机使用的网卡解除绑定,可以登录主机,执行如下命令,将网卡设备重新绑定到主机上。其中,hinic是对应网卡设备驱动的类型: + +```shell +# echo 0000:03:00.0 > /sys/bus/pci/drivers/vfio-pci/unbind +# echo 0000:03:00.0 > /sys/bus/pci/drivers/hinic/bind +``` + +说明:绑定 VFIO 驱动前,可以再主机上执行 ethtool -i enp0 命令,获取网卡设备驱动类型。enp0 为对应网卡名称。 + +### SR-IOV 直通 + +#### 简介 + +使用 VFIO 设备直通时,虚拟机能直接访问硬件,但每个设备只能被一个虚拟机独占。SR-IOV 直通技术支持将一个 PF(Physical Function) 虚拟出多个 VF (Virtual Function),并直通给不同虚拟机,解决了设备直通的独占问题,增加可用的设备。 + +#### 操作步骤 + +1. 创建多个 VF: + + sriov_numvfs 文件用于描述 SR-IOV 提供的 VF 个数,存放在 `/sys/bus/pci/devices/domain\:bus\:slot.function/` 路径下,例如上述例子中的 bus 号 03,slot 号 00,function 号 0 的设备,可以使用如下命令创建4个 VF: + + ```shell + # echo 4 > /sys/bus/pci/devices/0000\:03\:00.0/sriov_numvfs + ``` + +2. 确认 VF 设备创建成功 + + ```shell + # lspci -v | grep "Eth" | grep 1822 + ``` + + 回显如下,说明成功创建了4个 VF 03:00.1、03:00.2、03:00.3、03:00.4: + + ```shell + 03:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family (4*25GE) (rev 45) + 03:00.1 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.2 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.3 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.4 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + ``` + +3. 上述创建的 VF 设备均可以直通给虚拟机,使用 SR-IOV 设备的方法与普通 PCI 设备的直通方法相同。 diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/vm_configuration.md b/docs/zh/virtualization/virtualization_platform/stratovirt/vm_configuration.md new file mode 100644 index 0000000000000000000000000000000000000000..e8355ca8e99268bcf78e8bbe4fe3f920a6818782 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/vm_configuration.md @@ -0,0 +1,686 @@ +# 虚拟机配置 + +## 概述 + +使用 StratoVirt 时,可以通过命令行参数指定虚拟机配置,也支持对接 libvirt ,通过 XML 文件配置。本章介绍命令行方式的配置方式。 + +> [!NOTE]说明 +> +> 本文中的 /path/to/socket 为用户自定义路径下的 socket 文件。 +> +> 从 openEuler 21.09 版本开始,取消了对 json 文件的支持。 + +## 规格说明 + +StratoVirt 支持启动轻量级虚拟机和标准虚拟机。 + +- 轻量级虚拟机使用轻量级 microVM 主板,以及 mmio 总线。 +- 标准虚拟机支持标准启动,在 x86 平台使用 Q35 主板,AArch64 架构下使用 virt 主板以及 PCI 总线。 + +### 轻量级虚拟机 + +- 虚拟机 CPU 个数:[1, 254] +- 虚拟机内存大小:[128 MiB, 512 GiB],默认内存配置256MiB +- 虚拟机磁盘个数(包括热插的磁盘):[0, 6] +- 虚拟机网卡个数(包括热插的网卡):[0, 2] +- 虚拟机 console 设备仅支持单路连接 +- 主机 CPU 架构为 x86_64 时,最多可以配置 11 个 mmio 设备,但是除了磁盘和网卡,建议最多配置 2 个其他设备; AArch64 平台,最多可以配置 160 个 mmio 设备,但是除了磁盘和网卡,建议最多配置 12 个其他设备。 + +### 标准虚拟机 + +- 虚拟机 CPU 个数:[1, 254] +- 虚拟机内存大小:[128 MiB, 512 GiB],默认内存配置256MiB +- 虚拟机 console 设备仅支持单路连接 +- 只支持 1 个 console 设备 +- 最多支持 32 个 PCI 设备 +- PCI 设备挂载的 PCI 总线 slot 取值范围: [0, 32);function 取值范围 [0, 8) + +## 最小配置 + +StratoVirt 能够运行的最小配置为: + +- PE 格式或 bzImage 格式(仅 x86_64)的 Linux 内核镜像 +- 将 rootfs 镜像设置成 virtio-blk 设备,并添加到内核参数中 +- 使用 QMP 控制 StratoVirt +- 如果要使用串口登录,添加一个串口到内核启动命令行,AArch64平台标准机型为ttyAMA0,其他情况为ttyS0. + +## 配置介绍 + +### **命令格式** + +使用 cmdline 配置的命令格式如下: + +**$ /path/to/stratovirt** *-[参数1] [参数选项] -[参数2] [参数选项] ...* + +### **使用说明** + +1. 首先,为确保可以创建 QMP 需要的 socket,可以参考如下命令清理环境: + + ```sh + # rm [参数] [用户自定义socket文件路径] + ``` + +2. 然后,运行 cmdline 命令。 + + ```sh + # /path/to/stratovirt -[参数1] [参数选项] -[参数2] [参数选项] ... + ``` + +### 基本信息配置 + +基本配置信息如下表所示: + +| 参数 | 参数选项 | 说明 | +| ---------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | +| -name | *VMname* | 配置虚拟机名称(字符长度:1-255字符) | +| -kernel | /path/to/vmlinux.bin | 配置内核镜像 | +| -append | console=ttyS0 root=/dev/vda reboot=k panic=1 rw | 配置内核命令行参数,轻量级虚拟机固定配置为console=ttyS0(与架构平台无关)。标准虚拟化X86_64平台默认使用console=ttyS0,AArch64平台默认使用console=ttyAMA0。在配置了virtio-console设备但是没有配置serial串口设备时,需要配置为console=hvc0(与架构平台无关) | +| -initrd | /path/to/initrd.img | 配置initrd文件 | +| -smp | [cpus=]n[,maxcpus=,sockets=,dies=,clusters=,cores=,threads=] | cpus:配置cpu个数,范围[1, 254]。maxcpus:最大cpu个数,范围[1,254]。sockets:socket的个数,如果不设置它的值依赖于maxcpus;die:die的个数;cluster:cluster的个数;core:core的个数,如果不设置它的值依赖于maxcpus;thread:thread的个数,如果不设置它的值依赖于maxcpus;maxcpus=sockets *dies* clusters *cores* threads | +| -m | 内存大小MiB、内存大小GiB,默认单位MiB | 配置内存大小,范围[128 MiB, 512 GiB],默认内存配置256MiB | +| -qmp | unix:/path/to/socket,server,nowait | 配置QMP,运行前须保证socket文件不存在 | +| -D | /path/to/logfile | 配置日志文件 | +| -pidfile | /path/to/pidfile | 配置pid文件,必须和-daemonize一起使用。运行前须保证pid文件不存在 | +| -disable-seccomp | NA | 关闭Seccomp,默认打开 | +| -daemonize | NA | 开启进程daemon化 | + +### 虚拟机类型 + +通过-machine参数来指定启动的虚拟机的类型。 + +参数说明 + +- type:启动虚拟机的类型(轻量级虚拟化为“MicroVm”类型,标准虚拟化在x86_64平台为”q35“,在aarch64平台为”virt”)。 +- dump-guest-core:进程panic时,是否dump虚拟机内存(可选配置)。 +- mem-share:是否与其他进程共享内存(可选配置)。 + +### 磁盘配置 + +虚拟机磁盘配置包含以下配置项 + +- drive_id: 磁盘的id。 +- path_on_host: 磁盘的路径。 +- serial_num: 磁盘的串号(可选配置)。 +- read_only: 是否只读(可选配置)。 +- direct: 是否以“O_DIRECT”模式打开(可选配置)。 +- iothread: 配置iothread属性(可选配置)。 +- throttling.iops-total: 配置磁盘QoS,以限制磁盘的io操作(可选配置)。 +- if:driver的类型,block设备为“none”(可选配置,缺省值为“none”) +- bus:设备要挂载的bus。 +- addr:设备要挂载的slot和function号。 +- multifunction:是否开启pci多功能。(可选配置) +- bootindex:配置启动优先级属性,如果没有设置,默认最低优先级。配置范围从0到255,数字越小,优先级越高。(可选配置,只支持标准机型) + +#### 磁盘配置方式 + +磁盘的配置分为两步:driver的配置和block设备的配置 + +轻量虚拟机配置格式为: + +```Conf +-drive id=drive_id,file=path_on_host[,readonly=off][,direct=off][,throttling.iops-total=200][,if=none] +-device virtio-blk-device,drive=drive_id[,iothread=iothread1][,serial=serial_num] +``` + +标准虚拟机配置格式为: + +```Conf +-drive id=drive_id,file=path_on_host[,readonly=off][,direct=off][,throttling.iops-total=200][,if=none] +-device virtio-blk-pci,drive=drive_id,bus=pcie.0,addr=0x3.0x0[,iothread=iothread1,][serial=serial_num][,multifunction=on][,bootindex=1] +``` + +下面对throttling.iops-total和iothread两个配置项进行详细说明: + +#### 磁盘QoS + +##### 简介 + +QoS(Quality of Service)是服务质量的意思。在云场景中,单主机内会启动多台虚拟机,当某台虚拟机对磁盘访问压力大时,由于同主机的磁盘访问总带宽有限,这会挤占其他虚拟机的访问带宽,从而造成对其他虚拟机IO影响。为了降低影响,可以为虚拟机配置QoS属性,限制它们对磁盘访问的速率,从而降低对彼此的影响。 + +##### 注意事项 + +- 当前QoS支持配置磁盘的iops。 +- iops的设定范围是[0, 1000000],0为不限速;实际iops不会超过设定值,并且不会超过后端磁盘实际性能的上限。 +- 只能限制平均iops,无法限速瞬时的突发流量。 + +##### 配置方式 + +用法: + +**命令行** + +```Conf +-drive xxx,throttling.iops-total=200 +``` + +参数: + +- throttling.iops-total:当配置了iops后,本磁盘在虚拟机内部的IO下发速度,不会超过此配置值。 +- xxx:表示磁盘的其他设置。 + +#### iothread + +iothread配置细节见[iothread配置](#iothread配置) + +### 网卡配置 + +虚拟机网卡的配置包含以下配置项: + +- id:唯一的设备 id。 +- tap:指定 tap 设备。 +- ifname:host 上的 tap 设备名。 +- mac:设置虚拟机 mac 地址(可选配置)。 +- iothread:配置磁盘的 iothread 属性(可选配置)。网卡 iothread 配置详见 [iothread配置](#iothread配置) 。 + +#### 配置方式 + +> [!NOTE]说明 +> +> 使用网络前请先使用如下命令配置好 host 网桥和 tap 设备。 +> +> ```sh +> # brctl addbr qbr0 +> # ip tuntap add tap0 mode tap +> # brctl addif qbr0 tap0 +> # ifconfig qbr0 up; ifconfig tap0 up +> # ifconfig qbr0 192.168.0.1 +> ``` + +1. 配置 virtio-net(本文中 [] 表示可选参数) + + 轻量级虚拟机: + + ```Conf + -netdev tap,id=netdevid,ifname=host_dev_name[,vhostfd=2] + -device virtio-net-device,netdev=netdevid,id=netid[,iothread=iothread1,mac=12:34:56:78:9A:BC] + ``` + + 标准虚拟机: + + ```Conf + -netdev tap,id=netdevid,ifname=host_dev_name[,vhostfd=2] + -device virtio-net-pci,netdev=netdevid,id=netid,bus=pcie.0,addr=0x2.0x0[,multifunction=on,iothread=iothread1,mac=12:34:56:78:9A:BC] + ``` + +2. 配置 vhost-net + + 轻量级虚拟机: + + ```Conf + -netdev tap,id=netdevid,ifname=host_dev_name,vhost=on[,vhostfd=2] + -device virtio-net-device,netdev=netdevid,id=netid[,iothread=iothread1,mac=12:34:56:78:9A:BC] + ``` + + 标准虚拟机: + + ```Conf + -netdev tap,id=netdevid,ifname=host_dev_name,vhost=on[,vhostfd=2] + -device virtio-net-pci,netdev=netdevid,id=netid,bus=pcie.0,addr=0x2.0x0[,multifunction=on,iothread=iothread1,mac=12:34:56:78:9A:BC] + ``` + +### chardev 配置 + +将来自 Guest 的 I/O 重定向到宿主机的 chardev。chardev 后端的类型可以是:stdio、pty、socket 和 file。其中 file 仅支持输出时设置。配置项: + +- id:唯一的设备 id。 +- backend:重定向的类型。 +- path:设备重定向文件路径。仅 socket 和 file 类型的设备需要此参数。 +- server:将 chardev 作为服务器运行。仅 socket 类型的设备需要此参数。 +- nowait:预期状态为断开连接。仅 socket 类型的设备需要此参数。 + +使用 chardev 时,会创建并使用 console 文件,所以启动 stratovirt 之前,请确保 console 文件不存在。 + +#### 配置方式 + +```Conf +-chardev backend,id=chardev_id[,path=path,server,nowait] +``` + +### 串口配置 + +串口是虚拟机的设备,用于主机和虚拟机之间传送数据。使用串口时,kernel 命令行中配置 console=ttyS0 ,在 AArch64 平台上标准启动时,配置 console=ttyAMA0 。配置项: + +- chardev:重定向的 chardev 设备 +- backend、path、server、nowait:这些参数的含义与 chardev 中的相同。 + +#### 配置方式 + +```Conf +-serial chardev:chardev_id +``` + +或者: + +```Conf +-chardev backend[,path=path,server,nowait] +``` + +### console 设备配置 + +virtio-console 是通用的串口设备,用于主机和虚拟机之间传送数据。当只配 console 并通过 console 进行 I/O 操作时,kernel 启动参数中配置 console=hvc0。console 设备有如下配置项: + +- id: 设备的 id。 +- path:virtio console 文件路径。 +- socket:以 socket 的方式重定向。 +- chardev:重定向的 chardev 设备。 + +#### 配置方式 + +console 配置分为三步:首先指定 virtio-serial,然后创建字符设备,最后创建 virtconsole 设备。 + +轻量级虚拟机: + +```Conf +-device virtio-serial-device[,id=virtio-serial0] +-chardev socket,path=socket_path,id=virtioconsole1,server,nowait +-device virtconsole,chardev=virtioconsole1,id=console_id +``` + +标准虚拟机: + +```Conf +-device virtio-serial-pci,bus=pcie.0,addr=0x1.0x0[,multifunction=on,id=virtio-serial0] +-chardev socket,path=socket_path,id=virtioconsole1,server,nowait +-device virtconsole,chardev=virtioconsole1,id=console_id +``` + +### vsock 设备配置 + +vsock 也是主机和虚拟机之间通信的设备,类似于 console,但具有更好的性能。配置项: + +- id: 唯一的设备 id。 +- guest_cid: 唯一的 context id 。 + +#### 配置方式 + +轻量级虚拟机: + +```Conf +-device vhost-vsock-device,id=vsock_id,guest-cid=3 +``` + +标准虚拟机: + +```Conf +-device vhost-vsock-pci,id=vsock_id,guest-cid=3,bus=pcie.0,addr=0x1.0x0[,multifunction=on] +``` + +### 内存大页配置 + +#### 概述 + +StratoVirt 支持为虚拟机配置内存大页,相比传统的 4KiB 内存分页模式,大页内存可以有效减少 TLB Miss 次数和缺页中断次数,能够显著提升内存密集型业务性能。 + +#### 注意事项 + +- 指定的大页挂载的目录,必须是绝对路径。 +- 仅支持在启动时配置。 +- 仅支持静态大页。 +- 使用大页前, 在Host上需要配置好大页。 +- 使用大页特性, 指定虚拟机内存规格必须是**大页页面大小的整数倍**。 + +#### 互斥特性 + +- 内存大页和 ballon 特性互斥,同时配置时,balloon 特性无效。 + +#### 配置方式 + +##### 配置Host上大页 + +###### 挂载 + +将大页文件系统挂载到指定目录上,其中 `/path/to/hugepages`为用户自定义的空目录。 + +```sh +# mount -t hugetlbfs hugetlbfs /path/to/hugepages +``` + +###### 设置大页数目 + +- 设置静态大页数目, `num`为指定的大页数目 + + ```sh + # sysctl vm.nr_hugepages=num + ``` + +- 查询大页统计信息 + + ```sh + # cat /proc/meminfo | grep Hugepages + ``` + + 如果需要查看其他页面大小的大页统计信息, 可以查看 `/sys/kernel/mm/hugepages/hugepages-*/`目录下相关信息。 + +> [!NOTE]说明 +> +> 请根据大页使用情况,配置StratoVirt内存规格和大页。如果大页资源不足,虚拟机会启动失败。 + +#### 启动StratoVirt时添加大页配置 + +- 命令行 + + ```Conf + -mem-path /page/to/hugepages + ``` + + 其中 `/page/to/hugepages`为大页文件系统挂载的目录,仅支持绝对路径。 + +> [!NOTE]说明 +> +> **典型配置:**指定StratoVirt命令行中的mem-path项为:**大页文件系统挂载的目录**。 推荐使用典型配置使用StratoVirt大页特性。 + +### 配置iothread + +#### 简介 + +当StratoVirt启动了带iothread配置的虚拟机后,会在主机上启动独立于主线程的单独线程,这些单独线程可以用来处理设备的IO请求,一方面提升设备的IO性能,另一方面降低对管理面消息处理的影响。 + +#### 注意事项 + +- 支持配置最多8个iothread线程 +- 支持磁盘和网卡配置iothread属性 +- iothread线程会占用主机CPU资源,在虚拟机内部大IO压力情况下,单个iothread占用的CPU资源取决于磁盘的访问速度,例如普通的SATA盘会占用20%以内CPU资源。 + +#### 创建iothread线程 + +**命令行:** + +```shell +-object iothread,id=iothread1 -object iothread,id=iothread2 +``` + +参数: + +- id:用于标识此iothread线程,该id可以被设置到磁盘或网卡的iothread属性。当启动参数配置了iothread线程信息,虚拟机启动后会在主机上启动相应id名的线程。 + +#### 配置磁盘或网卡的iothread属性 + +**命令行配置** + +轻量虚拟机: + +磁盘 + +```Conf +-device virtio-blk-device xxx,iothread=iothread1 +``` + +网卡 + +```Conf +-device virtio-net-device xxx,iothread=iothread2 +``` + +标准虚拟机: + +磁盘 + +```Conf +-device virtio-blk-pci xxx,iothread=iothread1 +``` + +网卡 + +```Conf +-device virtio-net-pci xxx,iothread=iothread2 +``` + +参数: + +1. iothread:设置成 iothread 线程的 id,指明处理本设备 I/O 的线程。 +2. xxx: 表示磁盘或者网卡的其他配置 + +### 配置balloon设备 + +#### 简介 + +在虚拟机运行过程中,由虚拟机里的balloon驱动来动态占用或释放内存,从而动态改变这台虚拟机当前可用内存,达到内存弹性的效果。 + +#### 注意事项 + +- 启用balloon前须确保guest和host的页面大小相同。 +- guest内核须开启balloon特性支持。 +- 开启内存弹性时,有可能造成虚拟机内部轻微卡顿、内存性能下降。 + +#### 互斥特性 + +- 大页内存互斥。 +- 在x86下,由于中断数量有限,所以balloon设备和其他virtio的数量(默认使用6个block设备,2个net设备和1个串口设备)总和不得超过11个。 + +#### 规格 + +- 每个VM只能配置1个balloon设备。 + +#### 配置方式 + +轻量级虚拟机: + +```Conf +-device virtio-balloon-device[,deflate-on-oom=true|false][,free-page-reporting=true|false] +``` + +标准虚拟机: + +```Conf +-device virtio-balloon-pci,bus=pcie.0,addr=0x4.0x0[,deflate-on-oom=true|false][,free-page-reporting=true|false][,multifunction=on|off] +``` + +[!NOTE]说明 + +1. deflate-on-oom的取值为bool类型,表示是否开启auto deflate特性。开启时,如果balloon已经回收部分内存,当guest需要内存时,balloon设备会自动放气,归还内存给guest。不开启则不会自动归还。 +2. free-page-reporting的取值为bool类型,表示是否开启free page reporting特性。开启时,如果guest内核向balloon设备发送了free pages,balloon将释放free pages所占用的内存。不开启则guest内核不会向balloon设备发送free pages。 +3. 使用qmp命令回收虚拟机内存时,应确保回收后虚拟机仍然有足够的内存来保持最基本的运行。否则可能会出现一些操作超时,以及导致虚拟机内部无法申请到空闲内存等现象。 +4. 如果虚拟机内部开启内存大页,balloon不能回收大页占用内存。 + +> deflate-on-oom=false时,当Guest中内存不足时,balloon不会自动放气并归还内存,可能会引起Guest内部OOM,进程被Kill,甚至虚拟机无法正常运行。 + +### 配置RNG设备 + +#### 简介 + +Virtio RNG是半虚拟化的随机数生成器设备,用于为guest提供硬件随机数生成能力。 + +#### 配置方式 + +Virtio RNG可配置为Virtio mmio设备或者virtio PCI设备,Virtio RNG配置为Virtio mmio设备时,命令行参数如下: + +```Conf +-object rng-random,id=objrng0,filename=/path/to/random_file +-device virtio-rng-device,rng=objrng0,max-bytes=1234,period=1000 +``` + +Virtio RNG配置为Virtio PCI设备时,命令行参数如下: + +```Conf +-object rng-random,id=objrng0,filename=/path/to/random_file +-device virtio-rng-pci,rng=objrng0,max-bytes=1234,period=1000,bus=pcie.0,addr=0x1.0x0,id=rng-id[,multifunction=on] +``` + +参数: + +- filename:在host上用于生成随机数的字符设备路径,例如/dev/random; +- period:限制随机数字符速率的定时周期,单位为毫秒; +- max-bytes:在period时间内字符设备生成随机数的最大字节数; +- bus:Virtio RNG设备挂载的总线名称; +- addr:Virtio RNG设备地址,参数格式为addr=[slot].[function],分别表示设备的slot号和function号,均使用十六进制表示,其中Virtio RNG设备的function号为0x0。 + +#### 注意事项 + +- 如不配置period和max-bytes,则不对随机数字符读取速率进行限制; +- 如配置限速,则max-bytes/period\*1000的设定范围为[64, 1000000000],建议不应设置过小,以防获取随机数字符速率过慢; +- 只能限制平均随机数字符数,无法限制瞬间的突发流量; +- guest如需使用Virtio RNG设备,guest内核需要使能配置:CONFIG_HW_RANDOM=y,CONFIG_HW_RANDOM_VIA=y,CONFIG_HW_RANDOM_VIRTIO=y; +- 用户在配置Virtio RNG设备时,请检查熵池是否足够,以免引起虚拟机卡顿问题,例如配置字符设备路径为/dev/random,当前熵池大小可通过/proc/sys/kernel/random/entropy_avail查看,熵池满时的大小为4096,通常应该大于1000。 + +### 配置VNC + +#### 简介 + +用户可以通过VNC客户端登录虚拟机,输入鼠标键盘事件,并通过VNC显示的桌面完成与远程虚拟机系统的交互。 + +#### 注意事项 + +- 当前只有标准虚拟机支持VNC特性。 +- 目前只支持RFB3.3-3.8版本客户端连接。 +- 目前只支持单个客户端连接,暂不支持多个客户端同时连接。多个客户端连接会返回连接失败。 +- 目前仅支持在ARM环境上使用。 + +#### 互斥特性 + +- VNC特性暂不支持热迁移。 + +#### 规格 + +- 每个虚拟机只支持配置一个VNC Server。 + +#### 配置方式 + +标准虚拟机: + +```shell +-vnc 0.0.0.0:11 +``` + +[!NOTE]说明 + +1. 图像渲染用到`pixman`库,需要在虚拟机运行环境中安装`pixman.rpm`和`pixman-devel.rpm`两个包。 +2. 鼠标键盘输入需要配置一个`USB`控制器,以及鼠标键盘设备。 +3. 需要配置一个显示设备,如`virtio-gpu`、`ramfb`。 + +### 配置 USB 键盘和 USB 鼠标 + +#### 简介 + +StratoVirt 支持配置 USB 键盘和 USB 鼠标,用户可以通过 VNC 远程连接虚拟机,通过 USB 键盘鼠标对虚拟机进行图形化操作。USB 设备需要挂载在 USB 控制器上,因此需要提前在命令行里配置 USB 控制器。 + +#### 注意事项 + +- 当前只有标准虚拟机支持 USB 键盘鼠标。 + +#### 互斥特性 + +- USB 键盘鼠标暂不支持热迁移。 + +#### 规格 + +- 每个 VM 只能配置 1 个 USB 控制器 +- 每个 VM 只能配置 1 个 USB 键盘 +- 每个 VM 只能配置 1 个 USB 鼠标 + +#### 配置方式 + +USB 控制器在启动 StratoVirt 时命令行配置: + +```Conf +-device nec-usb-xhci,id=xhci,bus=pcie.0,addr=0xa.0x0 +``` + +参数: + +- id:唯一的设备 id。 +- bus:设备要挂载的 bus。 +- addr:设备要挂载的 slot 和 function 号。 + +注意需要合理配置设备的 bus 和 addr 参数,不能和其他配置的 PCI 设备冲突,否则可能会导致虚拟机启动失败。 + +USB 键盘在启动 StratoVirt 时命令行配置: + +```Conf +-device usb-bkd,id=kbd +``` + +参数: + +- id:唯一的设备 id。 + +USB 鼠标在启动 StratoVirt 时命令行配置: + +```Conf +-device usb-tablet,id=tablet +``` + +参数: + +- id:唯一的设备 id。 + +### 配置virtio-gpu设备 + +#### 简介 + +标准虚拟机可支持配置virtio-gpu显卡用于显示。 + +#### 注意事项 + +- 目前仅支持2D。 +- max_hostmem(即在host侧可占用内存)建议不小于256MiB,否则影响分辨率配置。 +- max_outputs(即支持的屏幕数量)配置不可大于16。 +- 不支持热迁移。 + +#### 规格 + +- 每个VM只能配置1个virtio-gpu设备。 + +#### 配置方式 + +标准虚拟机: + +```Conf +-device virtio-gpu-pci,id=XX,bus=pcie.0,addr=0x2.0x0[,max_outputs=XX][,edid=true|false][,xres=XX][,yres=XX][,max_hostmem=XX] +``` + +参数: + +1. max_outputs:当前显卡需要支持的屏幕数量,建议配置为1,最大值不超过16。 +2. edid:当前显卡是否支持edid,建议配置为true,虚拟机内核会检查显卡是否支持edid。 +3. xres/yres:登录窗口的横向/纵向大小。 +4. max_hostmem: 显卡最大可占用host侧内存, 以Byte为单位。 + +## 配置示例 + +### 轻量级虚拟机 + +此处给出创建一个轻量级虚拟机的最小配置示例。 + +1. 登录主机,删除 socket 文件,确保可以创建 QMP。 + + ```sh + # rm -f /tmp/stratovirt.socket + ``` + +2. 运行 StratoVirt 。 + + ```sh + # /path/to/stratovirt \ + -kernel /path/to/vmlinux.bin \ + -append console=ttyS0 root=/dev/vda rw reboot=k panic=1 \ + -drive file=/home/rootfs.ext4,id=rootfs,readonly=false \ + -device virtio-blk-device,drive=rootfs \ + -qmp unix:/tmp/stratovirt.socket,server,nowait \ + -serial stdio + ``` + + 运行成功后,将根据指定的配置参数创建并启动虚拟机。 + +### 标准虚拟机 + +此处给出在 ARM 平台创建一个标准虚拟机的最小配置示例。 + +1. 删除 socket 文件,确保可以创建 QMP 。 + + ```sh + # rm -f /tmp/stratovirt.socket + ``` + +2. 运行 StratoVirt 。 + + ```sh + # /path/to/stratovirt \ + -kernel /path/to/vmlinux.bin \ + -append console=ttyAMA0 root=/dev/vda rw reboot=k panic=1 \ + -drive file=/path/to/edk2/code_storage_file,if=pflash,unit=0[,readonly=true] \ + -drive file=/path/to/edk2/data_storage_file,if=pflash,unit=1, \ + -drive file=/home/rootfs.ext4,id=rootfs,readonly=false \ + -device virtio-blk-device,drive=rootfs,bus=pcie.0,addr=0x1 \ + -qmp unix:/tmp/stratovirt.socket,server,nowait \ + -serial stdio + ``` diff --git a/docs/zh/virtualization/virtualization_platform/stratovirt/vm_management.md b/docs/zh/virtualization/virtualization_platform/stratovirt/vm_management.md new file mode 100644 index 0000000000000000000000000000000000000000..939fcb1899b54d4e5c809d362b4f846ba2318571 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/stratovirt/vm_management.md @@ -0,0 +1,741 @@ +# 管理虚拟机 + +## 概述 + +StratoVirt可以查询虚拟机信息并对虚拟机的资源和生命周期进行管理。由于StratoVirt使用QMP管理虚拟机,所以查询虚拟机信息,也需要先连接到虚拟机。 + +## 查询虚拟机信息 + +### 简介 + +StratoVirt可以查询虚拟机状态、vCPU拓扑信息、vCPU上线情况等。 + +### 查询状态 + +使用query-status命令查询虚拟机的运行状态。 + +- 用法: + + **{ "execute": "query-status" }** + +- 示例: + +```shell +<- { "execute": "query-status" } +-> { "return": { "running": true,"singlestep": false,"status": "running" } +``` + +### 查询拓扑 + +使用query-cpus命令查询所有CPU的拓扑结构。 + +- 用法: + +**{ "execute": "query-cpus" }** + +- 示例: + +```shell +<- { "execute": "query-cpus" } +-> {"return":[{"CPU":0,"arch":"x86","current":true,"halted":false,"props":{"core-id":0,"socket-id":0,"thread-id":0},"qom_path":"/machine/unattached/device[0]","thread_id":8439},{"CPU":1,"arch":"x86","current":true,"halted":false,"props":{"core-id":0,"socket-id":1,"thread-id":0},"qom_path":"/machine/unattached/device[1]","thread_id":8440}]} +``` + +### 查询vCPU上线情况 + +使用query-hotpluggable-cpus命令查询所有vCPU的online/offline情况。 + +- 用法: + +**{ "execute": "query-hotpluggable-cpus" }** + +- 示例: + +```shell +<- { "execute": "query-hotpluggable-cpus" } +-> {"return":[{"props":{"core-id":0,"socket-id":0,"thread-id":0},"qom-path":"/machine/unattached/device[0]","type":"host-x86-cpu","vcpus-count":1},{"props":{"core-id":0,"socket-id":1,"thread-id":0},"qom-path":"/machine/unattached/device[1]","type":"host-x86-cpu","vcpus-count":1}]} +``` + +其中,online的vCPU具有`qom-path`项,offline的vCPU则没有。 + +## 管理虚拟机生命周期 + +### 简介 + +StratoVirt可以对虚拟机进行启动、暂停、恢复、退出等生命周期进行管理。 + +### 创建并启动虚拟机 + +通过命令行参数指定虚拟机配置,创建并启动虚拟机。 + +- 使用命令行参数给出虚拟机配置,创建并启动虚拟机的命令如下: + +```shell +$ /path/to/stratovirt -[参数1] [参数选项] -[参数2] [参数选项] ... +``` + +> [!NOTE]说明 +> +> 轻量虚拟启动后,内部会有eth0和eth1两张网卡。这两张网卡预留用于网卡热插拔。热插的第一张网卡是eth0,热插的第二张网卡是eth1,目前只支持热插两张virtio-net网卡。 + +### 连接虚拟机 + +StratoVirt当前采用QMP管理虚拟机,暂停、恢复、退出虚拟机等操作需要通过QMP连接到虚拟机进行管理。 + +在主机上打开新的命令行窗口B,并使用root权限进行api-channel连接,参考命令如下: + +```shell +# ncat -U /path/to/socket +``` + +连接建立后,会收到来自StratoVirt的问候消息,如下所示: + +```shell +{"QMP":{"version":{"qemu":{"micro":1,"minor":0,"major":4},"package":""},"capabilities":[]}} +``` + +现在,可以在窗口B中输入QMP命令来管理虚拟机。 + +> [!NOTE]说明 +> +> QMP提供了stop、cont、quit和query-status等来管理和查询虚拟机状态。 +> +> 管理虚拟机的QMP命令均在窗口B中进行输入。符号:`<-`表示命令输入,`->`表示QMP结果返回。 + +### 暂停虚拟机 + +QMP提供了stop命令用于暂停虚拟机,即暂停虚拟机所有的vCPU。命令格式如下: + +**{"execute":"stop"}** + +**示例:** + +使用stop暂停该虚拟机的命令和回显如下: + +```shell +<- {"execute":"stop"} +-> {"event":"STOP","data":{},"timestamp":{"seconds":1583908726,"microseconds":162739}} +-> {"return":{}} +``` + +### 恢复虚拟机 + +QMP提供了cont命令用于恢复处于暂停状态suspend的虚拟机,即恢复虚拟机所有vCPU的运行。命令格式如下: + +**{"execute":"cont"}** + +**示例:** + +使用cont恢复该虚拟机的命令和回显如下: + +```shell +<- {"execute":"cont"} +-> {"event":"RESUME","data":{},"timestamp":{"seconds":1583908853,"microseconds":411394}} +-> {"return":{}} +``` + +### 退出虚拟机 + +QMP提供了quit命令用于退出虚拟机,即退出StratoVirt进程。命令格式如下: + +**{"execute":"quit"}** + +**示例:** + +```shell +<- {"execute":"quit"} +-> {"return":{}} +-> {"event":"SHUTDOWN","data":{"guest":false,"reason":"host-qmp-quit"},"timestamp":{"ds":1590563776,"microseconds":519808}} +``` + +## 管理虚拟机资源 + +### 热插拔磁盘 + +StratoVirt支持在虚拟机运行过程中调整磁盘数量,即在不中断业务前提下,增加或删除虚拟机磁盘。 + +**注意事项** + +- 对于标准机型,需要虚拟机内核开启 CONFIG_HOTPLUG_PCI_PCIE=y 配置。 + +- 对于标准机型,目前支持热插拔设备到 Root Port 设备,Root Port 设备需要在虚拟机启动前配置。 + +- 不建议在虚拟机启动、关闭、内部高压力等状态下进行设备热插拔,可能会因为虚拟机内驱动没有及时响应导致虚拟机出现异常。 + +#### 热插磁盘 + +**用法:** + +轻量机型: + +```shell +{"execute": "blockdev-add", "arguments": {"node-name": "drive-0", "file": {"driver": "file", "filename": "/path/to/block"}, "cache": {"direct": true}, "read-only": false}} +{"execute": "device_add", "arguments": {"id": "drive-0", "driver": "virtio-blk-mmio", "addr": "0x1"}} +``` + +标准机型: + +```shell +{"execute": "blockdev-add", "arguments": {"node-name": "drive-0", "file": {"driver": "file", "filename": "/path/to/block"}, "cache": {"direct": true}, "read-only": false}} +{"execute":"device_add", "arguments":{"id":"drive-0", "driver":"virtio-blk-pci", "drive": "drive-0", "addr":"0x0", "bus": "pcie.1"}} +``` + +**参数** + +- 对于轻量机型,blockdev-add 中的 node-name 要和 device_add 中的 id 一致,如上都是 drive-0。 + +- 对于标准机型 drive 参数需要和 blockdev-add 中的 node-name 一致。 + +- /path/to/block 是被热插磁盘的镜像路径,不能是启动 rootfs 的磁盘镜像。 + +- 对于轻量机型,addr 参数从 0x0 开始与虚拟机的 vda 映射,0x1 与 vdb 映射,以此类推。为了兼容 QMP 协议,"addr" 也可以用 "lun" 代替,但是 lun=0 与客户机的 vdb 映射。对于标准机型,目前 addr 参数需要指定为 0x0。 + +- 对于标准机型,bus 为设备要挂载的总线名称,目前只支持热插到 Root Port 设备,需要和 Root Port 的 id 保持一致。 + +- 对于轻量机型,StratoVirt 支持的最大 virtio-blk 磁盘数量是6个,热插磁盘时请注意规格约束。对于标准机型,热插磁盘的数量取决于 Root Port 设备的数量。 + +**示例** + +轻量机型: + +```shell +<- {"execute": "blockdev-add", "arguments": {"node-name": "drive-0", "file": {"driver": "file", "filename": "/path/to/block"}, "cache": {"direct": true}, "read-only": false}} +-> {"return": {}} +<- {"execute": "device_add", "arguments": {"id": "drive-0", "driver": "virtio-blk-mmio", "addr": "0x1"}} +-> {"return": {}} +``` + +标准机型: + +```shell +<- {"execute": "blockdev-add", "arguments": {"node-name": "drive-0", "file": {"driver": "file", "filename": "/path/to/block"}, "cache": {"direct": true}, "read-only": false}} +-> {"return": {}} +<- {"execute":"device_add", "arguments":{"id":"drive-0", "driver":"virtio-blk-pci", "drive": "drive-0", "addr":"0x0", "bus": "pcie.1"}} +-> {"return": {}} +``` + +#### 热拔磁盘 + +**用法:** + +轻量机型: + +```shell +{"execute": "device_del", "arguments": {"id":"drive-0"}} +``` + +标准机型: + +```shell +{"execute": "device_del", "arguments": {"id":"drive-0"}} +{"execute": "blockdev-del", "arguments": {"node-name": "drive-0"}} +``` + +**参数:** + +- id 为热拔磁盘的 ID 号。 +- node-name 为磁盘后端名称。 + +**示例** + +轻量机型: + +```shell +<- {"execute": "device_del", "arguments": {"id": "drive-0"}} +-> {"event":"DEVICE_DELETED","data":{"device":"drive-0","path":"drive-0"},"timestamp":{"seconds":1598513162,"microseconds":367129}} +-> {"return": {}} +``` + +标准机型: + +```shell +<- {"execute": "device_del", "arguments": {"id":"drive-0"}} +-> {"return": {}} +-> {"event":"DEVICE_DELETED","data":{"device":"drive-0","path":"drive-0"},"timestamp":{"seconds":1598513162,"microseconds":367129}} +<- {"execute": "blockdev-del", "arguments": {"node-name": "drive-0"}} +-> {"return": {}} +``` + +当收到 DEVICE_DELETED 事件时,表示设备在 StratoVirt 侧被移除。 + +### 热插拔网卡 + +StratoVirt支持在虚拟机运行过程中调整网卡数量,即在不中断业务前提下,给虚拟机增加或删除网卡。 + +**注意事项** + +- 对于标准机型,需要虚拟机内核开启 CONFIG_HOTPLUG_PCI_PCIE=y 配置。 + +- 对于标准机型,目前支持热插拔设备到 Root Port 设备,Root Port 设备需要在虚拟机启动前配置。 + +- 不建议在虚拟机启动、关闭、内部高压力等状态下进行设备热插拔,可能会因为虚拟机内驱动没有及时响应导致虚拟机出现异常。 + +#### 热插网卡 + +**准备工作(需要使用root权限)** + +1. 创建并启用Linux网桥,例如网桥名为 qbr0 的参考命令如下: + + ```shell + # brctl addbr qbr0 + # ifconfig qbr0 up + ``` + +2. 创建并启用 tap 设备,例如设备名为 tap0 的参考命令如下: + + ```shell + # ip tuntap add tap0 mode tap + # ifconfig tap0 up + ``` + +3. 添加 tap 设备到网桥: + + ```shell + # brctl addif qbr0 tap0 + ``` + +**用法** + +轻量机型: + +```shell +{"execute":"netdev_add", "arguments":{"id":"net-0", "ifname":"tap0"}} +{"execute":"device_add", "arguments":{"id":"net-0", "driver":"virtio-net-mmio", "addr":"0x0"}} +``` + +标准机型: + +```shell +{"execute":"netdev_add", "arguments":{"id":"net-0", "ifname":"tap0"}} +{"execute":"device_add", "arguments":{"id":"net-0", "driver":"virtio-net-pci", "addr":"0x0", "netdev": "net-0", "bus": "pcie.1"}} +``` + +**参数** + +- 对于轻量机型,netdev_add 中的 id 应该和 device_add 中的 id 一致,ifname 是后端的 tap 设备名称。 + +- 对于标准机型,netdev 参数需要和 netdev_add 中的 id 一致。 + +- 对于轻量机型,addr 参数从 0x0 开始与虚拟机的 eth0 映射,0x1 和虚拟机的 eth1 映射。对于标准机型,目前 addr 参数需要指定为 0x0。 + +- 对于标准机型,bus 为设备要挂载的总线名称,目前只支持热插到 Root Port 设备,需要和 Root Port 的 id 保持一致。 + +- 对于轻量机型,由于 StratoVirt 支持的最大 virtio-net 数量为2个,热插网卡时请注意规格约束。对于标准机型,热插磁盘的数量取决于 Root Port 设备的数量。 + +**示例** + +轻量机型: + +```shell +<- {"execute":"netdev_add", "arguments":{"id":"net-0", "ifname":"tap0"}} +-> {"return": {}} +<- {"execute":"device_add", "arguments":{"id":"net-0", "driver":"virtio-net-mmio", "addr":"0x0"}} +-> {"return": {}} +``` + +其中,addr:0x0,对应虚拟机内部的eth0。 + +标准机型: + +```shell +<- {"execute":"netdev_add", "arguments":{"id":"net-0", "ifname":"tap0"}} +-> {"return": {}} +<- {"execute":"device_add", "arguments":{"id":"net-0", "driver":"virtio-net-pci", "addr":"0x0", "netdev": "net-0", "bus": "pcie.1"}} +-> {"return": {}} +``` + +#### 热拔网卡 + +**用法** + +轻量机型: + +```shell +{"execute": "device_del", "arguments": {"id": "net-0"}} +``` + +标准机型: + +```shell +{"execute": "device_del", "arguments": {"id":"net-0"}} +{"execute": "netdev_del", "arguments": {"id": "net-0"}} +``` + +**参数** + +- id:网卡的ID号,例如 net-0。 + +- netdev_del 中的 id 是网卡后端的名称。 + +**示例** + +轻量机型: + +```shell +<- {"execute": "device_del", "arguments": {"id": "net-0"}} +-> {"event":"DEVICE_DELETED","data":{"device":"net-0","path":"net-0"},"timestamp":{"seconds":1598513339,"microseconds":97310}} +-> {"return": {}} +``` + +标准机型: + +```shell +<- {"execute": "device_del", "arguments": {"id":"net-0"}} +-> {"return": {}} +-> {"event":"DEVICE_DELETED","data":{"device":"net-0","path":"net-0"},"timestamp":{"seconds":1598513339,"microseconds":97310}} +<- {"execute": "netdev_del", "arguments": {"id": "net-0"}} +-> {"return": {}} +``` + +当收到 DEVICE_DELETED 事件时,表示设备在 StratoVirt 侧被移除。 + +### 热插拔直通设备 + +StratoVirt 标准机型支持在虚拟机运行过程中调整直通设备数量,即在不中断业务前提下,给虚拟机增加或删除直通设备。 + +**注意事项** + +- 需要虚拟机内核开启 CONFIG_HOTPLUG_PCI_PCIE=y 配置。 + +- 目前支持热插拔设备到 Root Port 设备,Root Port 设备需要在虚拟机启动前配置。 + +- 不建议在虚拟机启动、关闭、内部高压力等状态下进行设备热插拔,可能会因为虚拟机内驱动没有及时响应导致虚拟机出现异常。 + +#### 热插直通设备 + +**用法** + +```shell +{"execute":"device_add", "arguments":{"id":"vfio-0", "driver":"vfio-pci", "bus": "pcie.1", "addr":"0x0", "host": "0000:1a:00.3"}} +``` + +**参数** + +- id 为热插设备的 ID 号。 + +- bus 为设备要挂载的总线名称。 + +- addr 为设备要挂载的 slot 和 function 号,目前 addr 参数需要指定为 0x0。 + +- host 为直通设备在主机上的 domain 号, bus 号, slot 号和 function 号。 + +**示例** + +```shell +<- {"execute":"device_add", "arguments":{"id":"vfio-0", "driver":"vfio-pci", "bus": "pcie.1", "addr":"0x0", "host": "0000:1a:00.3"}} +-> {"return": {}} +``` + +#### 热拔直通设备 + +**用法** + +```shell +{"execute": "device_del", "arguments": {"id": "vfio-0"}} +``` + +**参数** + +- id 为热拔设备的 ID 号。在热插设备时指定。 + +**示例** + +```shell +<- {"execute": "device_del", "arguments": {"id": "vfio-0"}} +-> {"return": {}} +-> {"event":"DEVICE_DELETED","data":{"device":"vfio-0","path":"vfio-0"},"timestamp":{"seconds":1614310541,"microseconds":554250}} +``` + +当收到 DEVICE_DELETED 事件时,表示设备在 StratoVirt 侧被移除。 + +## Ballon设备使用 + +使用balloon设备可以从虚拟机回收空闲的内存。Balloon通过qmp命令来调用。qmp命令使用如下: + +**用法:** + +```shell +{"execute": "balloon", "arguments": {"value": 2147483648‬}} +``` + +**参数:** + +- value: 想要设置的guest内存大小值,单位为字节。如果该值大于虚拟机启动时配置的内存值,则以启动时配置的内存值为准。 + +**示例:** + +启动时配置的内存大小为4GiB,在虚拟机内部通过free命令查询虚拟机空闲内存大于2GiB,那么可以通过qmp命令设置guest内存大小为2147483648字节。 + +```shell +<- {"execute": "balloon", "arguments": {"value": 2147483648‬}} +-> {"return": {}} +``` + +查询虚拟机的当前实际内存: + +```shell +<- {"execute": "query-balloon"} +-> {"return":{"actual":2147483648}} +``` + +## 虚拟机内存快照 + +### 简介 + +虚拟机内存快照是指将虚拟机的设备状态和内存信息保存在快照文件中。当虚拟机系统损坏时,可以使用内存快照将虚拟机恢复到快照对应时间点,从而提升系统的可靠性。 + +StratoVirt 支持对处于暂停状态(suspend)的虚拟机制作快照,并且支持虚拟机以快照文件为虚拟机模板批量创建新的虚拟机。只要制作快照的时间点在虚拟机启动完成并进入用户态之后,快速启动就能够跳过内核启动阶段和用户态服务初始化阶段,在毫秒级完成虚拟机启动。 + +### 互斥特性 + +虚拟机配置了如下设备或使用了如下特性时,不能制作和使用内存快照: + +- vhost-net 设备 +- vfio 直通设备 +- balloon 设备 +- 大页内存 +- mem-shared 特性 +- 配置了内存后端文件 mem-path + +### 制作快照 + +针对 StratoVirt 虚拟机,可以参考如下步骤制作存储快照: + +1. 创建并启动虚拟机。 + +2. 在 Host 上执行 QMP 命令暂停虚拟机: + + ```shell + <- {"execute":"stop"} + -> {"event":"STOP","data":{},"timestamp":{"seconds":1583908726,"microseconds":162739}} + -> {"return":{}} + + ``` + +3. 确认虚拟机处于暂停状态: + + ```shell + <- {"execute":"query-status"} + -> {"return":{"running":true,"singlestep":false,"status":"paused"}} + + ``` + +4. 执行如下 QMP 命令,在任一指定的绝对路径下创建虚拟机快照,例如 /path/to/template 路径,参考命令如下: + + ```shell + <- {"execute":"migrate", "arguments":{"uri":"file:/path/to/template"}} + -> {"return":{}} + + ``` + +5. 确认快照是否创建成功。 + + ```shell + <- {"execute":"query-migrate"} + + ``` + + 如果回显 {"return":{"status":"completed"}} ,说明快照创建成功。 + + 快照创建成功,会在指定路径 /path/to/template 生成 memory 和 state 两个目录。`state`文件包含虚拟机设备状态的信息,`memory`文件包含虚拟机内存的数据信息,memory 文件大小接近配置的虚拟机内存。 + +### 查询快照状态 + +当前在整个快照过程中,存在5种状态: + +- `None`: 快照资源没有准备完成 +- `Setup`: 快照资源准备完成,可以进行快照 +- `Active`: 处于制作快照状态中 +- `Completed`: 快照制作成功 +- `Failed`: 快照制作失败 + +可以通过在 Host 执行`query-migrate`qmp 命令查询当前快照的状态,如当虚拟机快照制作成功时查询: + +```shell +<- {"execute":"query-migrate"} +-> {"return":{"status":"completed"}} +``` + +### 恢复虚拟机 + +#### 注意事项 + +- 快照以及从快照启动特性支持的机型包括: + - microvm + - q35(x86_64) + - virt(aarch64平台) +- 在使用快照恢复时,配置的设备必须与制作快照时保持一致 +- 当使用 microvm 机型,并且在快照前使用了磁盘/网卡的热插特性,在恢复时需要将热插的磁盘/网卡配置进启动命令行 + +#### 从快照文件中恢复虚拟机 + +**命令格式** + +```shell +stratovirt -incoming URI + +``` + +**参数说明** + +URI:快照的路径,当前版本只支持 `file` 类型,后加上快照文件的绝对路径 + +**示例** + +假设制作快照所使用的虚拟机是通过以下命令创建的: + +```shell +$ stratovirt \ + -machine microvm \ + -kernel /path/to/kernel \ + -smp 1 -m 1024 \ + -append "console=ttyS0 pci=off reboot=k quiet panic=1 root=/dev/vda" \ + -drive file=/path/to/rootfs,id=rootfs,readonly=off,direct=off \ + -device virtio-blk-device,drive=rootfs \ + -qmp unix:/path/to/socket,server,nowait \ + -serial stdio + +``` + +那么,使用快照恢复虚拟机的参考命令如下(此处假设快照存放的路径为 /path/to/template ): + +```shell +$ stratovirt \ + -machine microvm \ + -kernel /path/to/kernel \ + -smp 1 -m 1024 \ + -append "console=ttyS0 pci=off reboot=k quiet panic=1 root=/dev/vda" \ + -drive file=/path/to/rootfs,id=rootfs,readonly=off,direct=off \ + -device virtio-blk-device,drive=rootfs \ + -qmp unix:/path/to/another_socket,server,nowait \ + -serial stdio \ + -incoming file:/path/to/template + +``` + +## 虚拟机热迁移 + +### 简介 + +StratoVirt 提供了虚拟机热迁移能力,也就是在虚机业务不中断的情况下,将虚拟机从一台服务器迁移到另一台服务器。 + +下列情形,可以使用虚拟机热迁移: + +- 当服务器负载过重时,可以使用虚拟机热迁移技术,将虚拟机迁移到另一台物理服务器上,达到负载均衡的目的。 +- 如果需要维护服务器,该服务器上的虚拟机可以在不中断业务的情形下,迁移到另一台物理服务器上。 +- 服务器出现故障,需要更换硬件或者调整组网时,为了避免虚拟机业务中断,可以将运行的虚拟机迁移到另一台物理机上。 + +### 热迁移操作 + +此处介绍热迁移虚拟机的操作方法,供用户参考。 + +**准备热迁移** + +1.使用 `root` 帐号,登录源端虚拟机所在的主机,执行如下命令(命令行参数,请根据实际情况修改),启动源端虚拟机。 + +```shell +./stratovirt \ + -machine q35 \ + -kernel ./vmlinux.bin \ + -append "console=ttyS0 pci=off reboot=k quiet panic=1 root=/dev/vda" \ + -drive file=path/to/rootfs,id=rootfs,readonly=off,direct=off \ + -device virtio-blk-pci,drive=rootfs,id=rootfs,bus=pcie.0,addr=0 \ + -qmp unix:path/to/socket1,server,nowait \ + -serial stdio \ +``` + +2.使用 `root` 帐号,登录目的端虚拟机所在的主机,执行如下命令(命令行参数需要和启动源端虚拟机保持一致),启动目的端虚拟机。 + +```shell +./stratovirt \ + -machine q35 \ + -kernel ./vmlinux.bin \ + -append "console=ttyS0 pci=off reboot=k quiet panic=1 root=/dev/vda" \ + -drive file=path/to/rootfs,id=rootfs,readonly=off,direct=off \ + -device virtio-blk-pci,drive=rootfs,id=rootfs,bus=pcie.0,addr=0 \ + -qmp unix:path/to/socket2,server,nowait \ + -serial stdio \ + -incoming tcp:192.168.0.1:4446 \ +``` + +> [!NOTE]说明 +> +> - 目的端虚拟机的启动命令行参数需要与源端虚拟机命令行保持一致。 +> - 如果需要将热迁移数据传输模式从 `TCP` 网络协议改为 `UNIX socket` 通信协议, + 只需要将目的端虚拟机的命令行 `-incoming tcp:192.168.0.1:4446`,改为 `-incoming unix:/tmp/stratovirt-migrate.socket`。但 `UNIX socket` 协议只支持单物理主机的不同虚拟机之间热迁移。 + +**开始热迁移** + +在源端虚拟机所在的主机,执行如下命令,启动虚拟机热迁移任务。 + +```shell +$ ncat -U path/to/socket1 +-> {"QMP":{"version":{"StratoVirt":{"micro":1,"minor":0,"major":0},"package":""},"capabilities":[]}} +<- {"execute":"migrate", "arguments":{"uri":"tcp:192.168.0.1:4446"}} +-> {"return":{}} +``` + +> [!NOTE]说明 +> +> 如果热迁移传输协议为 `UNIX socket` 通信协议,只需要将 QMP 命令中的 `"uri":"tcp:192.168.0.1:4446"`,改为 `"uri":"unix:/tmp/stratovirt-migrate.socket"`。 + +**结束热迁移** + +当执行上述迁移 `QMP` 命令后,虚拟机热迁移任务就开始执行。如果没有热迁移错误日志,则源端的虚拟机就迁移到了目的端,源端虚拟机会自动销毁。 + +### 取消热迁移 + +在热迁移过程中,可能出现迁移时间较长,或目的端虚拟机所在的主机负载发生变化,需要调整迁移策略。StratoVirt 提供了取消热迁移操作的特性。 + +取消热迁移的操作如下: +登录源端虚拟机所在的主机,执行如下 `QMP` 命令: + +```shell +$ ncat -U path/to/socket1 +-> {"QMP":{"version":{"StratoVirt":{"micro":1,"minor":0,"major":0},"package":""},"capabilities":[]}} +<- {"execute":"migrate_cancel"} +-> {"return":{}} +``` + +如果目的端虚拟机退出热迁移任务,并在日志提示取消热迁移,表示热迁移任务取消成功。 + +### 查询热迁移状态 + +热迁移存在如下几种状态: + +- `None`: 热迁移 vCPU,内存,设备等资源没有准备完成 +- `Setup`: 热迁移资源准备完成,可以进行热迁移 +- `Active`: 处于制作热迁移过程中 +- `Completed`: 热迁移完成 +- `Failed`: 热迁移失败 + +以下 `QMP` 命令表示查询当前热迁移处于完成状态: + +```shell +$ ncat -U path/to/socket +-> {"QMP":{"version":{"StratoVirt":{"micro":1,"minor":0,"major":0},"package":""},"capabilities":[]}} +<- {"execute":"query-migrate"} +-> {"return":{"status":"completed"}} +``` + +### 约束与限制 + +StratoVirt 只支持标准虚机主板热迁移: + +- q35 (x86_64平台) +- virt (aarch64平台) + +以下设备和特性不支持热迁移: + +- vhost-net 设备 +- vhost-user-net 设备 +- virtio balloon 设备 +- vfio 设备 +- 共享后端存储 +- 共享内存,后端内存特性 + +以下启动源端和目的端虚拟机命令行参数必须保持一致: + +- virtio-net: MAC 地址 +- device: BDF 号 +- smp +- m diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/_toc.yaml b/docs/zh/virtualization/virtualization_platform/virtualization/_toc.yaml new file mode 100644 index 0000000000000000000000000000000000000000..2b2d378e413583adb99cfe3be579fcbd3f67c0a6 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/_toc.yaml @@ -0,0 +1,36 @@ +label: 虚拟化用户指南 +isManual: true +description: 在openEuler系统中使用虚拟化技术创建和管理虚拟机 +sections: + - label: 认识虚拟化 + href: ./introduction_to_virtulization.md + - label: 安装虚拟化组件 + href: ./virtualization_installation.md + - label: 准备使用环境 + href: ./environment_preparation.md + - label: 虚拟机配置 + href: ./vm_configuration.md + - label: 管理虚拟机 + href: ./managing_vms.md + - label: 热迁移虚拟机 + href: ./vm_live_migration.md + - label: 管理系统资源 + href: ./system_resource_management.md + - label: 管理设备 + href: ./managing_devices.md + - label: 管理虚拟机可维护性 + href: ./vm_maintainability_managment.md + - label: 最佳实践 + href: ./best_practices.md + - label: 工具使用指南 + href: ./tool_guide.md + sections: + - label: vmtop + href: ./vmtop.md + - label: LibcarePlus + href: ./libcareplus.md + - label: Skylark虚拟机混部 + href: ./skylark.md + - label: 附录 + href: ./appendix.md + diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/appendix.md b/docs/zh/virtualization/virtualization_platform/virtualization/appendix.md new file mode 100644 index 0000000000000000000000000000000000000000..d6b616c4ff1e0ef977cdd6a0cd6feb9fae192a5b --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/appendix.md @@ -0,0 +1,140 @@ +# 附录 + +## 术语和缩略语 + +文档中使用的术语和缩略语请分别参见[表1](#table201236162279)和[表2](#table1423422319271)。 + +**表 1** 术语表 + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

术语

+

含义

+

AArch64

+

AArch64 是 ARMv8 架构的一种执行状态。AArch64不仅仅是32位 ARM 构架的扩展,还是ARMv8内全新的构架,完全使用全新的 A64 指令集

+

Domain

+

资源的一个可配置集合,包括内存、虚拟CPU,网络设备和磁盘设备。在 Domain 中运行虚拟机。一个 Domain 被分配虚拟资源,可以独立地被启动、停止和重启。

+

Libvirt

+

一套用于管理虚拟化平台的工具集,可用于管理KVM、QEMU、Xen及其他虚拟化。

+

Guest OS

+

即客户机操作系统,指运行在虚拟机上的操作系统。

+

Host OS

+

即宿主机操作系统,指被虚拟的物理机的操作系统。

+

Hypervisor

+

即虚拟机监视器VMM,是一种运行在基础物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享硬件。

+

虚拟机

+

使用虚拟化技术,通过软件模拟完整的计算机硬件系统功能,构造出的完整虚拟计算机系统。

+
+ +**表 2** 缩略语表 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

缩略语

+

英文全称

+

中文全称

+

含义

+

NUMA

+

Non-Uniform Memory Access Architecture

+

非统一内存访问架构

+

NUMA是一种为多处理器计算机设计的内存架构。在NUMA下,处理器访问它自己的本地内存的速度比非本地内存(内存位于另一个处理器,或者是处理器之间共享的内存)快一些。

+

KVM

+

Kernel-based Virtual Machine

+

基于内核的虚拟机

+

KVM是基于内核的虚拟机,是Linux的一个内核模块,该模块使得Linux成为一个hypervisor

+

OVS

+

Open vSwitch

+

开放虚拟交换标准

+

OVS是一个高质量的多层虚拟交换机,使用开源Apache2.0许可协议。

+

QEMU

+

Quick Emulator

+

快速模拟器

+

QEMU是一个通用的可执行硬件虚拟化的开源模拟器。

+

SMP

+

Symmetric Multi-Processor

+

对称多处理

+

SMP是一种多处理器的计算机硬件架构。现在多数的处理器系统都采用对称多处理器架构。该架构系统拥有多个处理器,各处理器共享内存子系统和总线结构。

+

UEFI

+

Unified Extensible Firmware Interface

+

统一的可扩展固件接口

+

一种详细描述全新类型接口的标准。该接口用于操作系统自动从预启动的操作环境,加载到一种操作系统上。

+

VM

+

Virtual Machine

+

虚拟机

+

使用虚拟化技术,通过软件模拟完整的计算机硬件系统功能,构造出的完整虚拟计算机系统。

+

VMM

+

Virtual Machine Monitor

+

虚拟机监视器

+

是一种运行在基础物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享硬件。

+
diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/best_practices.md b/docs/zh/virtualization/virtualization_platform/virtualization/best_practices.md new file mode 100644 index 0000000000000000000000000000000000000000..7ec7213a14e504f9ef8d48a8a0e002dcd2e5aa13 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/best_practices.md @@ -0,0 +1,688 @@ +# 最佳实践 + +## 性能最佳实践 + +### halt-polling + +#### 概述 + +在计算资源充足的情况下,为使虚拟机获得接近物理机的性能,可以使用halt-polling特性。没有使用halt-polling特性时,当vCPU空闲退出后,主机会把CPU资源分配给其他进程使用。当主机开启halt-polling特性时,虚拟机vCPU处于空闲时会polling一段时间,polling的时间由具体配置决定。若该vCPU在polling期间被唤醒,可以不从主机侧调度而继续运行,减少了调度流程的开销,从而在一定程度上提高了虚拟机系统的性能。 + +>![!NOTE]说明 +>halt-polling的机制保证虚拟机的vCPU线程的及时响应,但在虚拟机空载的时候,主机侧也会polling,导致主机看到vCPU所在CPU占用率比较高,而实际虚拟机内部CPU占用率并不高。 + +#### 操作指导 + +系统默认开启了halt-polling特性,polling的时间默认为500000ns。用户可以通过文件halt\_poll\_ns内容动态修改vCPU用于halt-polling的时间,单位为ns。 + +例如设置polling时间为400000,使用root用户执行命令如下: + +```sh +# echo 400000 > /sys/module/kvm/parameters/halt_poll_ns +``` + +### IOThread配置 + +#### 概述 + +KVM平台上,对虚拟磁盘的读写在后端默认由QEMU主线程负责处理。这样会造成如下问题: + +- 虚拟机的I/O请求都由一个QEMU主线程进行处理,因此单线程的CPU利用率成为虚拟机I/O性能的瓶颈。 +- 虚拟机I/O在QEMU主线程处理时会持有QEMU全局锁\(qemu\_global\_mutex\),一旦I/O处理耗时较长,QEMU主线程长时间占有全局锁,会导致虚拟机vCPU无法正常调度,影响虚拟机整体性能及用户体验。 + +可以为virtio-blk磁盘或者virtio-scsi控制器配置IOThread属性,在QEMU后端单独开辟IOThread线程处理虚拟磁盘读写请求,IOThread线程和virtio-blk磁盘或virtio-scsi控制器可配置成一对一的映射关系,尽可能地减少对QEMU主线程的影响,提高虚拟机整体I/O性能,提升用户体验。 + +#### 配置说明 + +使用IOThread线程处理虚拟机磁盘读写请求,需要修改虚拟机配置,这里给出具体的配置说明。 + +- 配置虚拟机高性能虚拟磁盘的总数。例如通过配置IOThread线程的总数为4: + + ```conf + + VMName + 4194304 + 4194304 + 4 + 4 + ``` + +- 给virtio-blk磁盘配置IOThread属性。<**iothread**\>表示IOThread线程编号,编号从1开始配置,最大为的配置值,且编号不能重复使用。例如将编号为2的IOThread配置给virtio-blk磁盘使用: + + ```conf + + + + +
+ + ``` + +- 给virtio-scsi控制器配置IOThread属性。例如将编号为2的IOThread配置给virtio-scsi控制器使用: + + ```conf + + + +
+ + ``` + +- IOThread线程绑定物理CPU + + 虚拟磁盘IOThread线程的绑核配置,将IOThread线程绑定到用户指定的物理CPU范围内,不影响vCPU线程的资源占用诉求。表示IOThread线程编号,表示绑定的物理CPU编号。 + + ```conf + + + + + ``` + +### 裸设备映射 + +#### 概述 + +配置虚拟机存储设备时,除了将文件配置给虚拟机作为虚拟磁盘使用外,还可以将块设备(物理LUN、逻辑卷等)直接配置给虚拟机使用,从而提升存储性能。该配置方式称为裸设备映射。在该配置方式下,虚拟磁盘向虚拟机呈现为一个SCSI(Small Computer System Interface,小型计算机系统接口)设备,且支持大部分SCSI命令。 + +裸设备映射根据后端实现特点,分为虚拟裸设备映射和物理裸设备映射,物理裸设备映射相对虚拟裸设备映射具有更优秀的性能和更丰富的SCSI命令,但物理裸设备映射需要将整块SCSI磁盘挂载给虚拟机使用,如果使用分区、逻辑卷等方式配置,虚拟机将无法识别。 + +#### 配置示例 + +裸设备映射需要修改虚拟机配置文件,这里给出配置示例。 + +- 虚拟裸设备映射 + + 将主机上存在的SCSI磁盘“/dev/sdc”挂载给虚拟机作为虚拟裸设备的配置示例如下: + + ```conf + + + ... + + + + + +
+ + ... + + + ``` + +- 物理裸设备映射 + + 将主机上存在的SCSI磁盘“/dev/sdc”挂载给虚拟机作为物理裸设备的配置示例如下: + + ```conf + + + ... + + + + + +
+ + ... + + + ``` + +### kworker隔离绑定 + +#### 概述 + +kworker是Linux内核实现的per-CPU线程,用来执行系统中的workqueue请求。kworker线程会和vCPU线程争抢物理核资源,导致虚拟化业务性能抖动。为了使虚拟机能够稳定的运行,减少kworker线程对虚拟机的干扰,可以将主机上的kworker线程绑定到特定的CPU上运行。 + +#### 操作步骤 + +用户可以通过修改/sys/devices/virtual/workqueue/cpumask文件,将workqueue中的任务绑定到cpumask中指定的CPU上。cpumask中的掩码以十六进制表示,例如将kworker绑定到CPU0\~CPU7上,对应掩码为ff,使用root用户执行命令如下: + +```sh +# echo ff > /sys/devices/virtual/workqueue/cpumask +``` + +### 内存大页 + +#### 概述 + +相比传统的4K内存分页,openEuler也支持2MB/1GB的大内存分页。内存大页可以有效减少TLB miss,显著提升内存访问密集型业务的性能。openEuler使用两种技术来实现内存大页。 + +- 静态大页 + + 静态大页要求宿主机操作系统在加载前提前预留一个静态大页池,虚拟机创建时通过修改xml配置文件的方式,指定虚拟机的内存从静态大页池中分配。静态大页能保证虚拟机的所有内存在host上始终以大页形式存在,保证物理连续,但增加了部署的困难,修改静态大页池的页面大小后需要重启host才能生效。静态大页的页面大小支持2M或1G。 + +- 透明大页 + + 如果开启透明大页模式THP(Transparent Huge Pages),虚拟机分配内存时自动选择可用的2M连续页,同时自动完成大页的拆分合并,当没有可用的2M连续页时,它会选择可用的64K(AArch64架构)或4K(x86_64架构)页面进行分配。透明大页的好处是不需要用户感知,同时能尽量使用2M大页以提升内存访问性能。 + +在虚拟机完全使用静态大页的场景下,可以通过关闭透明大页的方法,减少宿主机操作系统的开销,以便虚拟机获得更稳定的性能。 + +#### 操作指导 + +- 使用静态大页 + + 在创建虚拟机之前通过修改XML的方式,为虚拟机配置使用静态大页。 + + ```conf + + + + + + ``` + + 以上XML片段表示为虚拟机配置1G静态大页。 + + ```conf + + + + + + ``` + + 以上XML片段表示为虚拟机配置2M静态大页。 + +- 使用透明大页 + + 通过sysfs可以动态开启使用透明大页: + + ```sh + # echo always > /sys/kernel/mm/transparent_hugepage/enabled + ``` + + 动态关闭使用透明大页: + + ```sh + # echo never > /sys/kernel/mm/transparent_hugepage/enabled + ``` + +### PV-qspinlock + +#### 概述 + +PV-qspinlock主要是针对虚拟化CPU超分场景自旋锁的优化,允许hypervisor将处于锁上下文中的vCPU置于block状态,并在锁释放后将对应的vCPU唤醒,在超分场景下能够更好地利用pCPU资源,对于编译的应用场景有一定的优化,可以减少编译应用的时长。 + +#### 操作指导 + +修改虚拟机/boot/efi/EFI/openEuler/grub.cfg配置文件,在命令行启动参数添加arm_pvspin,重启虚拟机后生效。PV-qspinlock生效后,虚拟机内部使用dmesg命令可以查到如下日志打印: + +```conf +[ 0.000000] arm-pv: PV qspinlocks enabled +``` + +>![!NOTE]说明 +>PV-qspinlock仅限于宿主机和虚拟机操作系统均为openEuler 20.09及以上版本支持,且虚拟机内核编译选项需要配置CONFIG_PARAVIRT_SPINLOCKS=y(openEuler默认配置)。 + +### Guest-Idle-Haltpoll + +#### 概述 + +为了保证公平性及降低功耗,当虚拟机vCPU空闲时,虚拟机将执行WFx/HLT指令退出到宿主机中,并触发上下文切换。宿主机将决定在物理CPU上调度其他进程或vCPU,或进入节能模式。但是,虚拟机和宿主机之间的切换、额外的上下文切换以及唤醒IPI中断开销较大,在频繁睡眠和唤醒的业务中该问题尤为突出。Guest-Idle-Haltpoll技术是指当虚拟机vCPU空闲时,不立刻执行WFx/HLT并发生VM-exit,而是在虚拟机内部轮询(polling)一段时间。在该时间段内,其他共享LLC的vCPU在该vCPU上的任务被唤醒不需要发送IPI中断,减少了发送和接收处理IPI的开销及虚拟机陷出(VM-exit)的开销,从而降低任务唤醒的时延。 + +>![!NOTE]说明 +>由于vCPU在虚拟机内部执行idle-haltpoll会增加vCPU在宿主机的CPU开销,所以开启该特性建议vCPU在宿主机独占物理核。 + +#### 操作指导 + +Guest-Idle-Haltpoll特性默认关闭,这里给出开启该特性的操作指导。 + +1. 使能Guest-Idle-Haltpoll特性。 + - 若宿主机处理器架构为x86,可以在宿主机的虚拟机XML中配置“hint-dedicated”使能该特性,通过虚拟机XML配置将vCPU独占物理核的状态传递给虚拟机。vCPU独占物理核的状态由宿主机保证。 + + ```conf + + ... + + + ... + + + + ... + + ``` + + 或者登录到虚拟机内部以虚拟机为粒度进行在线配置。该方法不依赖宿主机配置vCPU独占物理核。 + + ```sh + echo Y > /sys/module/cpuidle_haltpoll/parameters/force + ``` + + - 若宿主机处理器架构为AArch64,当前只支持在虚拟机内部进行在线配置的方式使能该特性。 + + ```sh + echo Y > /sys/module/cpuidle_haltpoll/parameters/force + ``` + +2. 确认Guest-Idle-Haltpoll特性是否生效。在虚拟机中执行如下命令,若返回haltpoll,说明特性已经生效。 + + ```sh + # cat /sys/devices/system/cpu/cpuidle/current_driver + ``` + +3. (可选)配置Guest-Idle-Haltpoll参数。 + 虚拟机的/sys/module/haltpoll/parameters/路径下提供了如下配置文件,用于调整配置参数,用户可以根据业务特点选择调整。 + + - guest\_halt\_poll\_ns: 全局参数,指vCPU空闲后polling的最大时长,默认值为200000(单位ns)。 + - guest\_halt\_poll\_shrink: 当唤醒事件发生在全局guest\_halt\_poll\_ns时间之后,用于收缩当前vCPU guest\_halt\_poll\_ns的除数因子,默认值为2。 + - guest\_halt\_poll\_grow: 当唤醒事件发生在当前vCPU guest\_halt\_poll\_ns之后且在全局guest\_halt\_poll\_ns之前,用于扩展当前vCPU guest\_halt\_poll\_ns的乘数因子,默认值为2。 + - guest\_halt\_poll\_grow\_start: 当系统空闲时,每个vCPU的guest\_halt\_poll\_ns最终会达到零。该参数用于设置当前vCPU guest\_halt\_poll\_ns的初始值,以便vCPU polling时长的收缩和扩展。默认值为50000(单位ns)。 + - guest\_halt\_poll\_allow\_shrink: 允许每个vCPU guest\_halt\_poll\_ns收缩的开关,默认值是Y(Y表示允许收缩,N表示禁止收缩)。 + + 可以使用root权限,参考如下命令修改参数值。其中 _value_ 表示需要设置的参数值, _configFile_ 为对应的配置文件。 + + ```sh + # echo value > /sys/module/haltpoll/parameters/configFile + ``` + + 例如设置全局guest\_halt\_poll\_ns为200000ns的命令如下: + + ```sh + # echo 200000 > /sys/module/haltpoll/parameters/guest_halt_poll_ns + ``` + +### Nvme磁盘直通 + +#### 概述 + +设备直通技术是一种基于硬件的虚拟化解决方案,通过该技术,虚拟机可以直接连接到指定的物理直通设备上。对于用户来说,如果需要提升虚拟机存储性能,可以采用将 Nvme 磁盘通过 PCI 直通技术直通给虚拟机的办法,从而获得更高的性能表现。 + +#### 操作指导 + +1. 使用前准备。 + + - 确认 Guest OS 内安装 Nvme 磁盘供应商所提供的驱动程序,否则 Nvme 磁盘无法正常工作。 + - 确认 Host OS 开启CPU的 VT-d 和 VT-x 支持。 + - 确认 Host OS 开启内核的 IOMMU 功能。 + - 确认 Host OS 开启内核的中断重映射功能。 + +2. 获取 Nvme 磁盘的 PCI BDF 信息。 + + 在Host上通过 **lspci** 命令获取主机上pci设备的资源列表,具体命令如下所示: + + ```sh + # lspci -vmm + Slot: 81:00.1 + Class: Non-Volatile memory controller + ... + ``` + + 命令回显其中的 **Slot** 选项即对应了 Nvme 磁盘的 PCI BDF 号,以上方命令为例,每个值的对应关系即81-bus号,00-slot号,1-function号。 + +3. 挂载 PCI 直通 Nvme 磁盘至虚拟机中。 + + 创建虚拟机时,在其对应的 xml 配置文件中加入 PCI Nvme 磁盘直通的配置选项。具体配置文件如下所示: + + ```conf + + +
+ + + ``` + + - hostdev.source.address.domain: Host OS 上 PCI 设备的 domain 号。 + - hostdev.source.address.bus: Host OS 上 PCI 设备的 bus 号。 + - hostdev.source.address.slot: Host OS 上 PCI 设备的 slot 号。 + - hostdev.source.address.function: Host OS 上 PCI 设备的 function 号。 + +4. 指定 Nvme 磁盘的 PCI bar 空间。 + + 为了进一步将 Nvme 磁盘的性能发挥到极致,需要指定直通 Nvme 磁盘在 Guest OS 内 PCI MSI-X 中断的 Bar 空间。具体配置如下: + + ```conf + + +
+ + +
+ + + + + + ``` + + 以上xml配置将直通的 Nvme 磁盘的中断信息处理指定在第2号 Bar 上,增加该项配置可以使 Guest OS 内的 Nvme 磁盘性能达到与 Host OS 上的 Nvme 磁盘性能几乎一致。 + +## 安全最佳实践 + +### Libvirt鉴权 + +#### 简介 + +用户使用libvirt远程调用功能时,如果不进行任何鉴权校验,所有连接到主机所在网络的第三方程序都可以通过libvirt的远程调用操作虚拟机,存在安全隐患。为了提升系统安全性,openEuler提供了libvirt鉴权功能,即用户通过libvirt远程调用操作虚拟机前,必须经过身份校验,只有特定用户允许访问虚拟机,从而保护组网中的虚拟机。 + +#### 开启libvirt鉴权 + +openEuler默认关闭libvirt远程调用功能,这里给出开启libvirt远程调用和libvirt鉴权功能的方法。 + +1. 使用root用户登录主机。 +2. 修改libvirt服务配置文件/etc/libvirt/libvirtd.conf,开启libvirt远程调用和libvirt鉴权功能。例如使用基于SASL(Simple Authentication and Security Layer)协议的TCP远程调用配置参考如下: + + ```sh + # 传输层安全协议,0表示关闭,1表示开启,由用户自行配置 + listen_tls = 0 + # 开启基于TCP的远程调用,开启libvirt远程调用和libvirt鉴权功能必须配置为1 + listen_tcp = 1 + # TCP远程调用所使用的协议,由用户自行配置,此处以sasl为例 + auth_tcp = "sasl" + ``` + +3. 修改/etc/sasl2/libvirt.conf配置文件,设置SASL认证机制和sasldb数据库。 + + ```sh + # sasl协议的认证机制 + mech_list: digest-md5 + # 存放用户和用户密码的数据库 + sasldb_path: /etc/libvirt/passwd.db + ``` + +4. 添加用于SASL验证的用户并设置其密码,假设用户名为userName,命令参考如下: + + ```sh + # saslpasswd2 -a libvirt userName + Password: + Again (for verification): + ``` + +5. 修改/etc/sysconfig/libvirtd配置文件,开启libvirt侦听选项。 + + ```sh + LIBVIRTD_ARGS="--listen" + ``` + +6. 重启libvirtd服务,使修改生效。 + + ```sh + # systemctl restart libvirtd + ``` + +7. 确认libvirt远程调用的鉴权功能是否生效。根据提示输入用户名和密码能够成功连接libvirt服务,说明开启成功。 + + ```sh + # virsh -c qemu+tcp://192.168.0.1/system + Please enter your authentication name: openeuler + Please enter your password: + Welcome to virsh, the virtualization interactive terminal. + + Type: 'help' for help with commands + 'quit' to quit + + virsh # + ``` + +#### 管理SASL + +这里给出管理SASL用户的操作,请使用root用户操作。 + +- 查询数据库中存在的用户 + + ```sh + # sasldblistusers2 -f /etc/libvirt/passwd.db + user@localhost.localdomain: userPassword + ``` + +- 从数据库中删除用户user + + ```sh + # saslpasswd2 -a libvirt -d user + ``` + +### qemu-ga + +#### 概述 + +qemu-ga(Qemu Guest Agent)它是运行在虚拟机内部的守护进程,它允许用户在host OS上通过QEMU提供带外通道实现对guest OS的多种管理操作:包括文件操作(open、read、write、close,seek、flush等)、内部关机、虚拟机休眠(suspend-disk、suspend-ram、suspend-hybrid),获取虚拟机内部的信息(包括内存,CPU,网卡,OS等相关信息 )等。 + +在一些对安全要求较高的使用场景,为了防止虚拟机内部信息泄露,qemu-ga提供了黑名单功能,用户可以通过黑名单选择性屏蔽qemu-ga提供的部分功能。 + +>![!NOTE]说明 +>qemu-ga对应的安装包是qemu-guest-agent-xx.rpm,openEuler默认不安装。xx为实际版本号。 + +#### 操作方法 + +请使用root用户按照如下操作步骤添加qemu-ga黑名单: + +1. 登录虚拟机,确定qemu-guest-agent服务存在且处于运行状态: + + ```sh + # systemctl status qemu-guest-agent |grep Active + Active: active (running) since Wed 2018-03-28 08:17:33 CST; 9h ago + ``` + +2. 查询qemu-ga哪些命令可以加入黑名单: + + ```sh + # qemu-ga --blacklist ? + guest-sync-delimited + guest-sync + guest-ping + guest-get-time + guest-set-time + guest-info + ... + ``` + +3. 设置黑名单。通过修改/usr/lib/systemd/system/qemu-guest-agent.service,将需要屏蔽的命令添加到该文件的--blacklist中,不同命令使用空格分隔。例如将guest-file-open和guest-file-close命令加入黑名单的配置参考如下: + + ```conf + [Service] + ExecStart=-/usr/bin/qemu-ga \ + --blacklist=guest-file-open guest-file-close + ``` + +4. 重启qemu-guest-agent服务: + + ```sh + # systemctl daemon-reload + # systemctl restart qemu-guest-agent + ``` + +5. 确认虚拟机开启qemu-ga黑名单功能是否生效,即qemu-ga进程配置的参数--blacklist是否正确: + + ```sh + # ps -ef|grep qemu-ga|grep -E "blacklist=|b=" + root 727 1 0 08:17 ? 00:00:00 /usr/bin/qemu-ga --method=virtio-serial --path=/dev/virtio-ports/org.qemu.guest_agent.0 --blacklist=guest-file-open guest-file-close guest-file-read guest-file-write guest-file-seek guest-file-flush -F/etc/qemu-ga/fsfreeze-hook + ``` + + >![!NOTE]说明 + >更多关于qemu-ga的资料可以参见[https://wiki.qemu.org/Features/GuestAgent](https://wiki.qemu.org/Features/GuestAgent)。 + +### sVirt保护 + +#### 概述 + +在只使用自由访问控制DAC(Discretionary Access Control)策略的虚拟化环境中,主机上运行的恶意虚拟机可能存在攻击hypervisor或其他虚拟机的情况。为了提升虚拟化场景的安全性,openEuler使用了sVirt保护。sVirt是基于SELinux,适用于KVM虚拟化场景的安全防护技术。虚拟机本质是主机操作系统上的普通进程,sVirt机制在hypervisor将虚拟机对应的QEMU进程进行SELinux标记分类,除了使用type表示虚拟化专有进程和文件,还用不同的category(在seclevel区间)表示不同虚拟机,每个虚拟机只能访问自身相同category的文件设备,防止虚拟机访问非授权的主机或其他虚拟机的文件和设备,从而防止虚拟机逃逸,提升主机和虚拟机的安全性。 + +#### 开启sVirt保护 + +**一、使用root用户按照如下操作步骤开启主机的SELinux** + +1. 登录主机。 +2. 开启主机SELinux功能。 + 1. 修改系统启动的grub.cfg,将selinux设置为1。 + + ```conf + selinux=1 + ``` + + 2. 修改/etc/selinux/config,将SELINUX模式设置为enforcing。 + + ```conf + SELINUX=enforcing + ``` + +3. 重启主机。 + + ```sh + # reboot + ``` + +**二、创建开启sVirt功能的虚拟机** + +1. 虚拟机配置文件中添加如下配置: + + ```conf + + ``` + + 或确认没有下述配置: + + ```conf + + ``` + +2. 创建虚拟机。 + + ```sh + # virsh define openEulerVM.xml + ``` + +**三、确认sVirt开启成功** + +执行下述命令检查运行中的虚拟机QEMU进程是否已经启用sVirt防护,若存在"svirt\_t:s0:c"表示已经启用sVirt防护。 + +```sh +# ps -eZ|grep qemu |grep "svirt_t:s0:c" +system_u:system_r:svirt_t:s0:c200,c947 11359 ? 00:03:59 qemu-kvm +system_u:system_r:svirt_t:s0:c427,c670 13790 ? 19:02:07 qemu-kvm +``` + +### 虚拟机可信启动 + +#### 概述 + +可信启动包含度量启动和远程证明。其中虚拟化组件主要提供度量启动功能,远程证明由用户自己在虚拟机中安装相关软件(RA client)及搭建远程证明服务器(RA server)进行使能。 + +度量启动的两个基本要素是信任根和信任链,其基本思想是首先在计算机系统中建立一个信任根,信任根的可信性由物理安全、技术安全和管理安全共同确保,即CRTM(Core Root of Trust for Measurement)。然后建立一条信任链,从信任根开始到BIOS/BootLoader、操作系统、再到应用,一级度量认证一级,一级信任一级,最终把这种信任扩展到整个系统。上述过程看起来如同一根链条一样环环相扣,因此称之为“信任链”。 + +CRTM是度量启动的根,是系统启动的首个组件,没有其他代码来检查CRTM本身的完整性。所以,作为信任链的起点,必须保证它是绝对可信的信任源。因此,技术上需要将CRTM设计成一段只读或更新严格受限的代码,抵御BIOS攻击,防止远程注入恶意代码或在操作系统上层修改启动代码。通常物理主机中由CPU中的微码作为CRTM,在虚拟化环境中,一般选择vBIOS的sec部分为CRTM。 + +启动过程中,前一个部件度量(计算HASH值)后一个部件,然后把度量值扩展入可信存储区例如TPM的PCR中。CRTM度量BootLoader把度量值扩展到PCR中,BootLoader度量OS把度量值扩展到PCR中。 + +#### 配置vTPM设备,使能度量启动 + +**一、安装swtpm和libtpms软件** + +swtpm提供了一个可集成到虚拟化环境中的TPM仿真器(TPM1.2和TPM2.0)。到目前为止,它已经集成到了QEMU中,同时也作为RunC中的原型系统。swtpm是利用libtpms来提供TPM1.2和TPM2.0的模拟功能。 +目前openEuler 22.03 LTS 版本中提供了libtpms和swtpm的源,可以直接使用yum命令安装。 + +```sh +# yum install libtpms swtpm swtpm-devel swtpm-tools +``` + +**二、虚拟机配置vTPM设备** + +1. 虚拟机配置文件中添加如下配置: + + ```conf + + ... + + ... + + + + ... + + ... + + ``` + + >[!NOTE]说明 + >目前,openEuler 20.09 版本 AArch64 架构上的虚拟机可信启动不支持 ACPI 特性,所以虚拟机请勿配置 ACPI 特性,否则启动虚拟机后无法识别 vTPM 设备。AArch64 架构在openEuler 22.03 LTS 之前的版本,tpm model 配置为 \。 + +2. 创建虚拟机。 + + ```sh + # virsh define MeasuredBoot.xml + ``` + +3. 启动虚拟机 + + 启动虚拟机前需要使用chmod命令给目录/var/lib/swtpm-localca/赋予如下权限,否则libvirt无法拉起swtpm。 + + ```sh + # chmod -R 777 /var/lib/swtpm-localca/ + # + # virsh start MeasuredbootVM + ``` + +**三、确认度量启动使能成功** + +度量启动功能使能与否由vBIOS决定,目前 openEuler 22.03 LTS 版本中的vBIOS已经具备了度量启动的能力。若宿主机采用其他版本的edk2组件,请确认其是否支持度量启动功能。 + +使用root用户登录虚拟机,确认虚拟机中是否安装了tpm驱动、tpm2-tss协议栈及tpm2-tools工具。 +openEuler 22.03 LTS 版本中默认安装了tpm驱动(tpm_tis.ko)、tpm2-tss协议栈和tpm2-tools工具。若使用其他操作系统,可以使用如下命令检查是否安装了驱动和相关工具。 + +```sh +# lsmod |grep tpm +# tpm_tis 16384 0 +# +# yum list installed | grep -E 'tpm2-tss|tpm2-tools' +# +# yum install tpm2-tss tpm2-tools +``` + +可以使用tpm2_pcrread(低版本tpm2_tools中使用tpm2_pcrlist)命令列出所有的pcr值。 + +```sh +# tpm2_pcrread +sha1 : + 0 : fffdcae7cef57d93c5f64d1f9b7f1879275cff55 + 1 : 5387ba1d17bba5fdadb77621376250c2396c5413 + 2 : b2a83b0ebf2f8374299a5b2bdfc31ea955ad7236 + 3 : b2a83b0ebf2f8374299a5b2bdfc31ea955ad7236 + 4 : e5d40ace8bb38eb170c61682eb36a3020226d2c0 + 5 : 367f6ea79688062a6df5f4737ac17b69cd37fd61 + 6 : b2a83b0ebf2f8374299a5b2bdfc31ea955ad7236 + 7 : 518bd167271fbb64589c61e43d8c0165861431d8 + 8 : af65222affd33ff779780c51fa8077485aca46d9 + 9 : 5905ec9fb508b0f30b2abf8787093f16ca608a5a + 10 : 0000000000000000000000000000000000000000 + 11 : 0000000000000000000000000000000000000000 + 12 : 0000000000000000000000000000000000000000 + 13 : 0000000000000000000000000000000000000000 + 14 : 0000000000000000000000000000000000000000 + 15 : 0000000000000000000000000000000000000000 + 16 : 0000000000000000000000000000000000000000 + 17 : ffffffffffffffffffffffffffffffffffffffff + 18 : ffffffffffffffffffffffffffffffffffffffff + 19 : ffffffffffffffffffffffffffffffffffffffff + 20 : ffffffffffffffffffffffffffffffffffffffff + 21 : ffffffffffffffffffffffffffffffffffffffff + 22 : ffffffffffffffffffffffffffffffffffffffff + 23 : 0000000000000000000000000000000000000000 +sha256 : + 0 : d020873038268904688cfe5b8ccf8b8d84c1a2892fc866847355f86f8066ea2d + 1 : 13cebccdb194dd916f2c0c41ec6832dfb15b41a9eb5229d33a25acb5ebc3f016 + 2 : 3d458cfe55cc03ea1f443f1562beec8df51c75e14a9fcf9a7234a13f198e7969 + 3 : 3d458cfe55cc03ea1f443f1562beec8df51c75e14a9fcf9a7234a13f198e7969 + 4 : 07f9074ccd4513ef1cafd7660f9afede422b679fd8ad99d25c0659eba07cc045 + 5 : ba34c80668f84407cd7f498e310cc4ac12ec6ec43ea8c93cebb2a688cf226aff + 6 : 3d458cfe55cc03ea1f443f1562beec8df51c75e14a9fcf9a7234a13f198e7969 + 7 : 65caf8dd1e0ea7a6347b635d2b379c93b9a1351edc2afc3ecda700e534eb3068 + 8 : f440af381b644231e7322babfd393808e8ebb3a692af57c0b3a5d162a6e2c118 + 9 : 54c08c8ba4706273f53f90085592f7b2e4eaafb8d433295b66b78d9754145cfc + 10 : 0000000000000000000000000000000000000000000000000000000000000000 + 11 : 0000000000000000000000000000000000000000000000000000000000000000 + 12 : 0000000000000000000000000000000000000000000000000000000000000000 + 13 : 0000000000000000000000000000000000000000000000000000000000000000 + 14 : 0000000000000000000000000000000000000000000000000000000000000000 + 15 : 0000000000000000000000000000000000000000000000000000000000000000 + 16 : 0000000000000000000000000000000000000000000000000000000000000000 + 17 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 18 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 19 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 20 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 21 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 22 : ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff + 23 : 0000000000000000000000000000000000000000000000000000000000000000 +``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/environment_preparation.md b/docs/zh/virtualization/virtualization_platform/virtualization/environment_preparation.md new file mode 100644 index 0000000000000000000000000000000000000000..93b35466f3712d640e6bb5cd8763e73c8f22c98f --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/environment_preparation.md @@ -0,0 +1,366 @@ +# 准备使用环境 + +## 准备虚拟机镜像 + +### 概述 + +虚拟机镜像是一个文件,包含了已经完成安装并且可启动操作系统的虚拟磁盘。虚拟机镜像具有不同格式,常见的有raw格式和qcow2格式。qcow2格式镜像相比raw格式,具有占用更小的空间,支持快照、Copy-On-Write、AES加密、zlib压缩等特性,但性能略逊于raw格式镜像。镜像文件的制作借助于qemu-img工具,本节以qcow2格式镜像文件为例,介绍虚拟机镜像制作过程。 + +### 制作镜像 + +制作qcow2格式镜像文件的操作步骤如下: + +1. 使用root用户安装qemu-img软件包。 + + ```sh + # yum install -y qemu-img + ``` + +2. 使用qemu-img工具的create命令,创建镜像文件,命令格式为: + + ```sh + # qemu-img create -f -o + ``` + + 其中,各参数含义如下: + + - _imgFormat_:镜像格式,取值为raw, qcow2等。 + - _fileOption_:文件选项,用于设置镜像文件的特性,如指定后端镜像文件,压缩,加密等特性。 + - _fileName_:文件名称。 + - _diskSize_:磁盘大小,用于指定块磁盘设备的大小,支持的单位有K、M、G、T,分别代表KiB、MiB、GiB、TiB。 + + 例如,创建一个磁盘设备大小为4GB、格式为qcow2的镜像文件openEuler-image.qcow2,命令和回显如下: + + ```sh + # qemu-img create -f qcow2 openEuler-image.qcow2 4G + Formatting 'openEuler-image.qcow2', fmt=qcow2 size=4294967296 cluster_size=65536 lazy_refcounts=off refcount_bits=16 + ``` + +### 修改镜像磁盘空间大小 + +当虚拟机需要更大的磁盘空间时,可以使用qemu-img工具,修改虚拟机镜像磁盘空间的大小,修改方法如下。 + +1. 查询当前虚拟机镜像磁盘空间大小,命令如下: + + ```sh + # qemu-img info + ``` + + 例如,查询openEuler-image.qcow2镜像磁盘空间大小的命令和回显如下,说明该镜像磁盘空间大小为4GiB。 + + ```sh + # qemu-img info openEuler-image.qcow2 + image: openEuler-image.qcow2 + file format: qcow2 + virtual size: 4.0G (4294967296 bytes) + disk size: 196K + cluster_size: 65536 + Format specific information: + compat: 1.1 + lazy refcounts: false + refcount bits: 16 + corrupt: false + ``` + +2. 修改镜像磁盘空间大小,命令如下,其中imgFiLeName为镜像名称,“+”和“-”分别表示需要增加或减小的镜像磁盘空间大小,单位为K、M、G、T,代表KiB、MiB、GiB、TiB。 + + ```sh + # qemu-img resize [+|-] + ``` + + 例如,将上述openEuler-image.qcow2镜像磁盘空间大小扩展到24GiB,即在原来4GiB基础上增加20GiB,命令和回显如下: + + ```sh + # qemu-img resize openEuler-image.qcow2 +20G + Image resized. + ``` + +3. 查询修改后的镜像磁盘空间大小,确认是否修改成功,命令如下: + + ```sh + # qemu-img info + ``` + + 例如,上述openEuler-image.qcow2镜像磁盘空间已扩展到24GiB,命令和回显如下: + + ```sh + # qemu-img info openEuler-image.qcow2 + image: openEuler-image.qcow2 + file format: qcow2 + virtual size: 24G (25769803776 bytes) + disk size: 200K + cluster_size: 65536 + Format specific information: + compat: 1.1 + lazy refcounts: false + refcount bits: 16 + corrupt: false + ``` + +## 准备虚拟机网络 + +### 概述 + +为了使虚拟机可以与外部进行网络通信,需要为虚拟机配置网络环境。KVM虚拟化支持Linux网桥、Open vSwitch网桥等多种类型的网桥。如[图1](#fig1785384714917)所示,数据传输路径为“虚拟机 -\> 虚拟网卡设备 -\> Linux网桥或Open vSwitch网桥 -\> 物理网卡”。创建网桥,除了为虚拟机配置虚拟网卡设备外,为主机创建网桥是连接虚拟机网络的关键。 + +本节给出搭建Linux网桥和Open vSwitch网桥的方法,使虚拟机连接到网络,用户可以根据情况选择搭建网桥的类型。 + +**图 1** 虚拟网络结构图
+![](./figures/virtual-network-structure.png) + +### 搭建Linux网桥 + +以物理网卡eth0绑定到Linux网桥br0的操作为例,使用root用户执行如下命令搭建Linux网桥: + +1. 安装bridge-utils软件包。 + + Linux网桥通常通过brctl工具管理,其对应的安装包为bridge-utils,安装命令如下: + + ```sh + # yum install -y bridge-utils + ``` + +2. 创建网桥br0。 + + ```sh + # brctl addbr br0 + ``` + +3. 将物理网卡eth0绑定到Linux网桥。 + + ```sh + # brctl addif br0 eth0 + ``` + + >![!NOTE]说明 + >若在ssh远程工具中操作命令brctl addif br0 eth0,ssh远程连接会断开,需要到iBMC界面进行后续如下操作以完成虚拟化网路配置。 + +4. eth0与网桥连接后,不再需要IP地址,安装net-tools软件包,将eth0的IP设置为0.0.0.0。 + + ```sh + # yum install -y net-tools + # ifconfig eth0 0.0.0.0 + ``` + +5. 设置br0的IP地址。 + - 如果有DHCP服务器,可以通过dhclient设置动态IP地址。 + + ```sh + # dhclient br0 + ``` + + - 如果没有DHCP服务器,给br0配置静态IP,例如设置静态IP为192.168.1.2,子网掩码为255.255.255.0。 + + ```sh + # ifconfig br0 192.168.1.2 netmask 255.255.255.0 + ``` + +### 搭建Open vSwitch网桥 + +Open vSwitch网桥,具有更便捷的自动化编排能力。搭建Open vSwitch网桥需要安装网络虚拟化组件,这里介绍总体操作。 + +**一、安装Open vSwitch组件** + +使用Open vSwitch提供虚拟网络,需要安装Open vSwitch网络虚拟化组件,使用root用户执行如下命令: + +1. 安装Open vSwitch组件。 + + ```sh + # yum install -y openvswitch + ``` + +2. 启动Open vSwitch服务。 + + ```sh + # systemctl start openvswitch + ``` + +**二、确认安装是否成功** + +确认Open vSwitch组件是否安装成功。 + +1. 确认openvswitch组件是否安装成功。若安装成功,可以看到软件包相关信息,命令和回显如下: + + ```sh + $ rpm -qi openvswitch + Name : openvswitch + Version : 2.12.4 + Release : 3.oe2203SP4 + Architecture: x86_64 + Install Date: Tue 09 May 2023 10:58:53 AM CST + Group : Unspecified + Size : 7920016 + License : ASL 2.0 and ISC + Signature : RSA/SHA256, Wed 19 Apr 2023 09:40:31 AM CST, Key ID 007fb747fb37bc6f + Source RPM : openvswitch-2.12.4-3.oe2203SP4.src.rpm + Build Date : Wed 19 Apr 2023 09:39:49 AM CST + Build Host : dc-64g.compass-ci + Packager : http://openeuler.org + URL : http://www.openvswitch.org/ + Summary : Production Quality, Multilayer Open Virtual Switch + Description : + Open vSwitch is a production quality, multilayer virtual switch licensed under + the open source Apache 2.0 license. + ``` + +2. 查看Open vSwitch服务是否启动成功。若服务处于“Active”状态,说明服务启动成功,可以正常使用Open vSwitch提供的命令行工具,命令和回显如下: + + ```sh + $ systemctl status openvswitch + ● openvswitch.service - LSB: Open vSwitch switch + Loaded: loaded (/etc/rc.d/init.d/openvswitch; generated) + Active: active (running) since Sat 2019-08-17 09:47:14 CST; 4min 39s ago + Docs: man:systemd-sysv-generator(8) + Process: 54554 ExecStart=/etc/rc.d/init.d/openvswitch start (code=exited, status=0/SUCCESS) + Tasks: 4 (limit: 9830) + Memory: 22.0M + CGroup: /system.slice/openvswitch.service + ├─54580 ovsdb-server: monitoring pid 54581 (healthy) + ├─54581 ovsdb-server /etc/openvswitch/conf.db -vconsole:emer -vsyslog:err -vfile:info --remote=punix:/var/run/openvswitch/db.sock --private-key=db:Open_vSwitch,SSL,private_key --certificate> + ├─54602 ovs-vswitchd: monitoring pid 54603 (healthy) + └─54603 ovs-vswitchd unix:/var/run/openvswitch/db.sock -vconsole:emer -vsyslog:err -vfile:info --mlockall --no-chdir --log-file=/var/log/openvswitch/ovs-vswitchd.log --pidfile=/var/run/open> + ``` + +**三、搭建Open vSwitch网桥** + +以创建Open vSwitch一层网桥br0为例,介绍搭建方法,使用root用户执行如下命令: + +1. 创建Open vSwitch网桥br0。 + + ```sh + # ovs-vsctl add-br br0 + ``` + +2. 将物理网卡eth0添加到br0。 + + ```sh + # ovs-vsctl add-port br0 eth0 + ``` + +3. eth0与网桥连接后,不再需要IP地址,将eth0的IP设置为0.0.0.0。 + + ```sh + # ifconfig eth0 0.0.0.0 + ``` + +4. 为OVS网桥br0分配IP。 + - 如果有DHCP服务器,可以通过dhclient设置动态IP地址。 + + ```sh + # dhclient br0 + ``` + + - 如果没有DHCP服务器,给br0配置静态IP,例如192.168.1.2。 + + ```sh + # ifconfig br0 192.168.1.2 + ``` + +## 准备引导固件 + +### 概述 + +针对不同的架构,引导的方式有所差异。x86支持UEFI(Unified Extensible Firmware Interface)和Legacy方式启动,AArch64仅支持UEFI方式启动。openEuler默认已安装BIOS启动对应的引导文件,不需要用户额外操作。所以这里仅介绍UEFI启动方式的安装方法。 + +统一的可扩展固件接口UEFI是一种全新类型的接口标准,用于开机自检、引导操作系统的启动,是传统BIOS的一种替代方案。EDK II是一套实现了UEFI标准的开源代码,在虚拟化场景中,通常利用EDK II工具集,通过UEFI的方式启动虚拟机。使用EDK II工具需要在虚拟机启动之前安装对应的软件包 ,本节介绍EDK II的安装方法。 + +### 安装方法 + +如果使用UEFI方式引导,需要安装工具集EDK II,AArch64架构对应的安装包为edk2-aarch64,x86架构对应的安装包为edk2-ovmf。这里以AArch64架构为例,给出具体的安装方法,x86架构仅需将edk2-aarch64替换为edk2-ovmf。 + +1. 安装edk软件包,使用root用户执行如下命令: + + 在AArch64架构下edk2的包名为edk2-aarch64 + + ```sh + # yum install -y edk2-aarch64 + ``` + + 在x86\_64架构下edk2的包名为edk2-ovmf + + ```sh + # yum install -y edk2-ovmf + ``` + +2. 查询edk软件是否安装成功,命令如下: + + 在AArch64架构下查询如下: + + ```sh + $ rpm -qi edk2-aarch64 + ``` + + 若edk软件安装成功,回显示例如下: + + ```text + Name : edk2-aarch64 + Version : 202011 + Release : 11.oe2203SP4 + Architecture: noarch + Install Date: Tue 09 May 2023 11:28:22 AM CST + Group : Unspecified + ``` + + 在x86\_64架构下查询如下: + + ```sh + $ rpm -qi edk2-ovmf + ``` + + 若edk软件安装成功,回显类似如下: + + ```text + Name : edk2-ovmf + Version : 202011 + Release : 11.oe2203SP4 + Architecture: noarch + Install Date: Tue 09 May 2023 11:06:06 AM CST + ``` + +## 非root用户配置 + +### 概述 + +openEuler虚拟化使用virsh管理虚拟机。如果希望在非root用户使用virsh命令管理虚拟机,在使用之前需要进行相关配置,这里给出配置指导。 + +### 操作指导 + +允许非root用户使用virsh命令管理虚拟机的配置操作如下,以下命令中的userName请改为实际的非root用户名称: + +1. 使用root用户登录主机。 + +2. 将非root用户添加到libvirt用户组。 + + ```sh + # usermod -a -G libvirt userName + ``` + +3. 切换到非root用户。 + + ```sh + # su userName + ``` + +4. 配置非root用户的环境变量。使用vim打开~/.bashrc文件。 + + ```sh + $ vim ~/.bashrc + ``` + + 并在末尾加上如下内容后保存。 + + ```sh + export LIBVIRT_DEFAULT_URI="qemu:///system" + ``` + + 执行如下命令,使配置生效。 + + ```sh + $ source ~/.bashrc + ``` + +5. 在虚拟机XML配置文件中的domain根元素中添加如下内容,使qemu-kvm进程可以访问磁盘镜像文件。 + + ```conf + + ``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP1.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP1.png new file mode 100644 index 0000000000000000000000000000000000000000..536e0618a3ab5b70937292205242a08237e34712 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP1.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP2.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP2.png new file mode 100644 index 0000000000000000000000000000000000000000..0557c8782960188dbe9d84a1d0e66c9b45d2b303 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP2.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP3.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP3.png new file mode 100644 index 0000000000000000000000000000000000000000..326fcf1e8d5e3c795ebcde286d8e0fef14bec7d1 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP3.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP4.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP4.png new file mode 100644 index 0000000000000000000000000000000000000000..bc77c038e1e3a5ec30d7ba4f805ca937792e9327 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP4.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP5.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP5.png new file mode 100644 index 0000000000000000000000000000000000000000..0f22b3cbd84f7c93f74898a926bc3e32f231667f Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP5.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP6.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP6.png new file mode 100644 index 0000000000000000000000000000000000000000..08235013ca71f1ec51e9af2f143629d1a6132fe9 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP6.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP7.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP7.png new file mode 100644 index 0000000000000000000000000000000000000000..f934521d59dd4a75449fcb2ca8abc54045b9102b Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP7.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP8.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP8.png new file mode 100644 index 0000000000000000000000000000000000000000..9a8158e3378bf25dee05b892cc60f424542455d7 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/CertEnrollP8.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/OSBootFlow.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/OSBootFlow.png new file mode 100644 index 0000000000000000000000000000000000000000..f9c03c86df145636015efaeab4dc076f62754cd9 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/OSBootFlow.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/SecureBootFlow.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/SecureBootFlow.png new file mode 100644 index 0000000000000000000000000000000000000000..e76a800931ed6da2af3515d3d9d44388e3d11c01 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/SecureBootFlow.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/kvm-architecture.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/kvm-architecture.png new file mode 100644 index 0000000000000000000000000000000000000000..62b13a899ef6eb7ab3e6b2d4a754396734e3b6b3 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/kvm-architecture.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/status-transition-diagram.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/status-transition-diagram.png new file mode 100644 index 0000000000000000000000000000000000000000..e29d998e78064672bfc3641c26c0eb086d585000 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/status-transition-diagram.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtual-network-structure.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtual-network-structure.png new file mode 100644 index 0000000000000000000000000000000000000000..7feec03aa9434c7b5ed4479cbae3f76e4d44f86b Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtual-network-structure.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtualized-architecture.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtualized-architecture.png new file mode 100644 index 0000000000000000000000000000000000000000..bd90a00d1fbe4d8356ec0dec3106c10dafd46950 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/virtualized-architecture.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587435.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587435.png new file mode 100644 index 0000000000000000000000000000000000000000..d245d48dc07e2b01734e21ec1952e89fa9269bdb Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587435.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587436.png b/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587436.png new file mode 100644 index 0000000000000000000000000000000000000000..a32856aa08e459ed0f51f8fcf4c2f51511c12095 Binary files /dev/null and b/docs/zh/virtualization/virtualization_platform/virtualization/figures/zh-cn_image_0218587436.png differ diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/introduction_to_virtulization.md b/docs/zh/virtualization/virtualization_platform/virtualization/introduction_to_virtulization.md new file mode 100644 index 0000000000000000000000000000000000000000..925be30a6654079766609ddac2c7a4a60419338f --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/introduction_to_virtulization.md @@ -0,0 +1,80 @@ +# 认识虚拟化 + +## 简介 + +在计算机技术中,虚拟化是一种资源管理技术,它将计算机的各种实体资源(处理器、内存、磁盘、网络适配器等)予以抽象、转换后呈现,并可分割、组合为一个或多个计算机配置环境。这种资源管理技术打破了实体结构不可分割的障碍,使这些资源在虚拟化后不受现有资源的架设方式、地域或物理配置限制,从而让用户可以更好地应用计算机硬件资源,提高资源利用率。 + +虚拟化使得一台物理服务器上可以运行多台虚拟机,虚拟机共享物理机的处理器、内存、I/O资源等,但逻辑上虚拟机之间是互相隔离的。在虚拟化技术中,通常将这个物理服务器称为宿主机,宿主机上运行的虚拟机也叫客户机,虚拟机内部运行的操作系统称为客户机操作系统。在宿主机和虚拟机之间存在一层叫虚拟化层的软件,用于实现虚拟硬件的模拟,通常这个虚拟化层被称为虚拟机监视器,如下图所示: + +**图 1** 虚拟化架构 +![](./figures/virtualized-architecture.png) + +## 虚拟化架构 + +当前的主流虚拟化技术按照VMM(Virtual Machine Monitor)实现结构不同分为两种: + +- Hypervisor模型 + + 在这种模型中,VMM被看做是一个完备的操作系统,同时还具备虚拟化功能,VMM直接管理所有的物理资源,包括处理器、内存和I/O设备等。 + +- 宿主模型 + + 这种模型中,物理资源是由宿主机操作系统管理。宿主机操作系统是传统的操作系统,如Linux,Windows等,宿主机操作系统不提供虚拟化能力,提供虚拟化能力的VMM作为系统的一个驱动或者软件运行在宿主操作系统上,VMM通过调用host OS的服务获得资源,实现处理器,内存和I/O设备的模拟,这种模型的虚拟化实现有KVM、Virtual Box等。 + +KVM(Kernel-based Virtual Machine)即基于内核的虚拟机,是Linux的一个内核模块,该内核模块使Linux成为一个hypervisor。KVM架构如[图2](#fig310953013541)所示。KVM本身未模拟任何硬件设备,它用于使能硬件提供的虚拟化能力,比如Intel VT-x, AMD-V, ARM virtualization extensions等。主板、内存及I/O等设备的模拟由用户态的QEMU完成。用户态QEMU配合内核KVM模块共同完成虚拟机的硬件模拟,客户操作系统运行在QEMU和KVM模拟的硬件上。 + +**图 2** KVM架构图 +![](./figures/kvm-architecture.png) + +## 虚拟化组件 + +openEuler软件包中提供的虚拟化相关组件: + +- KVM:提供核心的虚拟化基础设施,使Linux系统成为一个hypervisor,支持多个虚拟机同时在该主机上运行。 +- QEMU:模拟处理器并提供一组设备模型,配合KVM实现基于硬件的虚拟化模拟加速。 +- Libvirt:为管理虚拟机提供工具集,主要包含统一、稳定、开放的应用程序接口(API)、守护进程 (Libvirtd)和一个默认命令行管理工具(virsh)。 +- Open vSwitch:为虚拟机提供虚拟网络的工具集,支持编程扩展,以及标准的管理接口和协议(如NetFlow, sFlow,IPFIX, RSPAN, CLI, LACP, 802.1ag)。 + +## 虚拟化特点 + +业界普遍认可虚拟化有以下特点: + +- 分区 + + 虚拟化可以对一台物理服务器进行软件逻辑分割,实现运行多台不同规格的虚拟机(虚拟服务器)。 + +- 隔离 + + 虚拟化能够模拟虚拟硬件,为虚拟机运行完整操作系统提供硬件条件,每个虚拟机内部操作系统都是独立的,互相隔离的。例如一台虚拟机的操作系统由于故障或者受到恶意破坏而崩溃,其他虚拟机内部的操作系统和应用不会受到任何影响。 + +- 封装性 + + 以虚拟机为粒度封装,优秀的封装性使得虚拟机比物理机更灵活,可以实现虚拟机的热迁移、快照、克隆等功能,实现数据中心的快速部署和自动化运维。 + +- 硬件无关 + + 经过虚拟化层的抽象后,虚拟机与底层的硬件没有直接的绑定关系,可以在其他服务器上不加修改地运行虚拟机。 + +## 虚拟化优势 + +虚拟化为数据中心的基础设施带来了众多优势: + +- 灵活性和可扩展性 + + 用户可以根据需求进行动态资源分配和回收,满足动态变化的业务需求,同时也可以根据不同的产品需求,规划不同的虚拟机规格,在不改变物理资源配置的情况下进行规模调整。 + +- 更高的可用性和更好的运维手段 + + 虚拟化提供热迁移、快照、热升级、容灾自动恢复等运维手段,可以在不影响用户的情况下对物理资源进行删除、升级或变更,提高了业务连续性,同时可以实现自动化运维。 + +- 提高安全性 + + 虚拟化提供了操作系统级的隔离,同时实现基于硬件提供的处理器操作特权级控制,相比简单的共享机制具有更高的安全性,可实现对数据和服务进行可控和安全的访问。 + +- 更高的资源利用率 + + 虚拟化可支持实现物理资源和资源池的动态共享,提高资源利用率。 + +## openEuler虚拟化 + +openEuler提供了支持AArch64和x86_64处理器架构的KVM虚拟化组件。 diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/libcareplus.md b/docs/zh/virtualization/virtualization_platform/virtualization/libcareplus.md new file mode 100644 index 0000000000000000000000000000000000000000..5b952fc125a315d5b44ba965e933291525bea33a --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/libcareplus.md @@ -0,0 +1,379 @@ +# LibcarePlus + +## 概述 + +LibcarePlus 是一个用户态进程热补丁框架,可以在不重启进程的情况下对 Linux 系统上运行的目标进程进行热补丁操作。热补丁可以应用于 CVE 漏洞修复,也可以应用于不中断应用服务的紧急 bug 修复。 + +## 软硬件要求 + +在 openEuler 上使用 LibcarePlus,需要满足一定的软硬件要求: + +- 当前LibcarePlus支持 x86 体系架构和arm64体系架构。 +- LibcarePlus 可以在任何支持安装 **libunwind**、 **elfutils** 以及 **binutils** 的 Linux 发行版系统上运行。 +- LibcarePlus 使用ptrace()系统调用,需要对应Linux发行版本的相关编译选项支持。 +- LibcarePlus 制作热补丁时,依赖原可执行文件的符号表,因此,请勿过早将符号表strip掉。 +- 对于开启selinux的Linux系统,需要自行适配对应的selinux规则。 + +## 注意事项和约束 + +使用 LibcarePlus,需遵循以下热补丁规范和约束: + +- 仅支持对 C 语言编写的代码,不支持汇编语言等。 +- 代码文件名必须符合 C 语言标识符命名规范:由字母(A-Z,a-z)、数字 (0-9)、下划线“_”组成;并且首字符不能是数字,但可以是字母或者下划线;不能包含“-”、“$”等特殊符号。 +- 支持增量补丁,即支持对进程打多个补丁,但补丁加卸载管理需使用者执行设计,一般遵循FILO规则。 +- 不支持补丁自动加载,对于特定进程,需使用者自行设计。 +- 支持补丁查询功能。 +- 静态函数补丁受限于系统中能找到该函数的符号表。 +- 热补丁为进程粒度,即动态库热补丁只能对调用这个动态库的进程打补丁。 +- 单个进程支持的补丁数受限于跳转指令的跳转范围和虚拟内存地址空洞大小,一般支持[1, 512]。 +- 对于TLS变量,仅支持修改IE模式的TLS变量。 +- 后续补丁不能使用之前补丁中定义的符号。 +- 以下场景不支持热补丁: + - 死循环函数、不退出函数、inline 函数、初始化函数、NMI 中断处理函数。 + - 替换全局变量。 + - 小于5字节的短函数。 + - 修改头文件。 + - 增加和删除目标函数的出参和入参。 + - 数据结构成员变化(新增、删除、修改)。 + - 修改包含 __LINE__ , __FILE__ 等gcc编译宏的 C 文件。 + - 修改 intel 矢量汇编指令。 + +## 安装 LibcarePlus + +### 安装软件依赖 + +LibcarePlus 运行依赖于 **libunwind**、 **elfutils** 和 **binutils**,在配置了 yum 源的 openEuler 系统上,可以参考如下命令安装 LibcarePlus 的依赖软件。 + +``` shell +# yum install -y binutils elfutils elfutils-libelf-devel libunwind-devel +``` + +#### 安装 LibcarePlus + +```shell +# yum install libcareplus libcareplus-devel -y +``` + +查看安装是否成功: + +``` shell +# libcare-ctl -h +usage: libcare-ctl [options] [args] + +Options: + -v - verbose mode + -h - this message + +Commands: + patch - apply patch to a user-space process + unpatch- unapply patch from a user-space process + info - show info on applied patches + +``` + +## 制作 LibcarePlus 热补丁 + +### 概述 + +LibcarePlus 支持如下方式制作热补丁: + +- 手动制作 +- 通过脚本制作 + +手动制作热补丁的过程繁琐,对于代码量较大的工程,例如QEMU,手动制作热补丁极其困难。建议使用 LibcarePlus 自带脚本一键式地生成热补丁文件。 + +#### 手动制作 + +本节以原文件 foo.c 和补丁文件 bar.c 为例,给出手动制作热补丁的指导。 + +1. 准备 C 语言编写的原文件和补丁文件。例如原文件 foo.c 和补丁文件 bar.c。 + +
+ 点击展开 foo.c +

+ + ``` c + // foo.c + #include + #include + + void print_hello(void) + { + printf("Hello world!\n"); + } + + int main(void) + { + while (1) { + print_hello(); + sleep(1); + } + } + ``` + +

+
+ +
+ 点击展开 bar.c +

+ + ``` c + // bar.c + #include + #include + + void print_hello(void) + { + printf("Hello world %s!\n", "being patched"); + } + + int main(void) + { + while (1) { + print_hello(); + sleep(1); + } + } + ``` + +

+
+ +2. 编译得到原文件和补丁文件的汇编文件 **foo.s** 和 **bar.s**,参考命令如下: + + ``` shell + # gcc -S foo.c + # gcc -S bar.c + # ls + bar.c bar.s foo.c foo.s + ``` + +3. 使用 **kpatch_gensrc** 对比 foo.s 和 bar.s 差异,生成包含原文件的汇编内容和差异内容的 foobar.s,参考命令如下: + + ``` shell + # sed -i 's/bar.c/foo.c/' bar.s + # kpatch_gensrc --os=rhel6 -i foo.s -i bar.s -o foobar.s --force-global + ``` + + 由于 **kpatch_gensrc** 默认对同一 C 语言原文件进行对比,所以对比前需要使用 sed 命令将补丁汇编文件 bar.s 中的 bar.c 改为原文件名称 foo.c。随后调用 **kpatch_gensrc**,指定输入文件为 foo.s 与 bar.s,输出文件为 foobar.s。 + +4. 编译原文件的汇编文件 foo.s 和生成的汇编文件 foobar.s,得到可执行文件 foo 和 foobar,参考命令如下: + + ``` shell + # gcc -o foo foo.s + # gcc -o foobar foobar.s -Wl,-q + ``` + + 链接选项 **-Wl, -q** 将保留foobar中的重定位节。 + +5. 利用 **kpatch_strip** 去除可执行程序 foo 和 foobar 的相同内容,保留制作热补丁所需要的内容。 + + ``` shell + # kpatch_strip --strip foobar foobar.stripped + # kpatch_strip --rel-fixup foo foobar.stripped + # strip --strip-unneeded foobar.stripped + # kpatch_strip --undo-link foo foobar.stripped + ``` + + 上述命令中的各参数含义为: + + - **--strip** 用于去除 foobar 中对于补丁制作无用的 section; + - **--rel-fixup** 用于修复补丁内所访问的变量以及函数的地址; + - **strip --strip-unneeded** 用于去除对于热补丁重定位操作无用的符号信息; + - **--undo-link** 用于将补丁内符号的地址从绝对地址更改为相对地址。 + +6. 制作热补丁文件。 + + 通过以上操作,已经得到了热补丁制作所需的主要内容。接下来需要使用 **kpatch_make** 将原可执行文件的 **Build ID** 以及 **kpatch_strip** 的输出文件 **foobar.stripped** 作为参数传递给 **kpatch_make**,最终生成热补丁文件,参考命令如下: + + ``` shell + # str=$(readelf -n foo | grep 'Build ID') + # substr=${str##* } + # kpatch_make -b $substr -i 0001 foobar.stripped -o foo.kpatch + # ls + bar.c bar.s foo foobar foobar.s foobar.stripped foo.c foo.kpatch foo.s + ``` + + 至此,就得到了patch ID为0001的热补丁文件 foo.kpatch。 + +#### 通过脚本制作 + +本节介绍如何利用 LibcarePlus 自带的 **libcare-patch-make** 脚本制作热补丁文件,仍以原文件 foo.c 和补丁文件 bar.c 为例。 + +1. 利用 diff 命令生成 foo.c 和 bar.c 的对比文件,命令如下所示: + + ``` shell + # diff -up foo.c bar.c > foo.patch + ``` + + foo.patch 文件内容如下所示: + +
+ 点击展开 foo.patch +

+ + ``` diff + --- foo.c 2020-12-09 15:39:51.159632075 +0800 + +++ bar.c 2020-12-09 15:40:03.818632220 +0800 + @@ -1,10 +1,10 @@ + -// foo.c + +// bar.c + #include + #include + + void print_hello(void) + { + - printf("Hello world!\n"); + + printf("Hello world %s!\n", "being patched"); + } + + int main(void) + ``` + +

+
+ +2. 编写编译 foo.c 的 Makefile 文件,具体如下所示: + +
+ 点击展开 Makefile +

+ + ``` makefile + all: foo + + foo: foo.c + $(CC) -o $@ $< + + clean: + rm -f foo + + install: foo + mkdir $$DESTDIR || : + cp foo $$DESTDIR + ``` + +

+
+ +3. 编写好 Makefile 之后,直接调用 **libcare-patch-make** 即可。若 **libcare-patch-make** 询问选择哪个文件进行打补丁操作,输入原文件名即可,具体如下所示: + + ``` shell + # libcare-patch-make --clean -i 0001 foo.patch + rm -f foo + BUILDING ORIGINAL CODE + /usr/local/bin/libcare-cc -o foo foo.c + INSTALLING ORIGINAL OBJECTS INTO /libcareplus/test/lpmake + mkdir $DESTDIR || : + cp foo $DESTDIR + applying foo.patch... + can't find file to patch at input line 3 + Perhaps you used the wrong -p or --strip option? + The text leading up to this was: + -------------------------- + |--- foo.c 2020-12-10 09:43:04.445375845 +0800 + |+++ bar.c 2020-12-10 09:48:36.778379648 +0800 + -------------------------- + File to patch: foo.c + patching file foo.c + BUILDING PATCHED CODE + /usr/local/bin/libcare-cc -o foo foo.c + INSTALLING PATCHED OBJECTS INTO /libcareplus/test/.lpmaketmp/patched + mkdir $DESTDIR || : + cp foo $DESTDIR + MAKING PATCHES + Fixing up relocation printf@@GLIBC_2.2.5+fffffffffffffffc + Fixing up relocation print_hello+0 + patch for /libcareplus/test/lpmake/foo is in /libcareplus/test/patchroot/700297b7bc56a11e1d5a6fb564c2a5bc5b282082.kpatch + ``` + + 执行成功之后,输出显示:热补丁文件位于当前目录的 **patchroot** 目录下,可执行文件则在 **lpmake** 目录下。脚本生成的热补丁文件默认是采用 Build ID 作为热补丁文件的文件名。 + +## 应用 LibcarePlus 热补丁 + +本节以原文件 **foo.c** 和补丁文件 **bar.c** 为例,介绍 LibcarePlus 热补丁的应用指导。 + +### 前期准备 + +应用 LibcarePlus 热补丁之前,需要提前准备好原可执行程序 foo、以及热补丁文件 foo.kpatch。 + +### 加载热补丁 + +本节介绍应用 LibcarePlus 热补丁的具体流程。 + +1. 首先在第一个 shell 窗口运行需要打补丁的可执行程序,如下所示: + + ``` shell + # ./lpmake/foo + Hello world! + Hello world! + Hello world! + ``` + +2. 随后在第二个 shell 窗口运行 **libcare-ctl** 应用热补丁,命令如下所示: + + ``` shell + # libcare-ctl -v patch -p $(pidof foo) ./patchroot/BuildID.kpatch + ``` + + 若此时热补丁应用成功,第二个 shell 窗口会有如下输出: + + ``` shell + 1 patch hunk(s) have been successfully applied to PID '10999' + ``` + + 而第一个 shell 窗口内运行的目标进程则会出现如下输出: + + ``` shell + Hello world! + Hello world! + Hello world being patched! + Hello world being patched! + ``` + +### 查询补丁 + +本节介绍查询LibcarePlus热补丁的具体流程。 + +1. 在第二个shell窗口执行如下命令: + + ```shell + # libcare-ctl info -p $(pidof foo) + + ``` + + 此时若进程存在已经加载的热补丁,则第二个shell窗口会有如下输出: + + ```shell + Pid: 551763 + Target: foo + Build id: df05a25bdadd282812d3ee5f0a460e69038575de + Applied patch number: 1 + Patch id: 0001 + ``` + +### 卸载热补丁 + +本节介绍卸载 LibcarePlus 热补丁的具体流程。 + +1. 在第二个 shell 窗口执行如下命令: + + ``` shell + # libcare-ctl unpatch -p $(pidof foo) -i 0001 + ``` + + 此时若热补丁卸载成功,第二个 shell 窗口会有如下输出: + + ``` shell + 1 patch hunk(s) were successfully cancelled from PID '10999' + ``` + +2. 第一个 shell 窗口内运行的目标进程则会出现如下输出: + + ``` shell + Hello world being patched! + Hello world being patched! + Hello world! + Hello world! + ``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/managing_devices.md b/docs/zh/virtualization/virtualization_platform/virtualization/managing_devices.md new file mode 100644 index 0000000000000000000000000000000000000000..7785d2a7debbcd2d18f756383f9a7f4cd5622cfe --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/managing_devices.md @@ -0,0 +1,875 @@ +# 管理设备 + +## 配置虚拟机PCIe控制器 + +### 概述 + +虚拟机内部的网卡、磁盘控制器、PCIe直通设备都需要挂接到PCIe Root Port下面,每个Root Port对应一个PCIe插槽。Root Port的下挂设备支持热插拔,但是Root Port本身不支持热插拔,因此需要用户考虑设备热插的需求,规划虚拟机需要预留的最大PCIe Root Port数量,在虚拟机启动之前完成Root Port的静态配置。 + +### 配置PCIe Root、PCIe Root Port和PCIe-PCI-Bridge + +虚拟机PCIe控制器通过XML文件进行配置,PCIe Root、PCIe Root Port和PCIe-PCI-Bridge对应XML中的model分别为pcie-root、pcie-root-port、pcie-to-pci-bridge。 + +- 简化配置方法 + + 在虚拟机的XML文件中写入以下内容,controller的其他属性由libvirt自动填充: + + ```conf + + + + + + + ``` + + 其中:由于pcie-root和pcie-to-pci-bridge分别占用1个index,因此最终的index等于需要的Root Port数量+1。 + +- 完整配置方法 + + 在虚拟机的XML文件中写入以下内容: + + ```conf + + + + +
+ + + +
+ + + + +
+ + + ``` + + 其中: + + - Root Port的chassis和port属性必须依次递增,由于中间插入一个PCIe-PCI-Bridge,chassis编号跳过2,但是port编号仍然连续。 + - Root Port的address function的取值范围为0x0\~0x7。 + - 每个slot下最多挂8个function,挂满之后需要递增slot编号。 + + 由于完整配置方法相对复杂,建议采用简化配置方法。 + +## 管理虚拟磁盘 + +### 概述 + +虚拟磁盘类型主要包含virtio-blk、virtio-scsi、vhost-scsi等。virtio-blk模拟的是一种block设备,virtio-scsi和vhost-scsi模拟的是一种scsi设备。 + +- virtio-blk:普通系统盘和数据盘可用,该种配置下虚拟磁盘在虚拟机内部呈现为vd\[a-z\]或vd\[a-z\]\[a-z\]。 +- virtio-scsi:普通系统盘和数据盘建议选用,该种配置下虚拟磁盘在虚拟机内部呈现为sd\[a-z\]或sd\[a-z\]\[a-z\]。 +- vhost-scsi:对性能要求高的虚拟磁盘建议选用,该种配置下虚拟磁盘在虚拟机内部呈现为sd\[a-z\]或sd\[a-z\]\[a-z\]。 + +### 操作步骤 + +虚拟磁盘的配置步骤,请参见“虚拟机配置 > 存储设备”。本节以virtio-scsi磁盘为例,介绍挂载和卸载虚拟磁盘的简单方法。 + +- 挂载virtio-scsi磁盘: + + 使用virsh attach-device命令挂载virtio-scsi虚拟磁盘: + + ```sh + $ virsh attach-device + ``` + + 上述命令可以为虚拟机在线挂载磁盘,其中磁盘信息由attach-device.xml文件指定。下面是一个attach-device.xml文件的例子: + + ```conf + ### attach-device.xml ### + + + + + +
+ + ``` + + 通过上述命令挂载的磁盘,在虚拟机关机重启后失效。如果需要为虚拟机持久化挂载虚拟磁盘,需要使用带--config参数的virsh attach-device命令。 + +- 卸载virtio-scsi磁盘: + + 通过在线挂载的磁盘,如果不需要再使用,可以通过virsh detach-device命令动态卸载: + + ```sh + $ virsh detach-device + ``` + + 其中,detach-device.xml指定了需要卸载的磁盘的XML信息,与动态挂载时的XML信息保持一致。 + +## 管理虚拟网卡 + +### 概述 + +虚拟网卡类型主要包含virtio-net、vhost-net、vhost-user等。用户在创建虚拟机后,可能会有挂载或者卸载虚拟网卡的需求。openEuler提供了网卡热插拔的功能,通过网卡热插拔,能够改变网络的吞吐量,提高系统的灵活性和扩展性。 + +### 操作步骤 + +虚拟网卡的配置步骤,请参见“虚拟机配置 > 网络设备”。本节以vhost-net网卡为例,介绍挂载和卸载虚拟网卡的简单方法。 + +- 挂载vhost-net网卡: + + 使用virsh attach-device命令挂载vhost-net虚拟网卡: + + ```sh + $ virsh attach-device + ``` + + 上述命令可以为虚拟机在线挂载vhost-net网卡,其中网卡信息由attach-device.xml文件指定。下面是一个attach-device.xml文件的例子: + + ```sh + ### attach-device.xml ### + + + + + + + + ``` + + 通过上述命令挂载的vhost-net网卡,在虚拟机关机重启后失效。如果需要为虚拟机持久化挂载虚拟网卡,需要使用带--config参数的virsh attach-device命令。 + +- 卸载vhost-net网卡: + + 通过在线挂载的网卡,如果不需要再使用,可以通过virsh detach-device命令动态卸载: + + ```sh + $ virsh detach-device + ``` + + 其中,detach-device.xml指定了需要卸载虚拟网卡的XML信息,与动态挂载时的XML信息保持一致。 + +## 配置虚拟串口 + +### 概述 + +在虚拟化环境下,由于管理和业务的需求,虚拟机与宿主机需要互相通信。但在云管理系统复杂的网络架构下,运行在管理平面的服务与运行在业务平面的虚拟机之间,不能简单的进行三层网络互相通信,导致服务部署和信息收集不够快速。因此需要提供虚拟串口,来达到虚拟机与宿主机之间互相通信的目的。 通过在虚拟机的XML配置文件中增加相应串口的配置项,可以实现虚拟机与宿主机之间的互相通信。 + +### 操作步骤 + +Linux虚拟机串口控制台,即虚拟机串口连接到宿主机的一个伪终端设备,通过宿主机的设备间接实现对虚拟机的交互式操作。在该场景下串口需配置为pty类型,本节介绍pty型串口的配置方法。 + +- 在虚拟机的XML配置文件中"devices"节点下添加如下所示的虚拟串口配置项: + + ```conf + + + + + + ``` + +- 使用virsh console命令连接到正在运行的虚拟机的pty串口。 + + ```sh + $ virsh console + ``` + +- 如果要确保没有遗漏任何串口消息,请在启动虚拟机时使用--console选项连接到串口。 + + ```sh + $ virsh start --console + ``` + +## 管理设备直通 + +设备直通技术是指将host上的物理设备直接呈现给一台虚拟机,虚拟机可以直接访问该设备资源的一种使用方式。使用设备直通的方式可以让虚拟机获得良好的I/O性能。 + +当前设备直通使用的是VFIO方式,按照直通的设备类型可以分为PCI直通和SR-IOV直通两种类型。 + +### PCI直通 + +PCI直通是指将host上的物理PCI设备直接呈现给一台虚拟机,供虚拟机直接访问的一种使用方式。PCI直通使用了vfio设备直通方式,为虚拟机配置PCI直通的xml配置如下: + +```conf + + + +
+ + +
+ +``` + +**表 1** PCI直通设备配置项 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

参数名

+

说明

+

取值

+

hostdev.source.address.domain

+

host OS上的PCI设备的domain号。

+

>=0

+

hostdev.source.address.bus

+

host OS上的PCI设备bus号。

+

>=1

+

hostdev.source.address.slot

+

host OS上的PCI设备的device号。

+

>=0

+

hostdev.source.address.function

+

host OS上的PCI设备的function号。

+

>=0

+

hostdev.driver.name

+

可选配置项,指定PCI直通的后端驱动。

+

vfio(默认配置项)

+

hostdev.rom

+

直通设备的ROM是否呈现给虚拟机。

+

可以配置为“on/off”,默认为“on”。

+
  • on:表示直通设备的ROM呈现给虚拟机,例如:直通网卡虚拟机需要从该网卡的PXE启动时,可以将该选项配置为“on”,HBA卡直通虚拟机需要从ROM中启动时可以将该选项配置为“on”。
  • off:表示直通设备的ROM不呈现给虚拟机。
+

hostdev.address type

+

PCI设备呈现的Guest内bdf号。

+

`[0x03-0x1e](./slot范围`)

+

说明:

+
  • domain为域信息,bus为总线号,slot为插槽号,function为功能。
  • 除了slot插槽号,这里其余均默认为0。
  • 第一个slot插槽号0x00被系统占用,第二个slot号0x01被IDE控制器和USB控制器占用,第三个slot号0x02被video占用。
  • 最后一个slot号0x1f被pvchannel占用。
+
+ +>[!NOTE]说明 +>VFIO直通方式的最小直通单位是iommu\_group,host根据硬件上的ACS位,来划分iommu\_group。同一个iommu\_group中的设备只允许直通给同一台虚拟机(一个PCI设备上的若干个function,如果属于同一个iommu\_group,只允许直通给一个虚拟机使用)。 + +### SR-IOV直通 + +#### 概述 + +SR-IOV(Single Root I/O Virtualization)是一种基于硬件的虚拟化解决方案,通过SR-IOV技术可以将一个PF(Physical Function)虚拟成多个VF(Virtual Function),每个VF都可以单独被直通给一个虚拟机,极大地提升了硬件资源利用率和虚拟机的I/O性能。一种典型的应用场景就是网卡SR-IOV设备直通,利用SR-IOV技术可以将一个物理网卡(PF)虚拟成多个VF网卡,再把VF直通给虚拟机使用。 + +- SR-IOV需要物理硬件支持,使用SR-IOV前请确保要直通的硬件设备支持该能力,并且Host侧的设备驱动程序工作在SR-IOV模式下。 +- 查询网卡具体型号的办法如下: + 例如下述回显,第一列为网卡的PCI号,19e5:1822为网卡的厂商号设备号。 + + ```sh + # lspci | grep Ether + 05:00.0 Ethernet controller: Device 19e5:1822 (rev 45) + 07:00.0 Ethernet controller: Device 19e5:1822 (rev 45) + 09:00.0 Ethernet controller: Device 19e5:1822 (rev 45) + 0b:00.0 Ethernet controller: Device 19e5:1822 (rev 45) + 81:00.0 Ethernet controller: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01) + 81:00.1 Ethernet controller: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01) + ``` + +#### 操作方法 + +请使用root用户按照如下操作步骤配置SR-IOV直通网卡: + +1. 开启网卡的SR-IOV模式。 + 1. 请确保Guest OS有网卡供应商提供的VF驱动支持,否则Guest OS内VF无法正常工作。 + 2. 在host OS的BIOS中开启SMMU/IOMMU的支持。不同厂家服务器的开启方式可能不同,请参考各服务器的帮助文档。 + 3. HOST驱动配置,开启SR-IOV的VF模式。这里以Hi1822网卡为例,开启16个VF。 + + ```sh + echo 16 > /sys/class/net/ethX/device/sriov_numvfs + ``` + +2. 获取PF和VF的PCI BDF信息。 + 1. 获取当前单板上的网卡资源列表,参考命令如下: + + ```sh + # lspci | grep Eth + 03:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family (4*25GE) (rev 45) + 04:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family (4*25GE) (rev 45) + 05:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family (4*25GE) (rev 45) + 06:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family (4*25GE) (rev 45) + 7d:00.0 Ethernet controller: Huawei Technologies Co., Ltd. Device a222 (rev 20) + 7d:00.1 Ethernet controller: Huawei Technologies Co., Ltd. Device a222 (rev 20) + 7d:00.2 Ethernet controller: Huawei Technologies Co., Ltd. Device a221 (rev 20) + 7d:00.3 Ethernet controller: Huawei Technologies Co., Ltd. Device a221 (rev 20) + ``` + + 2. 查看VF的PCI BDF信息,参考命令如下: + + ```sh + # lspci | grep "Virtual Function" + 03:00.1 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.2 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.3 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.4 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.5 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.6 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:00.7 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:01.0 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:01.1 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + 03:01.2 Ethernet controller: Huawei Technologies Co., Ltd. Hi1822 Family Virtual Function (rev 45) + ``` + + 3. 选择一个可用的VF,根据其BDF信息将其配置写入虚拟机的配置文件中。以03:00.1设备为例,对应的bus号是03,slot号是00,function号是1。 + +3. 识别和管理PF/VF对应关系。 + 1. 识别PF对应的VF关系,以PF 03.00.0为例: + + ```sh + # ls -l /sys/bus/pci/devices/0000\:03\:00.0/ + ``` + + 可显示如下的软链接信息,根据信息可以获得其对应的VF编号(virtfnX)和PCI BDF号。 + + 2. 识别VF对应的PF关系,以VF 03:00.1为例: + + ```sh + # ls -l /sys/bus/pci/devices/0000\:03\:00.1/ + ``` + + 可显示下述软链接信息,即可获得其对应PF的PCI BDF号。 + + ```sh + lrwxrwxrwx 1 root root 0 Mar 28 22:44 physfn -> ../0000:03:00.0 + ``` + + 3. 获知PF/VF对应的网卡设备名称,例如: + + ```sh + # ls /sys/bus/pci/devices/0000:03:00.0/net + eth0 + ``` + + 4. 设置VF的mac/vlan/qos信息,确保VF在直通之前处于UP状态。以VF 03:00.1为例,假设PF为eth0,VF编号为0。 + + ```sh + # ip link set eth0 vf 0 mac 90:E2:BA:21:XX:XX # 设置mac地址 + # ifconfig eth0 up + # ip link set eth0 vf 0 rate 100 # 设置VF出口速率,单位Mbps + # ip link show eth0 # 查看mac/vlan/qos信息,确认设置成功 + ``` + +4. 挂载SR-IOV网卡到虚拟机中。 + + 创建虚拟机时,在虚拟机配置文件中增加SR-IOV直通的配置项。 + + ```conf + + + +
+ + + + + + ``` + + **表 2** SR-IOV配置选项说明 + + + + + + + + + + + + + + + + + + + + + + + + +

参数名

+

说明

+

取值

+

hostdev.managed

+

libvirt处理PCI设备的两种模式。

+

no:默认配置,表示直通设备由用户自行管理。

+

yes:表示直通设备由libvirt管理。SR-IOV直通场景需要配置为yes。

+

hostdev.source.address.bus

+

host OS上的PCI设备bus号。

+

>=1

+

hostdev.source.address.slot

+

host OS上的PCI设备device号。

+

>=0

+

hostdev.source.address.function

+

host OS上的PCI设备function号。

+

>=0

+
+ +关闭SR-IOV功能。 +在虚拟机使用完毕后(虚拟机关机,所有的VF均没有在使用中的时候),若要关闭SR-IOV功能。执行操作如下: +这里以Hi1822网卡(eth0对应PF的网口名称)为例: + +```sh +echo 0 > /sys/class/net/eth0/device/sriov_numvfs + ``` + +#### HPRE加速器SR-IOV直通 + +加速器引擎是TaiShan 200服务器基于Kunpeng 920处理器提供的硬件加速解决方案。HPRE加速器用于加速SSL/TLS应用,可以显著降低处理器消耗,提高处理器效率。 +在鲲鹏服务器上,需要把主机Host上的HPRE加速器的VF直通给虚拟机,供虚拟机内部业务使用。 + +**表 3** HPRE加速器说明 + +| 项目 | 说明 | +|-------------|-----------------------------------------------------------------------------------------------------| +| 设备名称 | Hi1620 on-chip RSA/DH security algorithm accelerator (HPRE engine) | +| 功能 | 模幂运算、RSA密钥对运算、DH计算、部分大数辅助运算(模幂、模乘、取模、乘法、模逆、素数测试、互质测试) | +| VendorID | 0x19E5 | +| PF DeviceID | 0xA258 | +| VF DeviceID | 0xA259 | +| 最大VF数量 | 一个HPRE PF最多支持创建63个VF | + +当虚拟机正在使用VF设备时,不允许卸载Host上的驱动,加速器不支持热插拔。 +VF操作(VFNUMS为0表示关闭VF,hpre_num用来标识具体的加速器设备): + +```sh +echo $VFNUMS > /sys/class/uacce/hisi_hpre-$hpre_num/device/sriov_numvfs +``` + +### vDPA直通 + +#### 概述 + +vDPA直通是将host上的一个设备对接到vDPA框架,通过vhost-vdpa驱动对外呈现字符设备,并将该字符设备配置给虚拟机,供虚拟机使用的一种方式。 + +vDPA直通提供了与VFIO直通持平的IO性能,同时提供了virtio设备的灵活性,可以支持vDPA直通设备热迁移。 + +配合SR-IOV方案,vDPA直通可以实现一个物理网卡(PF)虚拟成多个VF网卡,再将VF网卡对接到vDPA框架后,提供给虚拟机使用。 + +#### 操作方法 + +请使用root用户按照如下操作步骤配置vDPA设备直通: + +1. 创建及配置VF设备,详细流程参考SR-IOV直通中的第1-3步,以下述virtio-net设备为例(08:00.6和08:00.7为PF,其余为创建的VF): + + ```shell + # lspci | grep -i Eth | grep Virtio + 08:00.6 Ethernet controller: Virtio: Virtio network device + 08:00.7 Ethernet controller: Virtio: Virtio network device + 08:01.1 Ethernet controller: Virtio: Virtio network device + 08:01.2 Ethernet controller: Virtio: Virtio network device + 08:01.3 Ethernet controller: Virtio: Virtio network device + 08:01.4 Ethernet controller: Virtio: Virtio network device + 08:01.5 Ethernet controller: Virtio: Virtio network device + 08:01.6 Ethernet controller: Virtio: Virtio network device + 08:01.7 Ethernet controller: Virtio: Virtio network device + 08:02.0 Ethernet controller: Virtio: Virtio network device + 08:02.1 Ethernet controller: Virtio: Virtio network device + 08:02.2 Ethernet controller: Virtio: Virtio network device + ``` + +2. 解绑VF驱动,并绑定对应硬件的厂商vdpa驱动。 + + ```shell + echo 0000:08:01.1 > /sys/bus/pci/devices/0000\:08\:01.1/driver/unbind + echo 0000:08:01.2 > /sys/bus/pci/devices/0000\:08\:01.2/driver/unbind + echo 0000:08:01.3 > /sys/bus/pci/devices/0000\:08\:01.3/driver/unbind + echo 0000:08:01.4 > /sys/bus/pci/devices/0000\:08\:01.4/driver/unbind + echo 0000:08:01.5 > /sys/bus/pci/devices/0000\:08\:01.5/driver/unbind + echo -n "1af4 1000" > /sys/bus/pci/drivers/vender_vdpa/new_id + ``` + +3. 绑定vDPA设备后,可以通过vdpa命令查询vdpa管理设备列表。 + + ```shell + # vdpa mgmtdev show + pci/0000:08:01.1: + supported_classes net + pci/0000:08:01.2: + supported_classes net + pci/0000:08:01.3: + supported_classes net + pci/0000:08:01.4: + supported_classes net + pci/0000:08:01.5: + supported_classes net + ``` + +4. 完成vdpa设备的创建后,创建vhost-vDPA设备。 + + ```shell + vdpa dev add name vdpa0 mgmtdev pci/0000:08:01.1 + vdpa dev add name vdpa1 mgmtdev pci/0000:08:01.2 + vdpa dev add name vdpa2 mgmtdev pci/0000:08:01.3 + vdpa dev add name vdpa3 mgmtdev pci/0000:08:01.4 + vdpa dev add name vdpa4 mgmtdev pci/0000:08:01.5 + ``` + +5. 完成vhost-vDPA的设备创建后,可以通过vdpa命令查询vdpa设备列表;也可以通过libvirt命令查询环境的vhost-vDPA设备信息。 + + ```shell + # vdpa dev show + vdpa0: type network mgmtdev pci/0000:08:01.1 vendor_id 6900 max_vqs 3 max_vq_size 256 + vdpa1: type network mgmtdev pci/0000:08:01.2 vendor_id 6900 max_vqs 3 max_vq_size 256 + vdpa2: type network mgmtdev pci/0000:08:01.3 vendor_id 6900 max_vqs 3 max_vq_size 256 + vdpa3: type network mgmtdev pci/0000:08:01.4 vendor_id 6900 max_vqs 3 max_vq_size 256 + vdpa4: type network mgmtdev pci/0000:08:01.5 vendor_id 6900 max_vqs 3 max_vq_size 256 + + # virsh nodedev-list vdpa + vdpa_vdpa0 + vdpa_vdpa1 + vdpa_vdpa2 + vdpa_vdpa3 + vdpa_vdpa4 + + # virsh nodedev-dumpxml vdpa_vdpa0 + + vdpa_vdpa0 + /sys/devices/pci0000:00/0000:00:0c.0/0000:08:01.1/vdpa0 + pci_0000_08_01_1 + + vhost_vdpa + + + /dev/vhost-vdpa-0 + + + ``` + +6. 挂载vDPA设备到虚拟机中。 + + 创建虚拟机时,在虚拟机配置文件中增加vDPA直通设备的配置项: + + ```xml + + + + + + ``` + + **表 4** vDPA配置选项说明 + + + + + + + + + + + + + + + + +
+

参数名

+
+

说明

+
+

取值

+
+

hostdev.source.dev

+
+

host上vhost-vdpa字符设备的路径。

+
+

/dev/vhost-vdpa-x

+
+ + >[!NOTE]说明 + >根据各硬件厂商的设计不同,创建/配置VF、绑定厂商vdpa驱动等流程如有差异,请以各厂商流程为准。 + +## 管理虚拟机USB + +为了方便在虚拟机内部使用USBkey设备、USB海量存储设备等USB设备,openEuler提供了USB设备直通的功能。用户可以通过USB直通和热插拔相关接口给虚拟机配置直通USB设备、或者在虚拟机处于运行的状态下热插/热拔USB设备。 + +### 配置USB控制器 + +#### 概述 + +USB控制器是为虚拟机上的USB设备提供具体USB功能的虚拟控制器设备,在虚拟机内部使用USB设备必须给虚拟机配置USB控制器。当前openEuler支持如下三种USB控制器: + +- UHCI(Universal Host Controller Interface):通用主机控制器接口,也称为USB 1.1主机控制器规范。 +- EHCI(Enhanced Host Controller Interface):增强主机控制器接口,也称为USB 2.0主机控制器规范。 +- xHCI(eXtensible Host Controller Interface):可扩展主机控制器接口,也称为USB 3.0主机控制器规范。 + +#### 注意事项 + +- 主机服务器上需存在支持USB 1.1、USB 2.0和USB 3.0标准的USB控制器硬件和模块。 +- 为虚拟机配置USB控制器时,请按照USB 1.1、USB 2.0到USB 3.0的顺序来配置。 +- 一个xHCI控制器有8个端口,最多可以挂载4个USB 3.0设备和4个USB 2.0设备。一个EHCI控制器有6个端口,最多可以挂载6个USB2.0设备。一个UHCI控制器有2个端口,最多可以挂载2个USB 1.1设备。 +- 每台虚拟机支持配置多种类型的USB控制器,且每种类型可配置多个。 +- 不支持热插拔USB控制器。 +- 若虚拟机没有安装USB 3.0的驱动,可能无法识别xHCI控制器,USB 3.0驱动下载和安装方法请参见对应OS发行商官方说明。 +- 为了不影响操作系统的兼容性,为虚拟机配置USB接口的tablet设备时,请指定USB控制器bus号为0(默认挂载到USB 1.1控制器上)。 + +#### 配置方法 + +这里介绍为虚拟机配置USB控制器的配置内容说明。建议同时配置USB 1.1、USB 2.0和USB 3.0,做到同时兼容三种设备。 + +USB 1.1控制器(UHCI)的XML配置项为: + +```conf + + +``` + +USB 2.0控制器(EHCI)的XML配置为: + +```conf + + +``` + +USB 3.0控制器(xHCI)的XML配置为: + +```conf + + +``` + +### 配置USB直通设备 + +#### 概述 + +当虚拟机配置好USB控制器后,就可以通过设备直通的方式将主机上的物理USB设备挂载到虚拟机内部供虚拟机使用。在虚拟化场景下,除了支持静态配置以外还同时支持USB设备的热插/拔操作,即在虚拟机处于运行状态的时候挂载/卸载USB设备。 + +#### 注意事项 + +- 一个USB设备只能直通给一台虚拟机使用 +- 配置了直通USB设备的虚拟机不支持热迁移 +- 虚拟机配置文件中直通的USB设备不存在时,虚拟机会创建失败 +- 对一个正在读写的USB存储设备进行强制热拔操作有可能会损坏USB设备内的文件 + +#### 配置说明 + +这里介绍为虚拟机配置USB设备的配置内容说明。 + +USB设备的XML描述: + +```conf + + +
+ +
+ +``` + +- \
,其中,m表示该USB设备在主机上的bus地址,n表示device ID编号。 +- \
表示该USB设备要挂载到虚拟机指定的USB控制器。其中x表示控制器ID,与虚拟机所配置的USB控制器index编号相对应,y表示port地址。用户配置直通USB设备的时候需要配置这个字段,确保设备挂载的控制器与预期相符。 + +#### 配置方法 + +配置USB直通的步骤如下: + +1. 为虚拟机配置USB控制器,配置方法请参见“虚拟机配置 > 配置USB控制器”。 +2. 查询主机上的USB设备信息。 + + 通过lsusb命令(需要安装usbutils软件包)查询主机上的USB设备信息,包含bus地址、device地址、设备厂商ID、设备ID和产品描述信息等。例如: + + ```sh + $ lsusb + ``` + + ```sh + Bus 008 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub + Bus 007 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub + Bus 002 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub + Bus 004 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub + Bus 006 Device 002: ID 0bda:0411 Realtek Semiconductor Corp. + Bus 006 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub + Bus 005 Device 003: ID 136b:0003 STEC + Bus 005 Device 002: ID 0bda:5411 Realtek Semiconductor Corp. + Bus 005 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub + Bus 001 Device 003: ID 12d1:0003 Huawei Technologies Co., Ltd. + Bus 001 Device 002: ID 0bda:5411 Realtek Semiconductor Corp. + Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub + Bus 003 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub + ``` + +3. 准备USB设备的XML描述文件,注意在设备热拔之前,请确保USB设备当前不在使用当中,否则可能造成数据丢失。 +4. 执行热插、热拔命令。 + + 假设虚拟机名称为openEulerVM,对应的配置文件为usb.xml。 + + - 热插USB设备,只对当前运行的虚拟机有效,虚拟机冷重启后需要重新配置。 + + ```sh + $ virsh attach-device openEulerVM usb.xml --live + ``` + + - 热插USB设备,持久化该配置,即该虚拟机重启后该设备会自动直通给该虚拟机使用。 + + ```sh + $ virsh attach-device openEulerVM usb.xml --config + ``` + + - 热拔USB设备,只对当前运行的虚拟机有效,持久化配置的USB设备在虚拟机重启后USB设备会自动直通给该虚拟机。 + + ```sh + $ virsh detach-device openEulerVM usb.xml --live + ``` + + - 热拔USB设备,持久化该配置。 + + ```sh + $ virsh detach-device openEulerVM usb.xml --config + ``` + +## 管理快照 + +### 概述 + +虚拟机在使用过程中可能由于病毒对系统的破坏、系统文件被误删除或误格式化等原因造成虚拟机系统损坏导致系统无法启动。为了使损坏的系统快速恢复,openEuler提供了存储快照功能。openEuler可以在用户不感知的情况下制作虚拟机在某一时刻的快照(制作通常只需要几秒钟),该快照能帮助用户将磁盘快速恢复到某一时刻的状态,例如系统损坏后能快速恢复系统,从而提升系统可靠性。 + +>[!NOTE]说明 +>当前存储快照只支持raw、qcow2格式镜像,不支持block块设备。 + +### 操作步骤 + +制作虚拟机存储快照的操作步骤如下: + +1. 登录主机,通过virsh domblklist命令查询虚拟机使用的磁盘。 + + ```sh + $ virsh domblklist openEulerVM + Target Source + --------------------------------------------- + vda /mnt/openEuler-image.qcow2 + ``` + +2. 创建虚拟机磁盘快照_openEuler-snapshot1.qcow2_,命令及回显如下: + + ```sh + $ virsh snapshot-create-as --domain openEulerVM --disk-only --diskspec vda,snapshot=external,file=/mnt/openEuler-snapshot1.qcow2 --atomic + Domain snapshot 1582605802 created + ``` + +3. 磁盘快照查询操作。 + + ```sh + $ virsh snapshot-list openEulerVM + Name Creation Time State + --------------------------------------------------------- + 1582605802 2020-02-25 12:43:22 +0800 disk-snapshot + ``` + +## 配置磁盘IO悬挂 + +### 总体介绍 + +#### 概述 + +存储故障(比如存储断链)场景下,物理磁盘的IO错误,通过虚拟化层传给虚拟机前端,虚拟机内部收到IO错误,可能导致虚拟机内部的用户文件系统变成read-only状态,需要重启虚拟机或者用户手动恢复,这会给用户带来额外的工作量。 + +这种情况下,虚拟化平台提供了一种磁盘IO悬挂的能力,即当存储故障时,虚拟机IO下发到主机侧时将IO悬挂住,在悬挂时间内不对虚拟机内部返回IO错误,这样虚拟机内部的文件系统就不会因为IO错误而变为只读状态,而是呈现为Hang住;同时虚拟机后端按指定的悬挂间隔对IO进行重试。如果存储故障在悬挂时间内恢复正常,悬挂住的IO即可恢复落盘,虚拟机内部文件系统自动恢复运行,不需要重启虚拟机;如果存储故障在悬挂时间内未能恢复正常,则上报错误给虚拟机内部,通知给用户。 + +#### 应用场景 + +使用可能会发生存储面链路断链的云盘作为虚拟磁盘后端的场景。 + +#### 注意事项和约束限制 + +- 磁盘IO悬挂仅支持virtio-blk或virtio-scsi类型的虚拟磁盘。 + +- 磁盘IO悬挂的虚拟磁盘后端一般为可能会发生存储面链路断链的云盘。 + +- 磁盘IO悬挂可对读写IO错误分别使能,同一磁盘的读写IO错误重试间隔和超时时间使用相同配置。 + +- 磁盘IO悬挂重试间隔不包含主机侧实际读写IO的开销,即两次IO重试操作实际间隔会大于配置的IO错误重试间隔。 + +- 磁盘IO悬挂无法区分IO错误的具体类型(如存储断链、扇区坏道、预留冲突等),只要硬件返回IO错误,就会进行悬挂处理。 + +- 磁盘IO悬挂时,虚拟机内部IO不会返回,fdisk等访问磁盘的系统命令会卡住,虚拟机内部依赖该命令返回的业务也会一直卡住。 + +- 磁盘IO悬挂时,IO无法正常落盘,可能会导致虚拟机无法优雅关机,需要强制关机。 + +- 磁盘IO悬挂时,无法读取磁盘数据,会造成虚拟机无法正常重启,需要先将虚拟机强制关机,等待存储故障恢复后再重新启动虚拟机。 + +- 存储故障发生后,虽然存在磁盘IO悬挂,依然解决不了以下问题: + + 1. 存储相关高级特性执行失败 + 高级特性包括:虚拟磁盘热插、虚拟磁盘热拔、创建虚拟磁盘、虚拟机启动、虚拟机关机、虚拟机强制关机、虚拟机休眠、虚拟机唤醒、虚拟机存储热迁移、虚拟机存储热迁移取消、虚拟机创建存储快照、虚拟机存储快照合并、查询虚拟机磁盘容量、磁盘在线扩容、插入虚拟光驱、弹出虚拟机光驱。 + 2. 虚拟机生命周期执行失败 + +- 配置了磁盘IO悬挂的虚拟机发起热迁移时,应该在目的端磁盘的XML配置中带上与源端相同的磁盘IO悬挂配置。 + +### 磁盘IO悬挂配置 + +#### Qemu命令行配置 + +磁盘IO悬挂功能通过在虚拟磁盘设备上指定`werror=retry` `rerror=retry`进行使能,使用`retry_interval`和`retry_timeout`进行重试策略的配置。`retry_interval`为IO错误重试的间隔,配置范围为0-MAX_LONG,单位为毫秒,未配置时使用默认值1000ms;`retry_timeout`为IO错误重试超时时间,配置范围为0-MAX_LONG,0值表示不会发生超时,单位为毫秒,未配置时使用默认值0。 + +virtio-blk磁盘的磁盘IO悬挂配置如下: + +```shell +-drive file=/path/to/your/storage,format=raw,if=none,id=drive-virtio-disk0,cache=none,aio=native \ +-device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x6,\ +drive=drive-virtio-disk0,id=virtio-disk0,write-cache=on,\ +werror=retry,rerror=retry,retry_interval=2000,retry_timeout=10000 +``` + +virtio-scsi磁盘的磁盘IO悬挂配置如下: + +```shell +-drive file=/path/to/your/storage,format=raw,if=none,id=drive-scsi0-0-0-0,cache=none,aio=native \ +-device scsi-hd,bus=scsi0.0,channel=0,scsi-id=0,lun=0,\ +device_id=drive-scsi0-0-0-0,drive=drive-scsi0-0-0-0,id=scsi0-0-0-0,write-cache=on,\ +werror=retry,rerror=retry,retry_interval=2000,retry_timeout=10000 +``` + +#### xml配置方式 + +磁盘IO悬挂功能通过在磁盘xml配置中指定`error_policy='retry'` `rerror_policy='retry'`进行使能。主要是配置上`retry_interval`和`retry_timeout`的值。`retry_interval`为IO错误重试的间隔,配置范围为0-MAX_LONG,单位为毫秒,未配置时使用默认值1000ms;`retry_timeout`为IO错误重试超时时间,配置范围为0-MAX_LONG,0值表示不会发生超时,单位为毫秒,未配置时使用默认值0。 + +virtio-blk磁盘的磁盘IO悬挂xml配置如下: + +```xml + + + + + + +``` + +virtio-scsi磁盘的磁盘IO悬挂xml配置如下: + +```xml + + + + + +
+ +``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/managing_vms.md b/docs/zh/virtualization/virtualization_platform/virtualization/managing_vms.md new file mode 100644 index 0000000000000000000000000000000000000000..ff83d081e0b8cec9df72ba7683ebbdd0e6f704af --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/managing_vms.md @@ -0,0 +1,788 @@ +# 管理虚拟机 + +## 虚拟机生命周期 + +### 总体介绍 + +#### 概述 + +为了更好地利用硬件资源,降低成本,用户需要合理地管理虚拟机。本节介绍虚拟机生命周期过程中的基本操作,包括虚拟机创建、使用、删除等,指导用户更好地管理虚拟机。 + +#### 虚拟机状态 + +虚拟机主要有如下几种状态: + +- 未定义(undefined):虚拟机未定义或未创建,即libvirt认为该虚拟机不存在。 +- 关闭状态(shut off):虚拟机已经被定义但未运行,或者虚拟机被终止。 +- 运行中(running):虚拟机处于运行状态。 +- 暂停(paused):虚拟机运行被挂起,其运行状态被临时保存在内存中,可以恢复到运行状态。 +- 保存(saved):与暂停(paused)状态类似,其运行状态被保存在持久性存储介质中,可以恢复到运行状态。 +- 崩溃(crashed):通常是由于内部错误导致虚拟机崩溃,不可恢复到运行状态。 + +#### 状态转换 + +虚拟机不同状态之间可以相互转换,但必须满足一定规则。虚拟机不同状态之间的转换常用规则如[图1](#fig671014583483)所示。 + +**图 1*- 状态转换图 +![](./figures/status-transition-diagram.png) + +#### 虚拟机标识 + +在libvirt中,完成创建的虚拟机实例称作一个“domain”,其描述了虚拟机的CPU、内存、网络设备、存储设备等各种资源的配置信息。在同一个主机上,每个domain具有唯一标识,通过虚拟机名称Name、UUID、Id表示,对应含义请参见[表1](#table84397266483)。在虚拟机生命周期期间,可以通过虚拟机标识对特定虚拟机进行操作。 + +**表 1*- domain标识说明 + + + + + + + + + + + + + + + + +

标识

+

含义

+

Name

+

虚拟机名称

+

UUID

+

通用唯一识别码

+

Id

+

虚拟机运行标识

+
说明:

关闭状态的虚拟机无此标识。

+
+
+ +>[!NOTE]说明 +>可通过virsh命令查询虚拟机Id和UUID,操作方法请参见[查询虚拟机信息](#查询虚拟机信息)章节内容。 + +### 管理命令 + +#### 概述 + +用户可以使用virsh命令工具管理虚拟机生命周期。本节介绍生命周期相关的命令以指导用户使用。 + +#### 前提条件 + +- 执行虚拟机生命周期操作之前,需要查询虚拟机状态以确定可以执行对应操作。状态之间的基本转换关系请参见"总体介绍"中的"状态转换"的内容。 +- 具备管理员权限。 +- 准备好虚拟机XML配置文件。 + +#### 命令使用说明 + +用户可以使用virsh命令管理虚拟机生命周期,命令格式为: + +```sh +virsh +``` + +各参数含义如下: + +- _operate_:管理虚拟机生命周期对应操作,例如创建、销毁、启动等。 +- _obj_:命令操作对象,如指定需要操作的虚拟机。 +- _options_:命令选项,该参数可选。 + +虚拟机生命周期管理各命令如[表2](#table389518422611)所示。其中VMInstance为虚拟机名称、虚拟机ID或者虚拟机UUID,XMLFile是虚拟机XML配置文件,DumpFile为转储文件,请根据实际情况修改。 + +**表 2*- 虚拟机生命周期管理命令 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

命令

+

含义

+

virsh define <XMLFile>

+

定义持久化虚拟机,定义完成后虚拟机处于关闭状态,虚拟机被看作为一个domain实例

+

virsh create <XMLFile>

+

创建一个临时性虚拟机,创建完成后虚拟机处于运行状态

+

virsh start <VMInstance>

+

启动虚拟机

+

virsh shutdown <VMInstance>

+

关闭虚拟机。启动虚拟机关机流程,若关机失败可使用强制关闭

+

virsh destroy <VMInstance>

+

强制关闭虚拟机

+

virsh reboot <VMInstance>

+

重启虚拟机

+

virsh save <VMInstance> <DumpFile>

+

将虚拟机的运行状态转储到文件中

+

virsh restore <DumpFile>

+

从虚拟机状态转储文件恢复虚拟机

+

virsh suspend <VMInstance>

+

暂停虚拟机的运行,使虚拟机处于paused状态

+

virsh resume <VMInstance>

+

唤醒虚拟机,将处于paused状态的虚拟机恢复到运行状态

+

virsh undefine <VMInstance>

+

销毁持久性虚拟机,虚拟机生命周期完结,不能继续对该虚拟机继续操作

+
+ +### 示例 + +本节给出虚拟机生命周期管理相关命令的示例。 + +- 创建虚拟机 + + 虚拟机XML配置文件为openEulerVM.xml,命令和回显如下: + + ```sh + # virsh define openEulerVM.xml + Domain openEulerVM defined from openEulerVM.xml + ``` + +- 启动虚拟机 + + 启动名称为openEulerVM的虚拟机,命令和回显如下: + + ```sh + # virsh start openEulerVM + Domain openEulerVM started + ``` + +- 重启虚拟机 + + 重启名称为openEulerVM的虚拟机,命令和回显如下: + + ```sh + # virsh reboot openEulerVM + Domain openEulerVM is being rebooted + ``` + +- 关闭虚拟机 + + 关闭名称为openEulerVM的虚拟机,命令和回显如下: + + ```sh + # virsh shutdown openEulerVM + Domain openEulerVM is being shutdown + ``` + +- 销毁虚拟机 + - 若虚拟机启动时未使用nvram文件,销毁虚拟机命令如下: + + ```sh + # virsh undefine + ``` + + - 若虚拟机启动时使用了nvram文件,销毁该虚拟机需要指定nvram的处理策略,命令如下: + + ```sh + # virsh undefine + ``` + + 其中\为销毁虚拟机的策略,可取值: + + nvram:销毁虚拟机的同时删除其对应的nvram文件。 + + keep-nvram:销毁虚拟机,但保留其对应的nvram文件。 + + 例如,删除虚拟机openEulerVM及其nvram文件,命令和回显如下: + + ```sh + # virsh undefine openEulerVM --nvram + Domain openEulerVM has been undefined + ``` + +## 在线修改虚拟机配置 + +### 概述 + +虚拟机创建之后用户可以修改虚拟机的配置信息,称为在线修改虚拟机配置。在线修改配置以后,新的虚拟机配置文件会被持久化,并在虚拟机关闭、重新启动后生效。 + +修改虚拟机配置命令格式如下: + +```sh +virsh edit +``` + +virsh edit命令通过编辑“domain”对应的XML配置文件,完成对虚拟机配置的更新。virsh edit使用vi程序作为默认的编辑器,可以通过修改环境变量“EDITOR”或“VISUAL”指定编辑器类型。virsh edit默认优先使用“VISUAL”环境变量指定的文本编辑器。 + +### 操作步骤 + +1. (可选)设置virsh edit命令的编辑器为vim。 + + ```sh + # export VISUAL=vim + ``` + +2. 使用virsh edit打开虚拟机名称为openEulerVM对应的XML配置文件。 + + ```sh + # virsh edit openEulerVM + ``` + +3. 修改虚拟机配置文件。 +4. 保存虚拟机配置文件并退出。 +5. 关闭虚拟机。 + + ```sh + # virsh shutdown openEulerVM + ``` + +6. 启动虚拟机使配置修改生效。 + + ```sh + # virsh start openEulerVM + ``` + +## 查询虚拟机信息 + +### 概述 + +管理员在管理虚拟机的过程中经常需要知道一些虚拟机信息,libvirt提供了一套命令行工具用于查询虚拟机的相关信息。本章介绍相关命令的使用方法,便于管理员来获取虚拟机的各种信息。 + +#### 前提条件 + +查询虚拟机信息需要: + +- libvirtd服务处于运行状态。 + +- 命令行操作需要拥有管理员权限。 + +### 查询主机上的虚拟机信息 + +- 查询主机上处于运行和暂停状态的虚拟机列表。 + + ```sh + # virsh list + ``` + + 例如,下述回显说明当前主机上存在3台虚拟机,其中openEulerVM01、openEulerVM02处于运行状态,openEulerVM03处于暂停状态。 + + ```text + Id Name State + ---------------------------------------------------- + 39 openEulerVM01 running + 40 openEulerVM02 running + 69 openEulerVM03 paused + ``` + +- 查询主机上已经定义的所有虚拟机信息列表。 + + ```sh + # virsh list --all + ``` + + 例如,下述回显说明当前主机上定义了4台虚拟机,其中虚拟机openEulerVM01处于运行状态,openEulerVM02处于暂停状态,openEulerVM03和openEulerVM04处于关机状态。 + + ```text + Id Name State + ---------------------------------------------------- + 39 openEulerVM01 running + 69 openEulerVM02 paused + - openEulerVM03 shut off + - openEulerVM04 shut off + ``` + +#### 查询虚拟机基本信息 + +Libvirt组件提供了一组查询虚拟机状态信息的命令,包括虚拟机运行状态、设备信息或者调度属性等,使用方法请参见表3。 + +**表 3*- 查询虚拟机基本信息 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

查询的信息内容

+

命令行

+

说明

+

基本信息

+

virsh dominfo <VMInstance>

+

包括虚拟机ID、UUID,虚拟机规格等信息。

+

当前状态

+

virsh domstate <VMInstance>

+

可以使用--reason选项查询虚拟机变为当前状态的原因。

+

调度信息

+

virsh schedinfo <VMInstance>

+

包括vCPU份额信息。

+

vCPU数目

+

virsh vcpucount <VMInstance>

+

查询虚拟机vCPU的个数。

+

虚拟块设备状态

+

virsh domblkstat <VMInstance>

+

查询块设备名称可以使用virsh domblklist命令。

+

虚拟网卡状态

+

virsh domifstat <VMInstance> <interface>

+

查询网卡名称可以使用virsh domiflist命令。

+

I/O线程

+

virsh iothreadinfo <VMInstance>

+

查询虚拟机I/O线程及其CPU亲和性信息

+
+ +#### 示例 + +- 使用virsh dominfo查询一个创建好的虚拟机的基本信息,从查询结果可知,虚拟机ID为5,UUID为ab472210-db8c-4018-9b3e-fc5319a769f7,内存大小为8GiB,vCPU数目为4个等。 + + ```sh + # virsh dominfo openEulerVM + Id: 5 + Name: openEulerVM + UUID: ab472210-db8c-4018-9b3e-fc5319a769f7 + OS Type: hvm + State: running + CPU(s): 4 + CPU time: 6.8s + Max memory: 8388608 KiB + Used memory: 8388608 KiB + Persistent: no + Autostart: disable + Managed save: no + Security model: none + Security DOI: 0 + ``` + +- 使用virsh domstate查询虚拟机的当前状态,从查询结果可知,虚拟机openEulerVM当前处于运行状态。 + + ```sh + # virsh domstate openEulerVM + running + ``` + +- 使用virsh schedinfo查询虚拟机的调度信息,从查询结果可知,虚拟机CPU预留份额为1024。 + + ```sh + # virsh schedinfo openEulerVM + Scheduler : posix + cpu_shares : 1024 + vcpu_period : 100000 + vcpu_quota : -1 + emulator_period: 100000 + emulator_quota : -1 + global_period : 100000 + global_quota : -1 + iothread_period: 100000 + iothread_quota : -1 + ``` + +- 使用virsh vcpucount查询虚拟机的vCPU数目,从查询结果可知,虚拟机有4个CPU。 + + ```sh + # virsh vcpucount openEulerVM + maximum live 4 + current live 4 + ``` + +- 使用virsh domblklist查询虚拟机磁盘设备信息,从查询结果可知,虚拟机有2个磁盘,sda是qcow2格式的虚拟磁盘,sdb是一个cdrom设备。 + + ```sh + # virsh domblklist openEulerVM + Target Source + --------------------------------------------------------------------- + sda /home/openeuler/vm/openEuler_aarch64.qcow2 + sdb /home/openeuler/vm/openEuler-22.03-LTS-SP4-aarch64-dvd.iso + ``` + +- 使用virsh domiflist查询虚拟机网卡信息,从查询结果可知,虚拟机有1张网卡,对应的后端是vnet0在主机br0网桥上,MAC地址为00:05:fe:d4:f1:cc。 + + ```sh + # virsh domiflist openEulerVM + Interface Type Source Model MAC + ------------------------------------------------------- + vnet0 bridge br0 virtio 00:05:fe:d4:f1:cc + ``` + +- 使用virsh iothreadinfo查询虚拟机I/O线程信息,从查询结果可知虚拟机有5个I/O线程,在物理CPU7-10上进行调度。 + + ```sh + # virsh iothreadinfo openEulerVM + IOThread ID CPU Affinity + --------------------------------------------------- + 3 7-10 + 4 7-10 + 5 7-10 + 1 7-10 + 2 7-10 + ``` + +## 登录虚拟机 + +本章介绍使用VNC登录虚拟机的方法。 + +### 使用VNC密码登录 + +#### 概述 + +当虚拟机操作系统安装部署完成之后,用户可以通过VNC协议远程登录虚拟机,从而对虚拟机进行管理操作。 + +#### 前提条件 + +使用RealVNC、TightVNC等客户端登录虚拟机,在登录虚拟机之前需要获取如下信息: + +- 虚拟机所在主机的IP地址。 +- 确保客户端所在的环境可以访问到主机的网络。 +- 虚拟机的VNC侦听端口,该端口一般在客户机启动时自动分配,一般为5900 + x(x为正整数,按照虚拟机启动的顺序递增,且5900对用户不可见)。 +- 如果VNC设置了密码,还需要获取虚拟机的VNC密码。 + + >[!NOTE]说明 + >为虚拟机VNC配置密码,需要编辑虚拟机XML配置文件,即为graphics元素新增一个passwd属性,属性的值为要配置的密码。例如,将虚拟机的VNC密码配置为n8VfjbFK的XML配置参考如下: + > + >```conf + > + > + > + >``` + +#### 操作步骤 + +1. 查询虚拟机使用的VNC端口号。例如名称为openEulerVM的虚拟机,命令如下: + + ```sh + # virsh vncdisplay openEulerVM + :3 + ``` + + >[!NOTE]说明 + >登录 VNC 需要配置防火墙规则,允许 VNC 端口的连接。参考命令如下,其中X为数值“5900 + 端口号” ,例如本例中为5903。 + > + >```sh + >firewall-cmd --zone=public --add-port=X/tcp + >``` + +2. 打开VncViewer软件,输入主机IP和端口号。格式为“主机IP:端口号”,例如:“10.133.205.53:3”。 +3. 单击“确定”输入VNC密码(可选),登录到虚拟机VNC进行操作。 + +### 配置VNC-TLS登录 + +#### 概述 + +VNC服务端和客户端默认采用明文方式进行数据传输,因此通信内容可能被第三方截获。为了提升安全性,openEuler支持VNC服务端配置TLS模式进行加密认证。TLS(Transport Layer Security)即传输层安全,可以实现VNC服务端和客户端之间加密通信,从而防止通信内容被第三方截获。 + +>[!NOTE]说明 +> +>- 使用TLS加密认证模式需要VNC客户端支持TLS模式(例如TigerVNC),否则无法连接到VNC客户端。 +>- TLS加密认证模式配置粒度为主机服务器级别,开启该特性后,主机上正在运行的所有虚拟机对应的VNC客户端都将开启TLS加密认证模式。 + +#### 操作步骤 + +VNC开启TLS加密认证模式的操作步骤如下: + +1. 登录VNC服务端所在主机,开启或修改服务端配置文件/etc/libvirt/qemu.conf中对应的配置项。相关配置内容如下所示: + + ```conf + vnc_listen = "x.x.x.x" # "x.x.x.x"为VNC的侦听地址,请用户根据实际配置,VNC服务端只允许该地址或地址段范围内的客户端连接请求 + vnc_tls = 1 # 配置为1,表示开启VNC TLS支持 + vnc_tls_x509_cert_dir = "/etc/pki/libvirt-vnc" #指定证书存放的路径为/etc/pki/libvirt-vnc + vnc_tls_x509_verify = 1 #配置为1,表示TLS认证使用X509证书 + ``` + +2. 为VNC创建证书和私钥文件。此处以GNU TLS为例进行说明。 + + >[!NOTE]说明 + >使用GNU TLS,请提前安装好gnu-utils软件包。 + + 1. 制作证书颁发机构CA(Certificate Authority)的证书文件。 + + ```sh + # certtool --generate-privkey > ca-key.pem + ``` + + 2. 制作自签名的CA证书公私钥。其中Your organization name为机构名,由用户指定。 + + ```sh + # cat > ca.info< server.info< server-key.pem + # certtool --generate-certificate \ + --load-ca-certificate ca-cert.pem \ + --load-ca-privkey ca-key.pem \ + --load-privkey server-key.pem \ + --template server.info \ + --outfile server-cert.pem + ``` + + 上述生成文件,server-key.pem是VNC服务端的私钥,server-cert.pem是VNC服务端的公钥。 + + 4. 为VNC客户端颁发证书。 + + ```sh + # cat > client.info< client-key.pem + # certtool --generate-certificate \ + --load-ca-certificate ca-cert.pem \ + --load-ca-privkey ca-key.pem \ + --load-privkey client-key.pem \ + --template client.info \ + --outfile client-cert.pem + ``` + + 上述生成文件,client-key.pem是VNC客户端的私钥,client-cert.pem是VNC客户端的公钥,生成的公私钥对需要拷贝到VNC客户端。 + +3. 关闭需要被登录的虚拟机,重启VNC服务端所在主机的libvirtd服务。 + + ```sh + # systemctl restart libvirtd + ``` + +4. 将生成的服务端证书放置到VNC服务端指定目录并将证书的权限改为只允许当前用户读写。 + + ```sh + # sudo mkdir -m 750 /etc/pki/libvirt-vnc + # cp ca-cert.pem /etc/pki/libvirt-vnc/ca-cert.pem + # cp server-cert.pem /etc/pki/libvirt-vnc/server-cert.pem + # cp server-key.pem /etc/pki/libvirt-vnc/server-key.pem + # chmod 0600 /etc/pki/libvirt-vnc/* + ``` + +5. 将生成的客户端证书ca-cert.pem,client-cert.pem和client-key.pem拷贝到VNC客户端。配置VNC客户端的TLS证书后即可使用VNC TLS登录。 + + >[!NOTE]说明 + >- VNC客户端证书的配置请参见各客户端对应的使用说明,由用户自行配置。 + >- 登录虚拟机的方式请参见“使用VNC密码登录”。 + +## 虚拟机安全启动 + +### 总体介绍 + +#### 概述 + +安全启动(Secure Boot)就是利用公私钥对启动部件进行签名和验证。启动过程中,前一个部件验证后一个部件的数字签名,验证通过后,运行后一个部件,验证不通过则启动失败。安全启动的作用是检测设备启动阶段固件(Firmware)以及软件是否被篡改,防止恶意软件侵入和修改。通过安全启动可以保证系统启动过程中各个部件的完整性,防止没有经过认证的部件被加载运行,从而防止对系统及用户数据产生安全威胁。安全启动是在UEFI启动方式上实现的,Legacy启动方式不支持安全启动。根据UEFI规定,主板出厂的时候可以内置一些可靠的公钥。任何想要在这块主板上加载的操作系统或者硬件驱动程序,都必须通过这些公钥的认证。物理机上的安全启动由物理BIOS完成,虚拟机的安全启动通过软件模拟。虚拟机安全启动流程与host安全启动流程一致,都遵循开源UEFI规范。虚拟化平台上的UEFI由edk组件提供,虚拟机启动时qemu将UEFI镜像映射到内存中,为虚拟机模拟固件启动流程,安全启动正是虚拟机启动过程中edk提供的一个安全保护能力,用来保护虚拟机OS内核不被篡改。安全启动验签顺序:UEFI BIOS->shim->grub->vmlinuz(依次验签通过并加载)。 + +| 中文 | 英文 | 缩略语 | 中文定义/描述 | +| :-----| :----- | :----- | :----- | +| 安全启动 | Secure boot | Secure boot | 安全启动就是启动过程中,前一个部件验证后一个部件的数字签名,验证通过后,运行后一个部件,验证不通过就停下来。通过安全启动可以保证系统启动过程中各个部件的完整性。 | +| 平台密钥 | Platform key | PK | OEM厂商所有,必须为 RSA 2048 或更强,PK为平台拥有者和平台固件之间建立可信关系。平台拥有者将PK的公钥部分PKpub注册到平台固件中,平台拥有者可以使用PK的私有部分PKpriv来改变平台的拥有权或者注册KEK密钥。 | +| 密钥交换密钥 | Key exchange key | KEK | KEK为平台固件和OS之间创建可信关系。每一个操作系统和与平台固件通信的第三方应用在平台固件中注册KEK密钥的公共部分KEKpub。 | +| 签名数据库 | Database white list | DB | 存储验证shim、grub、vmlinuz等组件的密钥。 | +| 签名吊销数据库 | Database black list | DBx | 存储吊销的密钥。 | + +#### 功能说明 + +本次实现的虚拟机安全启动特性基于edk开源项目。非安全启动模式下,Linux基本流程如下: + +**图 1*- 系统启动流程图 + +![](./figures/OSBootFlow.png) + +安全启动模式下UEFI BIOS启动后加载的首个组件是系统镜像中的shim,shim与UEFI BIOS进行交互获取存储在UEFI BIOS变量db里面的密钥对grub进行验证,加载grub后同样调用密钥和认证接口对kernel进行验证。Linux启动流程如下: + +**图 2*- 安全启动流程图 + +![](./figures/SecureBootFlow.png) + +从整体处理流程上来看,安全启动特性包含多个关键场景,根据场景分析和系统分解,安全启动特性涉及以下几个子系统:UEFI BIOS校验shim,shim校验grub,grub校验kernel。UEFI BIOS对shim进行验证,验证通过则启动shim,不通过则提示错误,无法启动。shim需要在镜像编译制作过程中使用私钥进行签名,公钥证书导入UEFI BIOS变量区DB中。shim启动后验证启动grub,验证通过则启动grub,不通过则提示错误,无法启动。grub需要在镜像编译制作过程中进行签名,使用和shim一样的公私钥对。grub启动后检查调用shim注册在UEFI BIOS的认证接口和密钥对kernel进行验证,通过则启动内核,不通过则提示错误,grub需要在镜像编译制作过程中进行签名,使用和shim一样的公私钥对。 + +#### 约束限制 + +- 在不支持安全启动的UEFI BIOS上运行,对现有功能没有影响,业务无感知。 +- 安全启动特性依赖UEFI BIOS,必须在UEFI支持此功能的条件下才能发挥作用。 +- 在UEFI BIOS开启安全启动的情况下,如果相关部件没有签名或签名不正确,则无法正常启动系统。 +- 在UEFI BIOS关闭安全启动的情况下,启动过程的验证功能都会被关闭。 +- 安全启动验证链后半段,即shim->grub->kernel引导内核启动这部分的验证链由操作系统镜像实现,若操作系统不支持引导内核安全启动过程,则虚拟机安全启动失败。 +- 当前不提供x86架构使用nvram文件配置虚拟机安全启动。 + +### 安全启动实践 + +虚拟机安全启动依赖于UEFI BIOS的实现,UEFI BIOS镜像通过edk rpm包安装,本节以AArch64为例对虚拟机安全启动进行配置。 + +#### 虚拟机配置 + +edk rpm包中的组件安装于/usr/share/edk2/aarch64目录下,包括`QEMU_EFI-pflash.raw`和`vars-template-pflash.raw`。虚拟机启动UEFI BIOS部分xml配置如下: + +```conf + + hvm + /usr/share/edk2/aarch64/QEMU_EFI-pflash.raw + /path/to/QEMU-VARS.fd + +``` + +其中/usr/share/edk2/aarch64/QEMU_EFI-pflash.raw为UEFI BIOS镜像路径。/usr/share/edk2/aarch64/vars-template-pflash.raw为nvram镜像模板路径,/path/to/QEMU-VARS.fd为当前虚拟机nvram镜像文件路径,用于保存UEFI BIOS系统中的环境变量。 + +#### 证书导入 + +虚拟机安全启动时的证书从BIOS界面导入,在证书导入前需要将证书文件导入到虚拟机中。可以通过挂载磁盘的方式将证书文件所在目录挂载到虚拟机中,例如制作包含证书的镜像,并在虚拟机的配置文件xml中配置挂载该镜像: + +制作证书文件镜像 + +```sh +dd of='/path/to/data.img' if='/dev/zero' bs=1M count=64 +mkfs.vfat -I /path/to/data.img +mkdir /path/to/mnt +mount path/to/data.img /path/to/mnt/ +cp -a /path/to/certificates/- /path/to/mnt/ +umount /path/to/mnt/ +``` + +其中,/path/to/certificates/为证书文件所在路径,/path/to/data.img为证书文件镜像所在路径,/path/to/mnt/为镜像挂载路径。 + +在虚拟机xml文件中配置挂载该镜像 + +```conf + + + + + + + + + +``` + +启动虚拟机,导入PK证书,流程如下(KEK证书,DB证书导入方式相同): + +虚拟机启动后,点击F2进入bios界面 + +**图 1*- 进入bios界面 + +![](./figures/CertEnrollP1.png) + +**图 2*- 进入Device Manager + +![](./figures/CertEnrollP2.png) + +**图 3*- 进入Custom Secure Boot Options + +![](./figures/CertEnrollP3.png) + +**图 4*- 进入PK Options + +![](./figures/CertEnrollP4.png) + +**图 5*- Enroll PK + +![](./figures/CertEnrollP5.png) + +在File Explorer界面可以看到很多磁盘目录,其中包括我们通过磁盘挂载的证书文件目录 + +**图 6*- File Explorer + +![](./figures/CertEnrollP6.png) + +在磁盘目录中选择要导入的PK证书 + +**图 7*- 进入证书所在磁盘 + +![](./figures/CertEnrollP7.png) + +**图 8*- 选择Commit Changes and Exit保存导入证书 + +![](./figures/CertEnrollP8.png) + +导入证书后,UEFI BIOS将证书信息以及安全启动属性写入nvram配置文件/path/to/QEMU-VARS.fd中,虚拟机下一次启动时会从/path/to/QEMU-VARS.fd文件中读取相关配置并初始化证书信息以及安全启动属性,自动导入证书并开启安全启动。同样,我们可以将/path/to/QEMU-VARS.fd作为其他相同配置虚拟机的UEFI BIOS启动配置模板文件,通过修改nvram template字段使其他虚拟机启动时自动导入证书并开启安全启动选项,虚拟机xml配置修改如下: + +```conf + + hvm + /usr/share/edk2/aarch64/QEMU_EFI-pflash.raw + + +``` + +#### 安全启动观测 + +正确配置虚拟机并导入PK、KEK、DB证书后,虚拟机将以安全启动的方式运行。可以通过在虚拟机配置文件xml中配置串口日志文件观测虚拟机是否为安全启动,串口日志文件的配置方式如下: + +```conf + + + +``` + +虚拟机加载系统镜像成功后,当串口日志文件中出现"UEFI Secure Boot is enabled"信息时,表明虚拟机当前为安全启动。 diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/skylark.md b/docs/zh/virtualization/virtualization_platform/virtualization/skylark.md new file mode 100644 index 0000000000000000000000000000000000000000..a5272e2571d51d9cc2ea63a9b6fdeaaebb394019 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/skylark.md @@ -0,0 +1,192 @@ +# Skylark + + + +## Skylark概述 + +### 问题背景 + +随着云计算市场规模的快速增长,各云厂商基础设施投入也不断增加。资源利用率低是行业普遍存在的问题,在上述背景下,提升资源利用率已经成为了一个重要的技术课题。本文档介绍 openEuler Skylark 组件,并给出安装方法及使用指导。 + +### 总体介绍 + +将业务区分优先级混合部署(下文简称混部)是典型有效的资源利用率提升手段。业务可根据时延敏感性分为高优先级业务和低优先级业务。当高优先级业务和低优先级业务发生资源竞争时,需优先保障高优先级业务的资源供给。因此,业务混部的核心技术是资源隔离控制,主要涉及内核态基础资源隔离技术及用户态 QoS 控制技术。 + +本文描述的对象为用户态 QoS 控制技术,由 openEuler Skylark 组件承载,首发于 openEuler 22.09 版本。在 Skylark 视角下,优先级粒度为虚拟机级别,即给虚拟机新增高低优先级属性,以虚拟机为粒度进行资源的隔离和控制。Skylark 是一种混部场景下的 QoS 感知的资源调度器,在保障高优先级虚拟机 QoS 前提下提升物理机资源利用率。 + +在实际应用场景中如何更好地利用 Skylark 的高低优先级特性,请参考[最佳实践](#最佳实践)章节。 + +## 架构及特性 + +### 总体实现框架 + +Skylark 核心类为`QoSManager`,类成员包括数据收集类实例、QoS 分析类实例、QoS 控制类实例、以及任务调度类实例: + +- `DataCollector`:数据收集类,有`HostInfo`和`GuestInfo`两个成员,分别用于收集主机信息和虚拟机信息。 +- `PowerAnalyzer`:功耗分析类,用于分析功耗干扰以及需要限制的低优先级虚拟机。 +- `CpuController`:CPU 带宽控制类,用于限制低优先级虚拟机的 CPU 带宽。 +- `CacheMBWController`:LLC 及内存带宽控制类,用于限制低优先级虚拟机的 LLC 和内存带宽。 +- `BackgroundScheduler`:任务调度类,用于周期性驱动以上模块,持续进行 QoS 管理。 + +Skylark 检查主机环境后,创建守护进程。守护进程有两种线程:主调度线程和 Job 线程: + +- 主调度线程是唯一的,首先连接 Libvirt,然后创建并初始化`QosManager`类实例,最后开始驱动 Job 线程。 +- Job 线程可能不止一个,每个 Job 线程负责周期性执行某个 QoS 管理任务。 + +### 功耗干扰控制 + +相比非混部情况,混部后主机利用率更高,高利用率意味着高功耗,服务器功耗在超过 TDP 时会触发 CPU 降频。Skylark 支持当功耗超过预设的 TDP 阈值(即出现 TDP 热点)时,通过对低优先级虚拟机的 CPU 带宽进行限制,以此达到降低整机功耗的同时保障高优先级虚拟机 QoS。 + +Skylark 初始化时,根据[配置Skylark](#配置skylark)中相关配置值,设置功耗干扰控制属性。在每个控制周期,综合分析主机信息和控制属性,判断是否出现 TDP 热点。如果出现热点,进一步根据虚拟机信息分析出需要对哪些低优先级虚拟机进行 CPU 带宽的限制。 + +### LLC/MB干扰控制 + +Skylark 支持对低优先级虚拟机的 LLC 和内存带宽进行限制,当前仅支持静态分配。Skylark 通过操作系统提供的`/sys/fs/resctrl`接口来限制低优先级虚拟机的 LLC 和内存带宽。 + +1. Skylark 在`/sys/fs/resctrl`目录下建立`low_prio_machine`文件夹,并将低优先级虚拟机的 pid 写入`/sys/fs/resctrl/low_prio_machine/tasks`文件中。 +2. Skylark 根据[配置Skylark](#配置skylark)章节中 LLC/MB 相关配置项对低优先级虚拟机的 LLC ways 和内存带宽进行分配,配置项写入`/sys/fs/resctrl/low_prio_machine/schemata`文件中。 + +### CPU干扰控制 + +混部场景下,低优先级虚拟机会对高优先级虚拟机产生 CPU 时间片干扰和 SMT(硬件超线程)干扰。 + +- 当高低优先级虚拟机相关线程在同一个最小 CPU 拓扑单元(core 或 SMT)上同时处于可运行状态时,会竞争 CPU 时间片。 +- 当高低优先级虚拟机相关线程在同一个 CPU core 的不同 SMT 上同时处于可运行状态时,会竞争 SMT 共享的 core 内资源。 + +CPU 干扰控制分为 CPU 时间片干扰控制及 SMT 干扰控制,分别基于内核提供的 `QOS_SCHED` 及 `SMT_EXPELLER` 特性实现。 + +- `QOS_SCHED` 特性实现了单个 CPU core 或 SMT 上高优先级虚拟机对低优先级虚拟机的绝对压制,解决了 CPU 时间片干扰问题。 +- `SMT_EXPELLER` 特性实现了同一个 CPU core 的不同 SMT 上高优先级虚拟机对低优先级虚拟机的绝对压制,解决了 SMT 干扰问题。 + +Skylark 初始化时,会把 Cgroup CPU 子控制器下低优先级虚拟机对应 slice 层级的`cpu.qos_level`字段设置为 -1,以使能上述内核特性,后续就由内核实现对 CPU 相关干扰的控制,Skylark 无需介入。 + +## 安装Skylark + +### 硬件要求 + +处理器架构:仅支持 AArch64 和 Intel x86_64 处理器架构。 + +- Intel 处理器需支持 RDT 功能。 +- AArch64 当前仅支持 Kunpeng920,且需将 BIOS 升级到 1.79 及以上以支持 MPAM 功能。 + +### 软件要求 + +- 依赖 python3、python3-APScheduler、python3-libvirt 等 python 组件。 +- 依赖 systemd 组件,版本 >= 249-32。 +- 依赖 libvirt 组件,版本 >= 1.0.5。 +- 依赖 openEuler 内核,版本 >= 5.10.0。 + +### 安装方法 + +推荐使用 yum 安装 Skylark 组件,因为 yum 会自动处理上述软件依赖: + +```shell +# yum install -y skylark +``` + +检查 Skylark 是否安装成功,若安装成功则会显示 skylarkd 后台服务状态: + +```shell +# systemctl status skylarkd +``` + +设置 Skylark 服务开机自启动(可选): + +```shell +# systemctl enable skylarkd +``` + +## 配置Skylark + +安装好 Skylark 组件后,若默认配置不满足需求,可修改配置文件。Skylark 的配置文件路径为`/etc/sysconfig/skylarkd`,下面对该配置文件包含的配置项作详细说明。 + +### 日志 + +- `LOG_LEVEL`用于设置最小日志级别,类型为字符串。所有可设置的日志级别及其关系为`critical > error > warning > info > debug`。级别小于`LOG_LEVEL`的日志将不会输出到日志文件。日志文件路径为`/var/log/skylark.log`。Skylark 会每 7 天备份一次日志,最多备份 4 次(当次数超限时,会删除最旧的日志)。备份的日志路径为`/var/log/skylark.log.%Y-%m-%d`。 + +### 功耗干扰控制 + +- `POWER_QOS_MANAGEMENT`用于控制是否打开功耗 QoS 管理功能,类型为布尔。当前仅 x86 支持该功能。如果主机上虚拟机的 CPU 利用率能被很好地限制,该功能可选。 + +- `TDP_THRESHOLD`用于控制虚拟机可达到的最大功耗。当主机功耗超过`TDP * TDP_THRESHOLD`时,将判断为出现 TDP 热点,触发功耗控制操作。类型为 float,可接受的输入范围为 0.8-1,默认值为 0.98。 + +- `FREQ_THRESHOLD`用于控制当主机出现 TDP 热点时,CPU 运行的最低频率。类型为 float,可接受的输入范围为 0.9-1,默认值为 0.98。 + 1. 当存在某些 CPU 的频率低于`max_freq * FREQ_THRESHOLD`时,Skylark 会限制在这些 CPU 上运行的低优先级虚拟机的 CPU 带宽。 + 2. 当找不到这样的 CPU,则 Skylark 也会根据低优先级虚拟机的 CPU 利用率情况,选择性限制某些低优先级虚拟机的 CPU 带宽。 + +- `QUOTA_THRESHOLD`用于控制低优先级虚拟机被限制后所能获得的 CPU 带宽(限制前的 CPU 带宽 * `QUOTA_THRESHOLD`)。类型为 float,可接受的输入范围为 0.8-1,默认值为 0.9。 + +- `ABNORMAL_THRESHOLD`用于控制低优先级虚拟机被限制的周期。类型为 int,可接受的输入范围为 1-5,默认值为 3。 + 1. 在每个功耗控制周期内,如果某个低优先级虚拟机被限制,其剩余被限制周期刷新为`ABNORMAL_THRESHOLD`,否则其剩余被限制周期减 1。 + 2. 当虚拟机的剩余被限制周期等于 0 时,其 CPU 带宽恢复为被限制前的值。 + +### LLC/MB干扰控制 + +Skylark 对 LLC/MB 的干扰控制依赖于硬件使能 RDT/MPAM 功能,Intel x86_64 架构处理器需在内核 cmdline 配置`rdt=cmt,mbmtotal,mbmlocal,l3cat,mba`,Kunpeng920 处理器需在内核 cmdline 配置`mpam=acpi`。 + +- `MIN_LLC_WAYS_LOW_VMS`用于控制低优先级虚拟机可访问的 LLC ways。类型为 int,可接受的输入范围为 1-3,默认值为 2。Skylark 会在初始化时,限制低优先级虚拟机的 LLC ways 为该值。 + +- `MIN_MBW_LOW_VMS`用于控制低优先级虚拟机可访问的内存带宽比例。类型为 float,可接受的输入范围为 0.1~0.2,默认值为 0.1。Skylark 会在初始化时,限制低优先级虚拟机的内存带宽为该值。 + +## 使用Skylark + +### 启动服务 + +初次启动: + +```shell +# systemctl start skylarkd +``` + +重新启动(修改配置文件后需重启): + +```shell +# systemctl restart skylarkd +``` + +### 创建虚拟机 + +Skylark 借助虚拟机 XML 配置文件的`partition`标签标识虚拟机优先级属性。 + +创建低优先级虚拟机,其 XML 需做如下配置: + +```xml + + ... + + /low_prio_machine + + ... + +``` + +创建高优先级虚拟机,其 XML 需做如下配置: + +```xml + + ... + + /high_prio_machine + + ... + +``` + +后续创建虚拟机流程和一般流程无异。 + +### 虚拟机运行 + +Skylark 能感知到虚拟机创建事件,纳管所有高、低优先级虚拟机,并围绕 CPU、功耗、LLC/MB 等资源做自动化 QoS 管理。 + +## 最佳实践 + +### 虚拟机业务推荐 + +- 高优先级虚拟机业务推荐:时延敏感类业务,如 web 服务、高性能数据库、实时渲染、机器学习推理等。 +- 低优先级虚拟机业务推荐:非时延敏感类业务,如视频编码、大数据处理、离线渲染、机器学习训练等。 + +### 虚拟机绑核配置 + +为了让高优先级虚拟机达到最佳性能,推荐高优先级虚拟机 vCPU 与物理 CPU 一对一绑核。为了让低优先级虚拟机充分利用空闲物理资源,推荐低优先级虚拟机 vCPU 范围绑核,且绑核范围覆盖高优先级虚拟机绑核范围。 + +同时为了防止出现因高优先级虚拟机长时间占满 CPU 导致低优先级虚拟机无法被调度的情况,需要预留少量低优先级虚拟机专用的 CPU,该部分 CPU 不可让高优先级虚拟机绑定,且要求让低优先级虚拟机绑定。 diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/system_resource_management.md b/docs/zh/virtualization/virtualization_platform/virtualization/system_resource_management.md new file mode 100644 index 0000000000000000000000000000000000000000..7aa8b35e1c5de297c37219e92d90a35340b185e2 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/system_resource_management.md @@ -0,0 +1,454 @@ +# 管理系统资源 + +## 总体说明 + +openEuler 虚拟化使用libvirt命令来管理虚拟机的系统资源,如vCPU、虚拟内存资源等。 + +在开始前: + +- 确保主机上运行了libvirtd守护进程。 +- 用virsh list --all命令确认虚拟机已经被定义。 + +## 管理虚拟CPU + +### CPU份额 + +#### 概述 + +虚拟化环境下,同一主机上的多个虚拟机竞争使用物理CPU。为了防止某些虚拟机占用过多的物理CPU资源,影响相同主机上其他虚拟机的性能,需要平衡虚拟机vCPU的调度,避免物理CPU的过度竞争。 + +CPU份额表示一个虚拟机竞争物理CPU计算资源的能力大小总和。用户通过调整cpu\_shares值能够设置虚拟机抢占物理CPU资源的能力。cpu\_shares值无单位,是一个相对值。虚拟机获得的CPU计算资源,是与其他虚拟机的CPU份额,按相对比例,瓜分物理CPU除预留外可用计算资源。通过调整CPU份额来保证虚拟机CPU计算资源服务质量。 + +#### 操作步骤 + +通过修改分配给虚拟机的运行时间的cpu\_shares值,来平衡vCPU之间的调度。 + +- 查看虚拟机的当前CPU份额: + + ```sh + $ virsh schedinfo + Scheduler : posix + cpu_shares : 1024 + vcpu_period : 100000 + vcpu_quota : -1 + emulator_period: 100000 + emulator_quota : -1 + global_period : 100000 + global_quota : -1 + iothread_period: 100000 + iothread_quota : -1 + ``` + +- 在线修改:修改处于running状态的虚拟机的当前CPU份额,使用带 **--live** 参数的virsh schedinfo命令: + + ```sh + $ virsh schedinfo --live cpu_shares= + ``` + + 比如将正在运行的虚拟机openEulerVM的CPU份额从1024改为2048: + + ```sh + $ virsh schedinfo openEulerVM --live cpu_shares=2048 + Scheduler : posix + cpu_shares : 2048 + vcpu_period : 100000 + vcpu_quota : -1 + emulator_period: 100000 + emulator_quota : -1 + global_period : 100000 + global_quota : -1 + iothread_period: 100000 + iothread_quota : -1 + ``` + + 对cpu\_shares值的修改立即生效,虚拟机openEulerVM能得到的运行时间将是原来的2倍。但是这一修改将在虚拟机关机并重新启动后失效。 + +- 持久化修改:在libvirt内部配置中修改虚拟机的CPU份额,使用带 **--config** 参数的virsh schedinfo命令: + + ```sh + $ virsh schedinfo --config cpu_shares= + ``` + + 比如将虚拟机openEulerVM的CPU份额从1024改为2048: + + ```sh + $ virsh schedinfo openEulerVM --config cpu_shares=2048 + Scheduler : posix + cpu_shares : 2048 + vcpu_period : 0 + vcpu_quota : 0 + emulator_period: 0 + emulator_quota : 0 + global_period : 0 + global_quota : 0 + iothread_period: 0 + iothread_quota : 0 + ``` + + 对cpu\_shares值的修改不会立即生效,在虚拟机openEulerVM下一次启动后才生效,并持久生效。虚拟机openEulerVM能得到的运行时间将是原来的2倍。 + +### 绑定QEMU进程至物理CPU + +#### 概述 + +QEMU主进程绑定特性是将QEMU主进程绑定到特定的物理CPU范围内,从而保证了运行不同业务的虚拟机不会干扰到邻位虚拟机。例如在一个典型的云计算场景中,一台物理机上会运行多台虚拟机,而每台虚拟机的业务不同,造成了不同程度的资源占用,为了避免存储IO密集的虚拟机对邻位虚拟机的干扰,需要将不同虚拟机处理IO的存储进程完全隔离,由于QEMU主进程是处理前后端的主要服务进程,故需要实现隔离。 + +#### 操作步骤 + +通过virsh emulatorpin命令可以绑定QEMU主进程到物理CPU。 + +- 查看QEMU进程当前绑定的物理CPU范围: + + ```sh + $ virsh emulatorpin openEulerVM + emulator: CPU Affinity + ---------------------------------- + *: 0-63 + ``` + + 这说明虚拟机openEulerVM对应的QEMU主进程可以在主机的所有物理CPU上调度。 + +- 在线绑定:修改处于running状态的虚拟机对应的QEMU进程的绑定关系,使用带 **--live** 参数的virsh emulatorpin命令: + + ```sh + $ virsh emulatorpin openEulerVM --live 2-3 + + $ virsh emulatorpin openEulerVM + emulator: CPU Affinity + ---------------------------------- + *: 2-3 + ``` + + 以上命令把虚拟机openEulerVM对应的QEMU进程绑定到物理CPU2、3上,即限制了QEMU进程只在这两个物理CPU上调度。这一绑定关系的调整立即生效,但在虚拟机关机并重新启动后失效。 + +- 持久化绑定:在libvirt内部配置中修改虚拟机对应的QEMU进程的绑定关系,使用带 **--config** 参数的virsh emulatorpin命令: + + ```sh + $ virsh emulatorpin openEulerVM --config 0-3,^1 + + $ virsh emulatorpin openEulerVM --config + emulator: CPU Affinity + ---------------------------------- + *: 0,2-3 + ``` + + 以上命令把虚拟机openEulerVM对应的QEMU进程绑定到物理CPU0、2、3上,即限制了QEMU进程只在这三个物理CPU上调度。**这一绑定关系的调整不会立即生效,在虚拟机下一次启动后才生效,并持久生效**。 + +### 调整虚拟CPU绑定关系 + +#### 概述 + +把虚拟机的vCPU绑定在物理CPU上,即vCPU只在绑定的物理CPU上调度,在特定场景下达到提升虚拟机性能的目的。比如在NUMA系统中,把vCPU绑定在同一个NUMA节点上,可以避免vCPU跨节点访问内存,避免影响虚拟机运行性能。如果未绑定,默认vCPU可在任何物理CPU上调度。具体的绑定策略由用户来决定。 + +#### 操作步骤 + +通过virsh vcpupin命令可以调整vCPU和物理CPU的绑定关系。 + +- 查看虚拟机的当前vCPU绑定信息: + + ```sh + $ virsh vcpupin openEulerVM + VCPU CPU Affinity + ---------------------- + 0 0-63 + 1 0-63 + 2 0-63 + 3 0-63 + ``` + + 这说明虚拟机openEulerVM的所有vCPU可以在主机的所有物理CPU上调度。 + +- 在线调整:修改处于running状态的虚拟机的当前vCPU绑定关系,使用带 **--live** 参数的virsh vcpupin命令: + + ```sh + $ virsh vcpupin openEulerVM --live 0 2-3 + + $ virsh vcpupin openEulerVM + VCPU CPU Affinity + ---------------------- + 0 2-3 + 1 0-63 + 2 0-63 + 3 0-63 + ``` + + 以上命令把虚拟机openEulerVM的vCPU0绑定到CPU2、3上,即限制了vCPU0只在这两个物理CPU上调度。这一绑定关系的调整立即生效,但在虚拟机关机并重新启动后失效。 + +- 持久化调整:在libvirt内部配置中修改虚拟机的vCPU绑定关系,使用带 **--config** 参数的virsh vcpupin命令: + + ```sh + $ virsh vcpupin openEulerVM --config 0 0-3,^1 + + $ virsh vcpupin openEulerVM --config + VCPU CPU Affinity + ---------------------- + 0 0,2-3 + 1 0-63 + 2 0-63 + 3 0-63 + ``` + + 以上命令把虚拟机openEulerVM的vCPU0绑定到物理CPU0、2、3上,即限制了vCPU0只在这三个物理CPU上调度。**这一绑定关系的调整不会立即生效,在虚拟机下一次启动后才生效,并持久生效**。 + +### CPU热插 + +#### 概述 + +在线增加(热插)虚拟机CPU是指在虚拟机处于运行状态下,为虚拟机热插CPU而不影响虚拟机正常运行的方案。当虚拟机内部业务压力不断增大,会出现所有CPU均处于较高负载的情形。为了不影响虚拟机内的正常业务运行,可以使用CPU热插功能(在不关闭虚拟机情况下增加虚拟机的CPU数目),提升虚拟机的计算能力。 + +#### 约束限制 + +- 如果处理器为AArch64架构,创建虚拟机时指定的虚拟机芯片组类型\(machine\)需为virt-4.1或virt更高版本。如果处理器为x86\_64架构,创建虚拟机时指定的虚拟机芯片组类型\(machine\)需为pc-i440fx-1.5或pc更高版本。 +- 在配置Guest NUMA的场景中,必须把属于同一个socket的vcpu配置在同一vNode中,否则热插CPU后可能导致虚拟机softlockup,进而可能导致虚拟机panic。 +- 虚拟机在迁移、休眠唤醒、快照过程中均不支持CPU热插。 +- 虚拟机CPU热插是否自动上线取决于虚拟机操作系统自身逻辑,虚拟化层不保证热插CPU自动上线。 +- CPU热插同时受限于Hypervisor和GuestOS支持的最大CPU数目。 +- 虚拟机启动、关闭、重启过程中可能出现热插CPU失效的情况,但再次重启会生效。 +- 热插虚拟机CPU的时候,如果新增CPU数目不是虚拟机CPU拓扑配置项中Cores的整数倍,可能会导致虚拟机内部看到的CPU拓扑是混乱的,建议每次新增的CPU数目为Cores的整数倍。 +- 若需要热插CPU在线生效且在虚拟机重启后仍有效,virsh setvcpus接口中需要同时传入--config和--live选项, 将热插CPU动作持久化。 + +#### 操作步骤 + +**一、配置虚拟机XML** + +1. 使用CPU热插功能,需要在创建虚拟机时配置虚拟机当前的CPU数目、虚拟机所支持的最大CPU数目,以及虚拟机芯片组类型(对于AArch64架构,需为virt-4.1及以上版本。对于x86\_64架构,需为pc-i440fx-1.5及以上版本)。这里以AArch64架构虚拟机为例,配置模板如下: + + ```conf + + ... + n + + hvm + + ... + + ``` + + >[!NOTE]说明 + >- placement的值必须是static。 + >- m为虚拟机当前CPU数目,即虚拟机启动后默认的CPU数目。n为虚拟机支持热插到的最大CPU数目,该值不能超过Hypervisor支持的虚拟机最大CPU规格及GuestOS支持的最大CPU规格。n大于或等于m。 + + 例如,配一个虚拟机当前CPU数目为4,最大支持的热插CPU上限为64的XML配置为: + + ```conf + + …… + 64 + + hvm + + …… + ``` + +**二、热插并上线CPU** + +1. 如果热插CPU后需要自动上线热插的CPU,可以使用root权限在虚拟机内部创建udev rules文件/etc/udev/rules.d/99-hotplug-cpu.rules,并在其中定义udev规则,内容参考如下: + + ```sh + # automatically online hot-plugged cpu + ACTION=="add", SUBSYSTEM=="cpu", ATTR{online}="1" + ``` + + >[!NOTE]说明 + >如果没有使用udev rules自动上线热插CPU,可以在热插CPU后,使用root权限,参考如下命令手动上线: + > + >```sh + >for i in `grep -l 0 /sys/devices/system/cpu/cpu*/online` + >do + > echo 1 > $i + >done + >``` + +2. 利用virsh工具进行虚拟机CPU热插操作。例如给虚拟机openEulerVM热插CPU到6,且在线生效的参考命令如下: + + ```sh + virsh setvcpus openEulerVM 6 --live + ``` + + >[!NOTE]说明 + >virsh setvcpus 进行虚拟机CPU热插操作的格式如下: + > + >```sh + >virsh setvcpus [--config] [--live] + > + >```sh + >- domain: 参数,必填。指定虚拟机名称。 + >- count: 参数,必填。指定目标CPU数目,即热插后虚拟机CPU数目。 + >- --config: 选项,选填。虚拟机下次启动时仍有效。 + >- --live: 选项,选填。在线生效。 + +## 管理虚拟内存 + +### NUMA简介 + +传统的多核运算使用SMP(Symmetric Multi-Processor)模式:将多个处理器与一个集中的存储器和I/O总线相连。所有处理器只能访问同一个物理存储器,因此SMP系统也被称为一致存储器访问(UMA)系统。一致性指无论在什么时候,处理器只能为内存的每个数据保持或共享唯一一个数值。很显然,SMP的缺点是可伸缩性有限,因为在存储器和I/O接口达到饱和的时候,增加处理器并不能获得更高的性能。 + +NUMA(Non Uniform Memory Access Architecture) 模式是一种分布式存储器访问方式,处理器可以同时访问不同的存储器地址,大幅度提高并行性。 NUMA模式下,处理器被划分成多个“节点”(NODE), 每个节点分配一块本地存储器空间。所有节点中的处理器都可以访问全部的物理存储器,但是访问本节点内的存储器所需要的时间,比访问某些远程节点内的存储器所花的时间要少得多。 + +### 配置Host-NUMA + +为提升虚拟机性能,在虚拟机启动前,用户可以通过虚拟机XML配置文件为虚拟机指定主机的NUMA节点,使虚拟机内存分配在指定的NUMA节点上。本特性一般与vCPU绑定一起使用,从而避免vCPU远端访问内存。 + +#### 操作步骤 + +- 查看host的NUMA拓扑结构: + + ```sh + $ numactl -H + available: 4 nodes (0-3) + node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 + node 0 size: 31571 MB + node 0 free: 17095 MB + node 1 cpus: 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 + node 1 size: 32190 MB + node 1 free: 28057 MB + node 2 cpus: 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 + node 2 size: 32190 MB + node 2 free: 10562 MB + node 3 cpus: 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 + node 3 size: 32188 MB + node 3 free: 272 MB + node distances: + node 0 1 2 3 + 0: 10 15 20 20 + 1: 15 10 20 20 + 2: 20 20 10 15 + 3: 20 20 15 10 + ``` + +- 在虚拟机XML配置文件中添加numatune字段,创建并启动虚拟机。例如使用主机上的NUMA node 0给虚拟机分配内存,配置参数如下: + + ```conf + + + + ``` + + 假设虚拟机的vCPU也绑定在NODE0的物理CPU上,就可以避免由于vCPU访问远端内存带来的性能下降。 + + >[!NOTE]说明 + >- 分配给虚拟机的内存不要超过该NUMA节点剩余的可用内存,否则可能导致虚拟机启动失败。 + >- 建议虚拟机内存和vCPU都绑定在同一NUMA节点,避免vCPU访问远端内存造成性能下降。例如将上例中vCPU也绑定在NUMA node 0上。 + +### 配置Guest-NUMA + +虚拟机中运行的很多业务软件都针对NUMA架构进行了性能优化,尤其是对于大规格虚拟机,这种优化的作用更明显。openEuler提供了Guest NUMA特性,在虚拟机内部呈现出NUMA拓扑结构。用户可以通过识别这个结构,对业务软件的性能进行优化,从而保证业务更好的运行。 + +配置Guest NUMA时可以指定vNode的内存在HOST上的分配位置,实现内存的分块绑定,同时配合vCPU绑定,使vNode上的vCPU和内存在同一个物理NUMA node上。 + +#### 操作步骤 + +在虚拟机的XML配置文件中,配置了Guest NUMA后,就可以在虚拟机内部查看NUMA拓扑结构。项是Guest NUMA的必配项。 + +```conf + + + + + + + + + + + [...] + + + + + + +``` + +- 项提供虚拟机内部呈现NUMA拓扑功能,“cell id”表示vNode编号,“cpus”表示vCPU编号,“memory”表示对应vNode上的内存大小。 +- 如果希望通过Guest NUMA提供更好的性能,则需要配置,使vCPU和对应的内存分布在同一个物理NUMA NODE上。 + - 中的“cellid”和中的“cell id”是对应的;“mode”可以配置为“strict”(严格从指定node上申请内存,内存不够则失败)、“preferred”(优先从某一node上申请内存,如果不够则从其他node上申请)、“interleave”(从指定的node上交叉申请内存);“nodeset”表示指定物理NUMA NODE。 + - 中需要将同一cell id中的vCPU绑定到与memnode相同的物理NUMA NODE上。 + +### 内存热插 + +#### 概述 + +在虚拟化场景下,虚拟机的内存、CPU、外部设备都是软件模拟呈现的,因此可以在虚拟化底层为虚拟机提供内存在线调整的能力。当前openEuler版本支持在线给虚拟机添加内存,当虚拟机出现物理内存不足又无法关闭虚拟机的时候,可以使用此特性增加虚拟机的物理内存资源。 + +#### 约束限制 + +- 创建虚拟机的时候,AArch64平台上指定的主板类型(machine)需为virt-4.1或更高virt以上,x86平台上指定的主板类型需要为pc-i440fx-1.5以上版本。 +- 内存热插特性依赖于Guest NUMA,虚拟机必须配置Guest NUMA,否则无法完成内存热插流程。 +- 热插内存时候必须指定新增内存所属的Gust NUMA node编号,否则内存热插失败。 +- 虚拟机内核必须支持内存热插能力,否则虚拟机无法识别新增内存或者无法上线内存。 +- 配置使用大页的虚拟机,热插内存的容量必须是系统hugepagesz的整数倍,否则会导致热插失败。 +- 热插内存的大小必须为Guest物理内存块大小block_size_bytes的整数倍,否则无法正常上线。在Guest内部执行lsmem可以获取block_size_bytes大小。 +- 配置n个virtio-net网卡后,最大可热插次数取值为min{max_slot, 64 - n},因为要给网卡预留slot。 +- vhost-user设备和内存热插特性互斥。配置了vhost-user设备的虚拟机不支持内存热插;内存热插后,不支持虚拟机热插vhost-user设备。 +- 如果虚拟机操作系统为Linux系列,请确保初始内存大于等于4GB。 +- 如果虚拟机操作系统为Windows类型,第一次热插内存必须指定到Guest NUMA node0上,否则热插内存无法被虚拟机识别。 +- 在直通场景下,由于需要预先分配内存,因此启动和热插内存都比普通虚拟机要慢(尤其是大规格虚拟机),属于正常现象。 +- 建议虚拟机可用内存与热插内存的比例至少为1:32,即热插32G内存虚拟机至少需要有1G可用内存,如果低于该比例可能会导致虚拟机卡死。 +- 热插内存是否自动上线取决于虚拟机操作系统自身逻辑,可以手动上线或者配置udev规则自动上线。 + +#### 操作步骤 + +**一、配置虚拟机XML** + +1. 使用内存热插功能,需要在创建虚拟机时配置可热插内存的最大范围、预留槽位号,并配置Guest NUMA拓扑结构。 + + 例如,为虚拟机配置32GiB初始内存,预留256个槽位号,最大支持1TiB内存上限,2个NUMA node的配置为: + + ```conf + + 32 + 1024 + + + + + + + + .... + ``` + +>[!NOTE]说明 +>其中: +>maxMemory字段中slots号表示预留的内存插槽,最大取值为256。 +>maxMemory表示虚拟机支持的最大物理内存上限。 +>Guest NUMA配置请参见“配置Guest NUMA”相关章节。 + +**二、热插并上线内存** + +1. 如果热插内存后需要自动上线热插的内存,可以使用root权限在虚拟机内部创建udev rules文件/etc/udev/rules.d/99-hotplug-memory.rules,并在其中定义udev规则,内容参考如下: + + ```sh + # automatically online hot-plugged memory + ACTION=="add", SUBSYSTEM=="memory", ATTR{state}="online" + ``` + +2. 根据需要热插的内存大小和虚拟机Guest NUMA Node创建内存描述xml文件。 + + 例如,热插1GiB内存到NUMA node0上: + + ```conf + + + 1024 + 0 + + + ``` + +3. 使用virsh attach-device命令为虚拟机热插内存。其中openEulerVM为虚拟机名称,memory.xml为热插内存的描述文件,--live表示热插内存在线生效,也可以使用--config 将热插内存持久化到虚拟机xml文件中。 + + ```conf + # virsh attach-device openEulerVM memory.xml --live + ``` + + >[!NOTE]说明 + >如果没有使用udev rules自动上线热插内存,也可以使用root权限,参考如下命令手动上线: + > + >```sh + >for i in `grep -l offline /sys/devices/system/memory/memory*/state` + >do + > echo online > $i + >done + >``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/tool_guide.md b/docs/zh/virtualization/virtualization_platform/virtualization/tool_guide.md new file mode 100644 index 0000000000000000000000000000000000000000..1260d88fcd6593e04b4fc99d460b8b72d72ed9de --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/tool_guide.md @@ -0,0 +1,3 @@ +# 工具使用指南 + +为了方便用户更好地使用虚拟化,openEuler 提供了一系列工具,包括 vmtop、LibcarePlus 等。本章介绍这些工具的安装和使用指导。 diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/virtualization_installation.md b/docs/zh/virtualization/virtualization_platform/virtualization/virtualization_installation.md new file mode 100644 index 0000000000000000000000000000000000000000..488c89d182fc0ec50e16085c5729a1051605a7d5 --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/virtualization_installation.md @@ -0,0 +1,137 @@ +# 安装虚拟化组件 + +本章介绍在openEuler中安装虚拟化组件的方法。 + +## 最低硬件要求 + +在openEuler系统中安装虚拟化组件,最低硬件要求: + +- AArch64处理器架构:ARMv8以上并且支持虚拟化扩展 +- x86\_64处理器架构:支持VT-x +- 2核CPU +- 4GB的内存 +- 16GB可用磁盘空间 + +## 安装虚拟化核心组件 + +### 安装方法 + +#### 前提条件 + +- 已经配置yum源。配置方式请参见《openEuler 22.03 LTS SP4 管理员指南》。 +- 安装操作需要root用户权限。 + +#### 安装步骤 + +1. 安装QEMU组件。 + + ``` shell + # yum install -y qemu + ``` + +2. 安装libvirt组件。 + + ``` shell + # yum install -y libvirt + ``` + +3. 启动libvirtd服务。 + + ``` shell + # systemctl start libvirtd + ``` + +>[!NOTE]说明 +>KVM模块已经集成在openEuler内核中,因此不需要单独安装。 + +### 验证安装是否成功 + +1. 查看内核是否支持KVM虚拟化,即查看/dev/kvm和/sys/module/kvm文件是否存在,命令和回显如下: + + ```shell + $ ls /dev/kvm + /dev/kvm + ``` + + ```shell + $ ls /sys/module/kvm + parameters uevent + ``` + + 若上述文件存在,说明内核支持KVM虚拟化。若上述文件不存在,则说明系统内核编译时未开启KVM虚拟化,需要更换支持KVM虚拟化的Linux内核。 + +2. 确认QEMU是否安装成功。若安装成功则可以看到QEMU软件包信息,命令和回显如下: + + ``` shell + $ rpm -qi qemu + Name : qemu + Epoch : 10 + Version : 6.2.0 + Release : 76.oe2203SP4 + Architecture: aarch64 + Install Date: Tue 15 Aug 2023 09:04:47 PM CST + Group : Unspecified + Size : 26733299 + License : GPLv2 and BSD and MIT and CC-BY-SA-4.0 + Signature : RSA/SHA256, Tue 01 Aug 2023 09:28:19 PM CST, Key ID 007fb747fb37bc6f + Source RPM : qemu-6.2.0-76.oe2203SP4.src.rpm + Build Date : Tue 01 Aug 2023 09:24:00 PM CST + Build Host : localhost + Relocations : (not relocatable) + URL : http://www.qemu.org + Summary : QEMU is a generic and open source machine emulator and virtualizer + Description : + QEMU is a generic and open source processor emulator which achieves a good + emulation speed by using dynamic translation. QEMU has two operating modes: + + * Full system emulation. In this mode, QEMU emulates a full system (for + example a PC), including a processor and various peripherals. It can be + used to launch different Operating Systems without rebooting the PC or + to debug system code. + * User mode emulation. In this mode, QEMU can launch Linux processes compiled + for one CPU on another CPU. + + As QEMU requires no host kernel patches to run, it is safe and easy to use. + ``` + +3. 确认libvirt是否安装成功。若安装成功则可以看到libvirt软件包信息,命令和回显如下: + + ``` shell + $ rpm -qi libvirt + Name : libvirt + Version : 6.2.0 + Release : 57.oe2203SP4 + Architecture: aarch64 + Install Date: Tue 30 Jul 2023 04:56:21 PM CST + Group : Unspecified + Size : 0 + License : LGPLv2+ + Signature : RSA/SHA256, Tue 01 Aug 2023 09:28:19 PM CST, Key ID 007fb747fb37bc6f + Source RPM : libvirt-6.2.0-57.oe2203SP4.src.rpm + Build Date : Tue 01 Aug 2023 09:24:00 PM CST + Build Host : 71e8c1ce149f + Relocations : (not relocatable) + URL : https://libvirt.org/ + Summary : Library providing a simple virtualization API + Description : + Libvirt is a C toolkit to interact with the virtualization capabilities + of recent versions of Linux (and other OSes). The main package includes + the libvirtd server exporting the virtualization support. + ``` + +4. 查看libvirt服务是否启动成功。若服务处于“active”状态,说明服务启动成功,可以正常使用libvirt提供的virsh命令行工具,命令和回显如下: + + ``` shell + $ systemctl status libvirtd + ● libvirtd.service - Virtualization daemon + Loaded: loaded (/usr/lib/systemd/system/libvirtd.service; enabled; vendor preset: enabled) + Active: active (running) since Tue 2019-08-06 09:36:01 CST; 5h 12min ago + Docs: man:libvirtd(8) + https://libvirt.org + Main PID: 40754 (libvirtd) + Tasks: 20 (limit: 32768) + Memory: 198.6M + CGroup: /system.slice/libvirtd.service + ─40754 /usr/sbin/libvirtd + + ``` diff --git a/docs/zh/virtualization/virtualization_platform/virtualization/vm_configuration.md b/docs/zh/virtualization/virtualization_platform/virtualization/vm_configuration.md new file mode 100644 index 0000000000000000000000000000000000000000..171ca4041eec7faceb3265f6334afdd535450fba --- /dev/null +++ b/docs/zh/virtualization/virtualization_platform/virtualization/vm_configuration.md @@ -0,0 +1,904 @@ +# 虚拟机配置 + +## 总体介绍 + +### 概述 + +Libvirt工具采用XML格式的文件描述一个虚拟机特征,包括虚拟机名称、CPU、内存、磁盘、网卡、鼠标、键盘等信息。用户可以通过修改配置文件,对虚拟机进行管理。本章介绍XML配置文件各个元素的含义,指导用户完成虚拟机配置。 + +### 基本格式 + +虚拟机XML配置文件以domain为根元素,domain根元素中包含多个其他元素。XML配置文件中的部分元素可以包含对应属性和属性值,用以详细地描述虚拟机信息,同一元素的不同属性使用空格分开。 + +XML配置文件的基本格式如下,其中label代表具体标签名,attribute代表属性,value代表属性值,需要根据实际情况修改。 + +```xml + + VMName + 8 + 4 + + + + + +``` + +### 配置流程 + +1. 创建一个根元素为domain的XML配置文件。 +2. 使用标签name,根据命名规则指定唯一的虚拟机名称。 +3. 配置虚拟CPU和虚拟内存等系统资源。 +4. 配置虚拟设备。 + 1. 配置存储设备。 + 2. 配置网络设备。 + 3. 配置外部总线结构。 + 4. 配置鼠标等外部设备。 + +5. 保存XML配置文件。 + +## 虚拟机描述 + +### 概述 + +本节介绍虚拟机domain根元素和虚拟机名称的配置。 + +### 元素介绍 + +- domain:虚拟机XML配置文件的根元素,用于配置运行此虚拟机的hypervisor的类型。 + + 属性type:虚拟化中domain的类型。openEuler虚拟化中属性值为kvm。 + +- name:虚拟机名称。 + + 虚拟机名称为一个字符串,同一个主机上的虚拟机名称不能重复,虚拟机名称必须由数字、字母、“\_”、“-”、“:”组成,但不支持全数字的字符串,且虚拟机名称不超过64个字符。 + +### 配置示例 + +例如,虚拟机名称为openEuler的配置如下: + +```xml + + openEuler + ... + +``` + +## 虚拟CPU和虚拟内存 + +### 概述 + +本节介绍虚拟CPU和虚拟内存的常用配置。 + +### 元素介绍 + +- vcpu:虚拟处理器的个数。 +- memory:虚拟内存的大小。 + + 属性unit:指定内存单位,属性值支持KiB(210 字节),MiB(220 字节),GiB(230 字节),TiB(240 字节)等。 + +- cpu:虚拟处理器模式。 + + 属性mode:表示虚拟CPU的模式。 + + - host-passthrough:表示虚拟CPU的架构和特性与主机保持一致。 + + - custom:表示虚拟CPU的架构和特性由此cpu元素控制。 + + 子元素topology:元素cpu的子元素,用于描述虚拟CPU模式的拓扑结构。 + + - 子元素topology的属性socket、cores、threads分别描述了虚拟机具有多少个cpu socket,每个cpu socket中包含多少个处理核心(core),每个处理器核心具有多少个超线程(threads),属性值为正整数且三者的乘积等于虚拟CPU的个数。 + - ARM架构支持虚拟超线程, 虚拟CPU热插与虚拟超线程功能互斥。 + + 子元素model:元素cpu的子元素,当mode为custom时用于描述CPU的模型。 + + 子元素feature:元素cpu的子元素,当mode为custom时用于描述某一特性的使能情况。其中,属性name表示特性的名称,属性policy表示这一特性的使能控制策略: + + - force:表示强制使能该特性,无论主机CPU是否支持该特性。 + + - require:表示使能该特性,当主机CPU不支持该特性并且hypervisor不支持模拟该特性时,创建虚拟机失败。 + + - optional:表示该特性的使能情况与主机上该特性的使能情况保持一致。 + + - disable:禁用该特性。 + + - forbid:禁用该特性,当主机支持该特性时创建虚拟机失败。 + + 子元素cacheinfo:元素cpu的子元素,用于指定cache的大小。 + + - 属性cache:指定缓存的层级和类型,可取值有“l1d”、“l1i”、“l1”、“l2”、“l3”。如l1缓存为指令-数据分离结构,应配置“l1d”和“l1i”,否则配置“l1”。 + + - 属性size:指定缓存的大小,单位为byte。 + +### 配置示例 + +例如,虚拟CPU个数为4,处理模式为host-passthrough,虚拟内存为8GiB,4个CPU分布在两个CPU socket中,且不支持超线程的配置如下: + +```xml + + ... + 4 + 8 + + + +... + +``` + +虚拟内存为8GiB,虚拟CPU个数为4,处理模式为custom,model为Kunpeng-920,且禁用pmull特性的配置如下: + +```xml + + ... + 4 + 8 + + Kunpeng-920 + + + ... + +``` + +虚拟CPU个数为4,处理模式为host-passthrough,虚拟内存为8GiB,l1d、l1i缓存大小为32KiB,l2缓存大小为1MiB,l3缓存大小为48MiB的配置如下: + +```xml + + ... + 4 + 8 + + + + + + + ... + +``` + +## 配置虚拟设备 + +虚拟机XML配置文件使用devices元素配置虚拟设备,包括存储设备、网络设备、总线、鼠标等,本节介绍常用的虚拟设备如何配置。 + +### 存储设备 + +#### 概述 + +XML配置文件可以配置虚拟存储设备信息,包括软盘、磁盘、光盘等存储介质及其存储类型等信息,本节介绍存储设备的配置方法。 + +#### 元素介绍 + +XML配置文件使用disk元素配置存储设备,disk常见的属性如[表1](#table14200183410353)所示,常见子元素及子元素属性如[表2](#table4866134925114)所示。 + +**表 1** 元素disk的常用属性 + + + + + + + + + + + + + + + + + + +

元素

+

属性

+

含义

+

属性值及其含义

+

disk

+

type

+

指定后端存储介质类型

+

block:块设备

+

file:文件设备

+

dir:目录路径

+

network:网络磁盘

+

device

+

指定呈现给虚拟机的存储介质

+

disk:磁盘(默认)

+

floppy:软盘

+

cdrom:光盘

+
+ +**表 2** 元素disk的常用子元素及属性说明 + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

子元素

+

子元素含义

+

属性说明

+

source

+

指定后端存储介质,与disk元素的属性“type”指定类型相对应

+

· file:对应file类型,值为对应文件的完全限定路径。

+

· dev:对应block类型,值为对应主机设备的完全限定路径。

+

· dir:对应dir类型,值为用作磁盘目录的完全限定路径。

+

· protocol:使用的协议。

+

· name:rbd磁盘名称,格式为:$pool/$volume。

+

· host name:mon地址。

+

· port:mon地址的端口。

+ +

driver

+

指定后端驱动的详细信息

+

· type:磁盘格式的类型,常用的有“raw”和“qcow2”,需要与source的格式一致。

+

· io:磁盘IO模式,支持“native”和“threads”选项。

+

· cache:磁盘的cache模式,可选项有“none”、“writethrough”、“writeback”、“directsync”等。

+

· iothread:指定为磁盘分配的IO线程。

+

· error_policy:IO写错误发生时的处理策略,可选项有“stop”、“report”、“ignore”、“enospace"、"retry"等。

+

· rerror_policy:IO读错误发生时的处理策略,可选项有“stop”、“report”、“ignore”、“enospac”、“retry"等。

+

· retry_interval:IO错误重试间隔,范围为0-MAX_INT,单位为毫秒,仅error_policy=“retry”或rerror_policy=“retry”时可配置。

+

· retry_timeout:IO错误重试超时时间,范围为0-MAX_INT,单位为毫秒,仅error_policy=“retry”或rerror_policy=“retry”时可配置。

+

target

+

指磁盘呈现给虚拟机的总线和设备

+

· dev:指定磁盘的逻辑设备名称,如SCSI、SATA、USB类型总线常用命令习惯为sd[a-p],IDE类型设备磁盘常用命名习惯为hd[a-d]。

+

· bus:指定磁盘设备的类型,常见的有“scsi”、“usb”、“sata”、“virtio”等类型。

+

boot

+

表示此磁盘可以作为启动盘使用

+

· order:指定磁盘的启动顺序。

+

readonly

+

表示磁盘具有只读属性,磁盘内容不可以被虚拟机修改,通常与光驱结合使用

+

-

+
+ +#### 配置示例 + +按照“准备虚拟机镜像”操作完成虚拟机镜像准备后,可以使用如下XML配置文件示例,为虚拟机配置虚拟磁盘。 + +例如,该示例为虚拟机配置了两个IO线程,一个块磁盘设备,一个光盘设备和一个rbd磁盘,第一个IO线程分配给块磁盘设备使用。该块磁盘设备的后端介质为qcow2格式,且被作为优先启动盘。 +在使用rbd磁盘前请确保已经安装qemu-block-rbd驱动,如未安装,请在root下使用如下命令进行安装: + +```bash +# yum install qemu-block-rbd +``` + +配置实例: + +```xml + + ... + 2 + + + + + + + + + + + + + + + + + + + + + + ... + + +``` + +### 网络设备 + +#### 概述 + +XML配置文件可以配置虚拟网络设备,包括ethernet模式、bridge模式、vhostuser模式等,本节介绍虚拟网卡设备的配置方法。 + +#### 元素介绍 + +XML配置文件中使用元素“interface”,其属性“type”表示虚拟网卡的模式,可选的值有“ethernet”、“bridge”、“vhostuser”等,下面以“bridge”模式虚拟网卡为例介绍其子元素以及对应的属性。 + +**表 3** bridge模式虚拟网卡常用子元素 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

子元素

+

子元素含义

+

属性及含义

+

mac

+

虚拟网卡的mac地址

+

address:指定mac地址,若不配置,会自动生成。

+

target

+

后端虚拟网卡名

+

dev:创建的后端tap设备的名称。

+

source

+

指定虚拟网卡后端

+

bridge:与bridge模式联合使用,值为网桥名称。

+

boot

+

表示此网卡可以作为远程启动

+

order:指定网卡的启动顺序。

+

model

+

表示虚拟网卡的类型

+

type:bridge模式网卡通常使用virtio。

+

virtualport

+

端口类型

+

type:若使用OVS网桥,需要配置为openvswitch。

+

driver

+

后端驱动类型

+

name:驱动名称,通常取值为vhost。

+

queues:网卡设备队列数。

+
+ +#### 配置示例 + +- 按照“准备虚拟机网络”创建了Linux网桥br0后,配置一个桥接在br0网桥上的virtio类型的虚拟网卡设备,对应的XML配置如下: + + ```xml + + ... + + + + + + ... + + + ``` + +- 按照“准备虚拟机网络”创建了OVS网桥后,配置一个后端使用vhost驱动,且具有四个队列的virtio虚拟网卡设备。 + + ```xml + + ... + + + + + + + + ... + + + ``` + +### 总线配置 + +#### 概述 + +总线是计算机各个部件之间进行信息通信的通道。外部设备需要挂载到对应的总线上,每个设备都会被分配一个唯一地址(由子元素address指定),通过总线网络完成与其他设备或中央处理器的信息交换。常见的设备总线有ISA总线、PCI总线、USB总线、SCSI总线、PCIe总线。 + +PCIe总线是一种典型的树结构,具有比较好的扩展性,总线之间通过控制器关联,这里以PCIe总线为例介绍如何为虚拟机配置总线拓扑。 + +>[!NOTE]说明 +>总线的配置相对比较繁琐,若不需要精确控制设备拓扑结构,可以使用libvirt自动生成的缺省总线配置。 + +#### 元素介绍 + +在libvirt的XML配置中,每个控制器元素(使用controller元素表示)可以表示一个总线,根据虚拟机架构的不同,一个控制器上通常可以挂载一个或多个控制器或设备。这里介绍常用属性和子元素。 + +controller:控制器元素,表示一个总线。 + +- 属性type:控制器必选属性,表示总线类型。常用取值有“pci”、“usb”、“scsi”、“virtio-serial”、“fdc”、“ccid”。 +- 属性index:控制器必选属性,表示控制器的总线“bus”编号(编号从0开始),可以在地址元素“address”元素中使用。 +- 属性model:控制器必选属性,表示控制器的具体型号,其可选择的值与控制器类型“type”的值相关,对应关系及含义请参见[表4](#table191911761111)。 +- 子元素address:为设备或控制器指定其在总线网络中的挂载位置。 + - 属性type:设备地址类型。常用取值有“pci”、“usb”、“drive”。address的type类型不同, 对应的属性也不同,常用type属性值及其该取值下address的属性请参见[表5](#table1200165711314)。 + +- 子元素model:控制器具体型号的名称。 + - 属性name:指定控制器具体型号的名称,和父元素controller中的属性model对应。 + +**表 4** controller属性type常用取值和model取值对应关系 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

type属性值

+

model属性值

+

简介

+

pci

+

pcie-root

+

PCIe根节点,可挂载PCIe设备或控制器

+

pcie-root-port

+

只有一个slot,可以挂载PCIe设备或控制器

+

pcie-to-pci-bridge

+

PCIe转PCI桥控制器,可挂载PCI设备

+

usb

+

ehci

+

USB 2.0控制器,可挂载USB 2.0设备

+

nec-xhci

+

USB 3.0控制器,可挂载USB 3.0设备

+

scsi

+

virtio-scsi

+

virtio类型SCSI控制器,可以挂载块设备,如磁盘,光盘等

+

virtio-serial

+

virtio-serial

+

virtio类型串口控制器,可挂载串口设备,如pty串口

+
+ +**表 5** address元素不同设备类型下的属性说明 + + + + + + + + + + + + + + + + + + + + +

类型type属性值

+

含义

+

对应地址属性

+

pci

+

地址类型为PCI地址,表示该设备在PCI总线网络中的挂载位置。

+

domain:PCI设备的域号

+

bus:PCI设备的bus号

+

slot:PCI设备的device号

+

function:PCI设备的function号

+

multifunction:controller元素可选,是否开启multifunction功能

+

usb

+

地址类型为USB地址,表示该设备在USB总线中的位置。

+

bus:USB设备的bus号

+

port:USB设备的port号

+

drive

+

地址类型存储设备地址,表示所属的磁盘控制器,及其在总线中的位置。

+

controller:指定所属控制器号

+

bus:设备输出的channel号

+

target:存储设备target号

+

unit:存储设备lun号

+
+ +#### 配置示例 + +该示例给出一个PCIe总线的拓扑结构。PCIe根节点(BUS 0)下挂载了三个PCIe-Root-Port控制器。第一个PCIe-Root-Port控制器(BUS 1)开启了multifunction功能,并在其下挂载一个PCIe-to-PCI-bridge控制器,形成了一个PCI总线(BUS 3),该PCI总线上挂载了一个virtio-serial设备和一个USB 2.0控制器。第二个PCIe-Root-Port控制器(BUS 2)下挂载了一个SCSI控制器。第三个PCIe-Root-Port控制器(BUS 0)下无挂载设备。配置内容如下: + +```xml + + ... + + + +
+ + +
+ + + +
+ + +
+ + +
+ + +
+ + +
+ + ... + + +``` + +### 其他常用设备 + +#### 概述 + +除存储设备、网络设备外,XML配置文件中还需要指定一些其他外部设备,本节介绍这些元素的配置方法。 + +#### 元素介绍 + +- serial:串口设备 + + 属性type:用于指定串口类型。常用属性值为pty、tcp、pipe、file。 + +- video:媒体设备 + + 属性type:媒体设备类型。AArch64架构常用属性值为virtio,x86\_64架构通常使用属性值为vga或cirrus。 + + 子元素model:video的子元素,用于指定媒体设备类型。 + + 在model元素中,type属性为vga表示配置VGA类型显卡,vram属性代表显存大小,单位默认为KB。 + + 例如,给x86\_64架构虚拟机配置16MB的VGA类型的显卡,XML示例如下,其中vram属性代表显存大小,单位默认为KB。 + + ```conf + + ``` + +- input:输入设备 + + 属性type:指定输入设备类型。常用属性值为tablet、keyboard,分别表示输入设备为写字板、键盘。 + + 属性bus:指定挂载的总线。常用属性值为USB。 + +- emulator:模拟器应用路径。 +- graphics:图形设备。 + + 属性type:指定图形设备类型。常用属性值为vnc。 + + 属性listen:指定侦听的IP地址。 + +#### 配置示例 + +例如,在下面的示例中,配置了虚拟机的模拟器路径,pty串口、virtio媒体设备、USB写字板、USB键盘以及VNC图形设备。 + +>[!NOTE]说明 +>graphics的type配置为VNC时,建议配置属性passwd,即使用VNC登录时的密码。 + +```xml + + ... + + /usr/libexec/qemu-kvm + + + + + + ... + + +``` + +## 体系架构相关配置 + +### 概述 + +XML中还有一部分体系架构相关的配置,这部分配置包括主板,CPU,一些与体系架构相关的feature,本章节主要介绍它们的配置和含义。 + +### 元素介绍 + +- os:定义虚拟机启动参数。 + + 子元素type:指定虚拟机类型,属性arch表示架构类型,如aarch64,属性machine表示虚拟机的芯片组类型,虚拟机支持的芯片组可以通过 **qemu-kvm -machine ?** 命令查询,如AArch64结构使用“virt”类型。 + + 子元素loader:指定加载固件 ,如配置EDK提供的UEFI文件,属性readonly表示是否是只读文件,值为“yes”或“no”,属性type表示loader的类型,常用的值有“rom”、“pflash”。 + + 子元素nvram:指定nvram文件路径,用于存储UEFI启动配置。 + +- features:hypervisor支持控制一些虚拟机CPU/machine的特性,如高级电源管理接口“acpi”,ARM处理器指定GICv3中断控制器等。 + +### AArch64架构配置示例 + +虚拟机的类型为AArch64结构,使用virt芯片组,利用UEFI启动的虚拟机配置如下: + +```xml + + ... + + hvm + /usr/share/edk2/aarch64/QEMU_EFI-pflash.raw + /var/lib/libvirt/qemu/nvram/openEulerVM.fd + + ... + +``` + +为虚拟机配置ACPI和GIC V3中断控制器特性。 + +```xml + + + + +``` + +### x86\_64架构配置示例 + +x86\_64架构支持BIOS和UEFI两种启动方式,如果不配置loader,则使用默认启动方式BIOS。这里给出启动方式为UEFI、芯片组为q35的配置参考。 + +```xml + + ... + + hvm + /usr/share/edk2/ovmf/OVMF.fd + + ... + +``` + +## 其他常见配置项 + +### 概述 + +除系统资源和虚拟设备外,XML配置文件还需要配置一些其他元素,本节介绍这些元素的配置方法。 + +### 元素介绍 + +- iothreads:指定iothread数量,可以用于加速存储设备性能。 + +- on\_poweroff:虚拟机关闭时采取的动作。 +- on\_reboot:虚拟机重启时采取的动作。 +- on\_crash:虚拟机崩溃时采取的动作。 +- clock:采用的时钟类型。 + + 属性offset:设置虚拟机时钟的同步类型,可选的值有“localtime”、“utc”、“timezone”、“variable”等。 + +### 配置示例 + +为虚拟机配置两个iothread,用于加速存储设备性能。 + +```xml +2 +``` + +虚拟机关闭时,销毁虚拟机。 + +```xml +destroy +``` + +虚拟机重启时,重新启动虚拟机。 + +```xml +restart +``` + +虚拟机崩溃时,重新启动虚拟机。 + +```xml +restart +``` + +时钟采用“utc”的同步方式。 + +```xml + +``` + +## XML配置文件示例 + +### 概述 + +本节给出一个基本的AArch64虚拟机和一个x86\_64虚拟机的XML配置文件示例,供用户参考。 + +### 示例一 + +一个包含基本元素的AArch64架构虚拟机的XML配置文件,其内容示例如下: + +```xml + + openEulerVM + 8 + 4 + + hvm + /usr/share/edk2/aarch64/QEMU_EFI-pflash.raw + /var/lib/libvirt/qemu/nvram/openEulerVM.fd + + + + + + + + + 1 + + destroy + restart + restart + + /usr/libexec/qemu-kvm + + + + + + + + + + + + + + + + + + + + + + + + + + + +``` + +### 示例二 + +一个包含基本元素及总线元素x86\_64架构虚拟机的XML配置文件,其配置示例如下: + +```xml + + openEulerVM + 8388608 + 8388608 + 4 + 1 + + hvm + + + + + + + + + destroy + restart + restart + + /usr/libexec/qemu-kvm + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + +
+ + +
+ + + + + + +