81fdb2e

分支 (25)

标签 (68)

提交

管理

管理

master

msserviceprofiler_dev

br_release_MindStudio_8.1.RC2_TR5_20260624

eco_contri

br_noncom_pangu_ultra_moe_8.1.RC1_POC_20251231

8.0.RC1_ZS2.0_20251230

msmodelslim_refactor

br_noncom_PANGU_8.1.RC2_POC_20251231

feature/auto_tuning

revert-merge-3339-master

pre_research

br_noncom_vLLM_8.1.RC2_POC_20251231

br_noncom_YDJC_8.1.RC2_POC_20251231

br_inspect_MindStudio_8.0.0_ChongMing_20251021

br_release_MindStudio_8.0.RC1_20260324

reboot

br_noncom_MindStudio_8.0.0_POC_20251231

8.0.RC1_20250319

profiler_314

dev

tag_MindStudio_8.2.RC1.B050_001

002-tag_MindStudio_8.2.RC1.B050_001

tag_MindStudio_8.2.RC1.B030_002

tag_MindStudio_8.1.RC1.B120_002

tag_MindStudio_8.2.RC1.B030_001

8.0.0

8.1.0

msit-8.1.0

tag_MindStudio_8.2.RC1.B020_001

tag_MindStudio_8.2.RC1.B010_001

tag_MindStudio_8.1.RC1.B120_001

tag_MindStudio_8.1.RC1.B110_001

tag_MindStudio_8.1.RC1.B100_002_FOR_MINDIE_001

tag_MindStudio_8.1.RC1.B100_001

tag_MindStudio_8.1.RC1.B090_001

tag_MindStudio_8.1.RC1.B080_001

tag_MindStudio_8.1.RC1.B070_001

tag_MindStudio_8.1.RC1.B060_001

tag_MindStudio_8.1.RC1.B050_002_001

tag_MindStudio_8.1.RC1.B050_002

81fdb2e

msit
/
msmodelslim
/
example
/
Qwen2-VL
/
quant_qwen2vl.py

# Copyright Huawei Technologies Co., Ltd. 2025. All rights reserved.
import os
import argparse
import sys
from qwen_vl_utils import process_vision_info
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor, AutoConfig

current_directory = os.path.dirname(os.path.abspath(__file__))
parent_directory = os.path.abspath(os.path.join(current_directory, '..', ".."))
sys.path.append(parent_directory)

from example.common.utils import cmd_bool
from msmodelslim.pytorch.llm_ptq.anti_outlier import AntiOutlierConfig, AntiOutlier
from msmodelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig


CPU = "cpu"
NPU = "npu"


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--model_path', type=str, default='')
    parser.add_argument('--calib_images', type=str, default='./coco_pic')
    parser.add_argument('--save_directory', type=str, default='')
    parser.add_argument('--part_file_size', type=int, default=None)
    parser.add_argument('--w_bit', type=int, default=8)
    parser.add_argument('--a_bit', type=int, default=8)
    parser.add_argument('--device_type', type=str, choices=[CPU, NPU], default=CPU)
    parser.add_argument('--trust_remote_code', type=cmd_bool, default=False)
    args = parser.parse_args()

    # 1.加载模型
    device_map = CPU if args.device_type == CPU else "auto"
    model = Qwen2VLForConditionalGeneration.from_pretrained(args.model_path,
                                                            device_map=device_map,
                                                            trust_remote_code=args.trust_remote_code,
                                                            torch_dtype="auto",
                                                            local_files_only=True).eval()
    config = AutoConfig.from_pretrained(args.model_path,
                                        trust_remote_code=args.trust_remote_code,
                                        local_files_only=True)

    # 2.加载处理器
    processor = AutoProcessor.from_pretrained(args.model_path, local_files_only=True)

    # 3.设置回退层
    disable_names = []
    vision_name = ['visual.merger.mlp.0', 'visual.merger.mlp.2']
    llm_name = []
    for i in range(config.vision_config.depth):
        vision_name.extend([f'visual.blocks.{i}.mlp.fc2'])
    for i in range(config.num_hidden_layers):
        llm_name.extend([f'model.layers.{i}.mlp.down_proj'])
    disable_names.extend(vision_name)
    disable_names.extend(llm_name)

    # 4.加载校准集
    images_list = os.listdir(args.calib_images)
    calib_data = []
    messageList = []
    for i in images_list:
        image_path = os.path.join(args.calib_images, i)
        messages = [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "image": image_path,
                    },
                    {
                        "type": "text",
                        "text": "Please describe this picture in detail."
                    },
                ]
            }
        ]
        text = processor.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
        image_inputs, video_inputs = process_vision_info(messages)
        inputs = processor(
            text=[text],
            images=image_inputs,
            videos=video_inputs,
            padding=True,
            return_tensors='pt'
        ).to(args.device_type)

        calib_data.append([inputs['input_ids'], inputs['attention_mask'],
                           None, None, None, None, None, None, None, None,
                           inputs['pixel_values'], None, inputs['image_grid_thw'], None])

    # 5.异常值抑制
    anti_config = AntiOutlierConfig(
        w_bit=args.w_bit,
        a_bit=args.a_bit,
        anti_method="m2",
        dev_type=args.device_type,
        dev_id=model.device.index,
    )
    anti_outlier = AntiOutlier(model, calib_data=calib_data, cfg=anti_config)
    anti_outlier.process()

    # 6.模型量化
    quant_config = QuantConfig(
        w_bit=args.w_bit,
        a_bit=args.a_bit,
        disable_names=disable_names,
        dev_type=args.device_type,
        dev_id=model.device.index,
        act_method=2,
        mm_tensor=False,
    )
    calibrator = Calibrator(model, quant_config, calib_data=calib_data, disable_level='L0')
    calibrator.run()

    # 7.保存权重
    calibrator.save(args.save_directory, save_type=["safe_tensor"], part_file_size=args.part_file_size)