# auto_db_tune

**Repository Path**: dong-lingjing/auto_db_tune

## Basic Information

- **Project Name**: auto_db_tune
- **Description**: codes backup
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-09-11
- **Last Updated**: 2024-12-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 数据库调优

## TPC-DS
### 数据与负载生成

`scrips/` 下有两个脚本，分别用于数据生成（`dgen.sh`）和负载生成（`qgen.sh`）。

Spark数据生成（只用指定一个参数，为生成的数据大小），目前在 `./space/data/spark/dataset/` 下面有1G和100G的数据：
```bash
./scripts/dgen.sh 100
```

负载生成（已经处理好了，直接用 `./space/data/spark/query/spark_support_query_0.sql` 这个就行）
```bash
./scripts/qgen.sh ./space/data/spark/query
```

### 程序入口

`main.py` 这个文件

```bash
conda activate spark-test
python main.py --time 60 --algo gp --maxrun 40 --tasks 3 --scale 100
```

### 文件说明
`constants.py` 为路径配置；

`ds_loader.py` 处理本地 `.dat` 文件的导入处理，创建25个表和相关的列，并创建 Dataframe；

`spark_exec.py` 执行TPC-DS调优，类似SysbenchExecutor；