# Multimodal-Project

**Repository Path**: mstedan/multimodal-project

## Basic Information

- **Project Name**: Multimodal-Project
- **Description**: 全球校园人工智能算法精英大赛全国一等奖
中国大学生计算机设计大赛中南赛区二等奖
基于开源大语言模型的诗词作画生乐系统
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2025-12-31
- **Last Updated**: 2025-12-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 基于“太乙”模型和Musicgen模型的诗词作画生乐系统
本项目获得了全球校园人工智能算法精英大赛全国一等奖和中国大学生计算机设计大赛中南赛区二等奖,该系统基于开源大语言模型"太乙"和"Musicgen"模型，通过修改模型结构，实现了用户输入诗词可对应生成相应意境的图像和音乐。
## 文件夹说明
   admincast-master保存前端代码
   audiocraft-main保存生成音乐模型
   finetune-taiyi-stable-diffusion保存中文文生图模型

## 环境配置
需要服务器的操作系统为Ubuntu20.04，内置CPU为22核，内存90G，包括一张RTX显卡，显存24G。
首先在服务器安装Anaconda和Pytorch，并创建两个虚拟环境：“Taiyi”和“Musicgen”，分别用于训练“太乙”模型和“Musicgen”模型

### 部署“太乙”模型
a.代码下载

- 总模型代码： https://github.com/IDEA-CCNL/Fengshenbang-LM
- 权重文件代码：https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1/tree/main
- 精调代码： https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/finetune_taiyi_stable_diffusion 

b.配置依赖库
按以下命令进行下载

- torch
- torchvision
- transformers>=4.28.0
- diffusers>=0.16.1
- accelerate>=0.19.0


### 部署“Musicgen”模型
a.代码下载

- 总模型代码： https://github.com/facebookresearch/audiocraft 
- 权重文件： https://huggingface.co/facebook/musicgen-melody/tree/main


b.配置依赖库
按以下命令进行下载
```bat
pip install -U audiocraft
apt-get install ffmpeg
```

### 效果展示
#### 主页
![输入图片说明](%E4%B8%BB%E9%A1%B5.png)

#### 诗词作画
用户输入诗词文本，点击提交即可生成对应图片，点击下载可保存图片至本地。

 **改进模型结构** 
将原模型中的Encoder改为Transformer结构，避免出现CNN中图片不够细致的问题，在提升生成图片质量的同时也保证推理时间不会过长。

![输入图片说明](%E6%94%B9%E8%BF%9B%E6%A8%A1%E5%9E%8B%E7%BB%93%E6%9E%84.png)

 **风格迁移前** 
![输入图片说明](%E9%A3%8E%E6%A0%BC%E8%BF%81%E7%A7%BB%E5%89%8D.png)

 **风格迁移后** 
![输入图片说明](%E9%A3%8E%E6%A0%BC%E8%BF%81%E7%A7%BB%E5%90%8E.png)


#### 诗词生乐
用户输入诗词文本，点击提交即可生成对应音乐，点击下载可保存音频至本地。

![输入图片说明](%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE%202024-04-08%20000858.png)

#### 数据可视化
统计了用户输入的各分词频率，该步赋予各分词一定权重作为数据集的输入来达到数据增强的效果。

![输入图片说明](%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96.png)

#### 更多应用
展示了生成的图片的各方面应用场景。

![输入图片说明](%E6%9B%B4%E5%A4%9A%E5%BA%94%E7%94%A8.png)