Document version: V1.0 Release date: 2023-8-31
该项目为K230多模态聊天机器人POC开源工程,本工程基于chatgpt、pytorch融合了文本内容交互、stable diffusion图像生成、Audio LM声音生成等多项技术。能够让用户在K230计算资源上轻松的与chatgpt进行交互,通过与chatgpt聊天实现文本交互、目标图像生成以及目标声音生成。
支持用户在k230小核端正常与chatgpt文字聊天
当用户发送'帮我生成宇航员在埃及骑马'或者’一只可爱的水獭在彩虹漩涡中拿着贝壳,水彩‘等绘画意图命令时,程序会进入绘画模式为用户制作目标图片;
当用户发送’帮我制作一首交响乐,宏伟大气‘或者’帮我生成一段鸭子嘎嘎嘎叫的声音‘等音频生成意图时,程序会进入音频生成模式为用户制作目标音频。
程序会根据用户输入如'帮我生成宇航员在埃及骑马'、’一只可爱的水獭在彩虹漩涡中拿着贝壳,水彩‘或者‘展开想象力,帮我画一幅唐老鸭在宇宙中的画’生成指定的图片:
最终生成的图片会在K230屏幕上显示。
程序会根据用户输入如’帮我制作一首交响乐,宏伟大气‘或者’帮我生成一段鸭子嘎嘎嘎叫的声音‘生成声音,最终生成的声音将会使用K230喇叭输出。
音频提示词示例:
1、’帮我生成一首悲伤的音乐‘
2、’帮我生成一首萨克斯为主的音乐‘
3、‘帮我生成一首以鼓和电子琴为主要乐器的轻快的音乐’
4、’帮我生成一段动感十足的合奏音乐‘
5、‘帮我生成一段鸭子嘎嘎嘎叫声’
6、‘以两岸猿声啼不住,轻舟已过万重山为题创作一段声音’
7、‘生成一首雄伟大气的交响乐’

**注意:**服务端服务ip为运行服务器的本地ip,连接端口默认为8080,如果需要更改的话请在channel/Client_Server/Client_Server_K230.py中的startup函数中进行更改
在k230 docker中进入到/mnt/src/reference/fancy_poc/目录下,
然后执行./build_app.sh,将会在/mnt/src/reference/fancy_poc/k230_bin/目录下生成相应的可执行文件socket_gpt_image_audo和AIOT_GPT.elf
进入到开发板环境后将/dev/mmcblk0p1(linux文件系统)挂载到/sharefs下
在k230开发板的sharefs目录下创建Multimodal_Chat_Robot目录mkdir Multimodal_Chat_Robot
拷贝socket_gpt_image_audo和AIOT_GPT.elf以及src/utils中的run.sh到k230开发板sharefs/Multimodal_Chat_Robot目录下
在Multimodal_Chat_Robot目录下创建临时文件,执行touch received_image.jpg、touch audio.wav、touch param.txt
芯片端所使用的文件具体可参考download.sh 脚本下载的onboard文件夹内容(可以用编译出来的socket_gpt_image_audo和AIOT_GPT.elf替换onboard内容使用)
执行完毕后可以在小核下与chatgpt进行交互
**注意:**使用sh run.sh命令时需要在run.sh中配置相应的通讯端口及ip,如果不想使用sh方式执行,可在终端下执行./socket_gpt_image_audio < port > < ip_address > 例如:./socket_gpt_image_audio 8080 192.168.1.1
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。