项目简介
AI-Vtuber 是一个高自由度、可定制的虚拟主播项目,支持与哔哩哔哩直播间对接,并以智谱API作为语言模型基础。项目的主要功能包括意图识别、长短期记忆、认知库和歌曲作品库的构建,以及语音转换、语音合成、图像生成等功能。项目的特色包括低显卡要求、较大的安装体积、内置Miniconda3管理虚拟环境、基于Streamlit的可视化客户端,以及后端API服务器支持多种服务。
技术实现
- 多种技术集成:项目集成了so-vits-svc4.1(语音转换)、GPT-Sovits(语音合成)、UVR5(人声分离)、fast-whisper(语音识别)、stable-diffusion-webui(图像生成)等多个开源项目。
- 客户端功能:可视化客户端支持环境管理、虚拟主播定制、扩展项目自启动、直播后端监听、图数据库编辑等操作。
- 知识库与认知库:通过图数据库和向量数据库构建AI虚拟主播的人设,并支持短期/长期记忆和情感聊天功能。
- API服务:提供后端API服务器,支持通过get/post请求获取大部分服务。
部署与使用
该项目对本地显卡要求低,适合能够运行stable-diffusion的电脑使用。项目占用空间较大,完整部署后需要约20GB的存储。内置Miniconda3管理虚拟环境,便于扩展第三方模块。
实用工具
项目还提供视频/音频爬虫、语音识别、人声分离、语音合成、AI绘画等多种小工具,极大地丰富了用户的操作体验。
结语
AI-Vtuber 项目展示了当前AI与虚拟主播技术的高度集成性和实用性,适合有相关需求的开发者和创作者使用。如果您对项目的详细实现感兴趣,可以访问项目的GitHub页面或作者的博客,获取更多技术文档和操作指南。
© 版权声明
THE END