WeClone是一款创新性的微信数字分身解决方案,整合了最新的大语言模型与语音合成技术,帮助用户打造高度个性化的微信数字分身。本文将详细介绍WeClone的核心功能、技术原理以及完整使用教程。
WeClone核心技术解析WeClone采用0.5B参数大模型处理微信语音消息,通过LoRA微调方法应用于对话数据训练,实现高达95%的声纹相似度克隆效果。系统三大核心功能包括:
聊天记录驱动的个性模型训练:分析用户历史对话数据,精准捕捉语言风格和表达习惯高保真声纹克隆系统:仅需5秒语音样本即可快速建模,保持原声情感特征微信机器人实时交互框架:支持多设备同步部署,自动处理好友请求和智能回复完整安装教程WeClone建议使用uv作为Python环境管理器,以下是详细安装步骤:
git clone https://github.com/xming521/WeClone.git
cd WeClone
uv venv .venv --python=3.9
source .venv/bin/activate
uv pip install --group main -e .注意:基础安装不包含音频克隆功能(xcodec)的依赖项。
数据准备与处理使用PyWxDump工具提取微信聊天记录是关键的第一步:
解密微信数据库后,导出CSV格式的聊天记录将导出的CSV文件放置在./data/csv目录下运行预处理脚本./make_dataset/csv_to_json.py处理数据项目内置了敏感信息过滤功能,自动去除手机号、身份证号等隐私信息。
模型下载与配置推荐从Hugging Face下载[ChatGLM3模型]()https://huggingface.co/THUDM/chatglm3-6b,若下载困难可使用魔搭社区:
export USE_MODELSCOPE_HUB=1
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git模型微调与训练修改settings.json文件配置训练参数:
调整per_device_train_batch_size控制显存占用设置num_train_epochs等参数优化训练效果单卡训练命令:
python src/train_sft.py多卡训练需要安装deepspeed:
uv pip install deepspeed
deepspeed --num_gpus=使用显卡数量 src/train_sft.py部署数字分身推荐使用AstrBot框架部署微信机器人:
部署AstrBot并配置消息平台启动API服务:python ./src/api_service.py在AstrBot中添加OpenAI类型服务提供商关闭工具调用功能以保证微调效果项目地址:https://github.com/xming521/WeClone