1709 万字的聊天记录在数据量上完全足以支撑一个数字分身的训练,理论上可以让 AI 学习到您的语言风格、专业术语及思维逻辑。操作上可参考 WeClone 或 Lab4AI 等开源方案,首先导出聊天记录为 JSON 格式,进行隐私清洗和预处理,随后利用本地显卡或云平台算力对大语言模型进行微调。关于零成本,虽然软件开源,但模型训练需要 GPU 算力支持,完全零成本较难实现,建议使用本地现有硬件或寻找提供免费额度的云平台。关键在于数据质量而非单纯数量,需确保经文、哲学等内容的逻辑连贯性,以便模型更好地内化您的世界观。
原来用聊天记录就可以创造数字分身!WeClone 项目在 Lab4AI 平台上的复现
其实通过给大模型喂我们的聊天记录,就可打造出我们的数字分身,当前爆火的 Weclone 项目采取的就是这种做法。先导出自己的聊天记录,再把聊天记录作为数据用来微调大模型,让模型学习我们的语言风格和习惯,就能打造出专属的数字分身。方式一:直接使用 Lab4AI 的数据,体验数字分身 Lab4AI 大模型实验室提供交互式对话,无需微调代码,就可以执行代码块,迅速体验交互过程。您可使用自己的聊天数据解锁数字分身。Lab4AI 大模型实验室已准备好完整的环境、数据、算力支持,只需四步即可打造数字分身:获取聊天记录 –> 环境准备 –> 启动微调 –> 模型推理。Step 1:获取聊天记录 1) 导出聊天记录 在 Telegram 应用中,单击需要导出聊天记录的聊天对象,单击对话框右上角的省略号按钮,在弹出的选项中选择"Export chat history",选择照片类型,格式选择 JSON,可以导出多个联系人 (不建议使用群聊记录)。然后将导出的 ChatExport_* 文件夹放在./dataset/telegram 目录即可 (不同人聊天记录的文件夹一起放在./dataset/telegram)。我们已经提供了数据处理代码,您根据自己的数据情况和训练需求,编辑配置文件,即可生成数据集相关的配置。我们已经准备好了 Conda 环境和项目依赖包。直接运行下方代码块,即可执行微调。在 JupyterLab 内打开一个终端页面用于启动服务。模型的 API 在终端窗口启动后进行聊天问题测试,模型的生成结果会保存在指定路径下。整个流程更加贴合常见的订票人工客服操作标准,可明显观察到 Assistant 学习到了订票客服的画风和话术。(截至 2025 年 11 月 28 日)
🚀从聊天记录打造你的数字分身💡
通过利用大语言模型 (LLM),WeClone 不仅能巧妙地出色地模仿用户在聊天中的风格,还可以通过多种聊天平台实现数字分身的应用。全链路方案:WeClone 涵盖了从聊天数据的导出、预处理、模型训练到部署的全流程。模型微调:用户可以借助微信聊天记录微调 LLM,让大模型能够准确捕捉到“那味儿”。多平台支持:可以将训练好的数字分身绑定到微信、QQ、Telegram、企微、飞书等多个聊天平台上。隐私保护:在整个微调过程中,系统提供了隐私信息过滤机制,确保数据处理能够在用户本地完成,安全可靠。以实现新功能。0.2.0 版本进行了全面重构,数据集目录与脚本路径有了相应的调整,用户需重新安装依赖。安装 CUDA(要求 12.4 及以上)。使用 uv 安装依赖,创建 Python 环境。uv venv .venv --python=3.10uv pip install --group main -e . python -c "import torch; print('CUDA 是否可用:', torch.cuda.is_available());" git lfs installgit clone modelscope.cn/Qwen/Qwen 用户需使用 PyWxDump 提取微信聊天记录。数据预处理则包含对数据的隐私过滤 (如手机号、身份证号等),用户可在 settings.jsonc 中配置需过滤的词汇。⚙️ 配置参数及微调模型(搜索结果收录于 2025 年 5 月 16 日)
一个北京英语老教师的“数字分身”飞书的 AI 教学实践
近日,教育部等五部门联合印发《“人工智能 + 教育”行动计划》,明确提出将人工智能纳入教师资格考试和认证内容,全面推动智能批改、个性化答疑、自适应辅导等教学场景落地,为人工智能与基础教育的深度融合划定了清晰路径。带着这些问题,北京青年报记者走进北京中学,对话初二英语教师赵博鑫,从他亲手搭建的“数字分身”智能体里,找到了"AI+ 教育”落地生根的真实答案。为破解这一痛点,2025 年上学期期末,赵老师在飞书团队支持下,用飞书 aily 搭建了“北中英语赵老师智能体”,这个“数字分身”可 7×24 小时接收作文,严格按照北京中考评分标准打分并给出针对性修改建议。学生不再写完即交,而是根据建议反复修改两三次,直到拿到 9-10 分 (满分 10 分),从“要我写”转变为“我要写”。"AI 不会笑话我,写一句错了就改一句,没有面对老师红笔批改的紧张感,像玩游戏闯关一样,写作文不枯燥了。”节省的时间里,他专注于数据分析与学生关怀。飞书会将每一次交互完整记录并同步到多维表格,形成结构化学情数据。(发布时间是 2026 年 4 月 20 日)
FAQ
聊天记录导出需要什么格式?
通常建议选择 JSON 格式,例如在 Telegram 中选择"Export chat history"时格式选择 JSON,方便后续数据处理和模型微调。
微调模型需要多少成本?
软件方案可能开源免费,但训练需要 GPU 算力支持,本地显卡或云平台会产生硬件或租赁成本,完全零成本较难实现。
如何保护隐私数据?
在微调过程中可使用隐私信息过滤机制,如过滤手机号、身份证号等,确保数据处理在用户本地完成以保障安全。