1709万字聊天记录能养出分身吗？怎么操作？

1709 万字的聊天记录在数据量上完全足以支撑一个数字分身的训练，理论上可以让 AI 学习到您的语言风格、专业术语及思维逻辑。操作上可参考 WeClone 或 Lab4AI 等开源方案，首先导出聊天记录为 JSON 格式，进行隐私清洗和预处理，随后利用本地显卡或云平台算力对大语言模型进行微调。关于零成本，虽然软件开源，但模型训练需要 GPU 算力支持，完全零成本较难实现，建议使用本地现有硬件或寻找提供免费额度的云平台。关键在于数据质量而非单纯数量，需确保经文、哲学等内容的逻辑连贯性，以便模型更好地内化您的世界观。

原来用聊天记录就可以创造数字分身!WeClone 项目在 Lab4AI 平台上的复现

其实通过给大模型喂我们的聊天记录，就可打造出我们的数字分身，当前爆火的 Weclone 项目采取的就是这种做法。先导出自己的聊天记录，再把聊天记录作为数据用来微调大模型，让模型学习我们的语言风格和习惯，就能打造出专属的数字分身。方式一：直接使用 Lab4AI 的数据，体验数字分身 Lab4AI 大模型实验室提供交互式对话，无需微调代码，就可以执行代码块，迅速体验交互过程。您可使用自己的聊天数据解锁数字分身。Lab4AI 大模型实验室已准备好完整的环境、数据、算力支持，只需四步即可打造数字分身：获取聊天记录 –> 环境准备 –> 启动微调 –> 模型推理。Step 1:获取聊天记录 1) 导出聊天记录在 Telegram 应用中，单击需要导出聊天记录的聊天对象，单击对话框右上角的省略号按钮，在弹出的选项中选择"Export chat history",选择照片类型，格式选择 JSON，可以导出多个联系人 (不建议使用群聊记录)。然后将导出的 ChatExport_* 文件夹放在./dataset/telegram 目录即可 (不同人聊天记录的文件夹一起放在./dataset/telegram)。我们已经提供了数据处理代码，您根据自己的数据情况和训练需求，编辑配置文件，即可生成数据集相关的配置。我们已经准备好了 Conda 环境和项目依赖包。直接运行下方代码块，即可执行微调。在 JupyterLab 内打开一个终端页面用于启动服务。模型的 API 在终端窗口启动后进行聊天问题测试，模型的生成结果会保存在指定路径下。整个流程更加贴合常见的订票人工客服操作标准，可明显观察到 Assistant 学习到了订票客服的画风和话术。（截至 2025 年 11 月 28 日）

🚀从聊天记录打造你的数字分身💡

通过利用大语言模型 (LLM),WeClone 不仅能巧妙地出色地模仿用户在聊天中的风格，还可以通过多种聊天平台实现数字分身的应用。全链路方案:WeClone 涵盖了从聊天数据的导出、预处理、模型训练到部署的全流程。模型微调：用户可以借助微信聊天记录微调 LLM，让大模型能够准确捕捉到“那味儿”。多平台支持：可以将训练好的数字分身绑定到微信、QQ、Telegram、企微、飞书等多个聊天平台上。隐私保护：在整个微调过程中，系统提供了隐私信息过滤机制，确保数据处理能够在用户本地完成，安全可靠。以实现新功能。0.2.0 版本进行了全面重构，数据集目录与脚本路径有了相应的调整，用户需重新安装依赖。安装 CUDA(要求 12.4 及以上)。使用 uv 安装依赖，创建 Python 环境。uv venv .venv --python=3.10uv pip install --group main -e . python -c "import torch; print('CUDA 是否可用:', torch.cuda.is_available());" git lfs installgit clone modelscope.cn/Qwen/Qwen 用户需使用 PyWxDump 提取微信聊天记录。数据预处理则包含对数据的隐私过滤 (如手机号、身份证号等),用户可在 settings.jsonc 中配置需过滤的词汇。⚙️ 配置参数及微调模型（搜索结果收录于 2025 年 5 月 16 日）

一个北京英语老教师的“数字分身”飞书的 AI 教学实践

近日，教育部等五部门联合印发《“人工智能 + 教育”行动计划》，明确提出将人工智能纳入教师资格考试和认证内容，全面推动智能批改、个性化答疑、自适应辅导等教学场景落地，为人工智能与基础教育的深度融合划定了清晰路径。带着这些问题，北京青年报记者走进北京中学，对话初二英语教师赵博鑫，从他亲手搭建的“数字分身”智能体里，找到了"AI+ 教育”落地生根的真实答案。为破解这一痛点，2025 年上学期期末，赵老师在飞书团队支持下，用飞书 aily 搭建了“北中英语赵老师智能体”,这个“数字分身”可 7×24 小时接收作文，严格按照北京中考评分标准打分并给出针对性修改建议。学生不再写完即交，而是根据建议反复修改两三次，直到拿到 9-10 分 (满分 10 分),从“要我写”转变为“我要写”。"AI 不会笑话我，写一句错了就改一句，没有面对老师红笔批改的紧张感，像玩游戏闯关一样，写作文不枯燥了。”节省的时间里，他专注于数据分析与学生关怀。飞书会将每一次交互完整记录并同步到多维表格，形成结构化学情数据。（发布时间是 2026 年 4 月 20 日）

FAQ

聊天记录导出需要什么格式？

通常建议选择 JSON 格式，例如在 Telegram 中选择"Export chat history"时格式选择 JSON，方便后续数据处理和模型微调。

微调模型需要多少成本？

软件方案可能开源免费，但训练需要 GPU 算力支持，本地显卡或云平台会产生硬件或租赁成本，完全零成本较难实现。

如何保护隐私数据？

在微调过程中可使用隐私信息过滤机制，如过滤手机号、身份证号等，确保数据处理在用户本地完成以保障安全。