微信AI推出自研大规模中文语言模型WeLM
模型核心特性
WeLM是微信AI团队研发的百亿级中文预训练语言模型,在多项技术指标上都展现出卓越性能。该模型具备以下核心能力:
- 出色的零样本和少样本学习能力,在未针对特定任务进行训练的情况下即可完成多种NLP任务
- 支持包括文本改写、机器翻译、文章续写、对话生成等在内的14项中文NLP任务
- 独特的多语言处理能力,可应对中文、英文、日文的混合输入
- 具有记忆能力和自纠错功能,保证生成内容的质量和连贯性
在基准测试中,WeLM的性能表现超越所有同规模模型,甚至可与某些大25倍的模型相媲美。
技术创新与应用前景
模型架构
WeLM选择与GPT-3相似的自回归模型架构,为满足不同场景需求,微信AI团队训练了1.3B、2.7B和10B三个参数规模的版本。
训练数据
为确保模型质量,研究团队构建了一个高质量、多元化的训练数据集:
- 数据量达到262B tokens,涵盖近两年的中文网页数据
- 补充了大量书籍、新闻、专业论坛内容和学术论文
- 包含750GB英文数据及部分日韩语资料
实际应用
目前WeLM已初步应用于微信视频号的部分场景。随着进一步优化,未来将在微信生态内实现更广泛的应用。
开发者与用户体验
为促进WeLM的推广应用,微信AI提供了多种使用方式:
- 交互式体验平台:支持用户实时体验模型各项功能
- API接口服务:开发者可通过申请获取API调用权限
微信AI团队表示,将持续优化WeLM的泛化能力,并期待与开发者社区共同探索该模型的应用潜力。