开源的、支持中英双语的1300亿参数的对话语言模型
ChatGLM-130B 是由 AI 编程助手「CodeGeex」背后的智谱 AI 团队开发的 1300 亿参数的开源的、支持中英双语的对话语言模型。
GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿参数,模型架构采用通用语言模型(GLM1)。它旨在支持在一台 A100(40G * 8) 或 V100(32G * 8)服务器上对千亿规模参数的模型进行推理。截至 2022 年 7 月 3 日,GLM-130B 已完成 4000 亿个文本标识符(中文和英文各 2000 亿)的训练,它有以下独特优势:
- 双语:同时支持中文和英文。
- 高精度(英文): 在 LAMBADA 上优于 GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%),在 MMLU 上略优于 GPT-3 175B(+0.9%)。
- 高精度(中文):在 7 个零样本 CLUE 数据集(+24.26%)和 5 个零样本 FewCLUE 数据集(+12.75%)上明显优于 ERNIE TITAN 3.0 260B。
- 快速推理:支持用一台 A100 服务器使用 SAT 和 FasterTransformer 进行快速推理(提速最高可达 2.5 倍)。
- 可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数轻松复现。
- 跨平台:支持在 NVIDIA、Hygon DCU、Ascend 910 和 Sunway 处理器上进行训练与推理。
工具简介
ChatGLM是一个开源的、支持中英双语对话的大型语言模型。其名称可能源于“Chat”与“GLM”(通用语言模型)的组合,旨在为用户提供智能对话与文本生成服务。
核心亮点
- 开源可访问:模型代码与权重可能向研究社区开放。
- 双语对话能力:支持中文与英文的双语交互。
- 大规模参数:基于公开信息,模型参数量达千亿级别。
- 对话逻辑连贯:致力于生成符合上下文逻辑的回复。
主要功能
- 智能对话交互:回答用户提出的各类问题。
- 文本内容生成:协助进行写作、翻译等文本创作。
- 代码编程辅助:可能提供代码编写与调试建议。
- 知识问答解惑:基于训练数据提供信息解答。
- 多轮上下文理解:在对话中保持话题的连贯性。
适用人群/应用场景
该工具适用于对AI对话感兴趣的个人用户、需要进行自然语言处理研究的开发者、以及寻求智能写作或学习辅助的学生与办公人员。常见于技术探索、内容创作、编程学习和日常问答等场景。
使用方法
1. 访问其官网 [https://chatglm.cn/](https://chatglm.cn/)。
2. 根据页面指引,注册或登录账户。
3. 在对话框中输入问题或指令,开始使用。
编辑说明
- 本介绍信息基于公开资料与官网展示,具体功能、服务条款及更新以官网为准。
- 如内容涉及侵权或信息有误,请联系本站进行更正。
编辑说明:本文由编辑整理公开信息并结合实际体验撰写,内容可能随官网更新而变化,请以官网最新信息为准。> 如有错误或侵权请通过「联系我们」提交,我们将在 48 小时内处理。
