用于大模型的首批中文基础语料库发布-心中有数网

用于大模型的首批中文基础语料库发布

小编 2025-01-17 00:21:15 焦点 81

　　中新网北京12月21日电中国网络空间安全协会人工智能安全治理专业委员会20日在北京召开发布会，用于语料面向社会发布用于大模型的大模首批中文基础语料库。

　　据悉，首批网安协会人工智能安全治理专委会会同国家权威机构，中文发挥企业、基础高校和科研单位协同优势，用于语料通过“共建－共享”机制，大模汇聚一批高质量可信数据，首批经过去重、中文过滤等技术手段，基础形成并对社会发布首批120G中文基础语料，用于语料包括1亿余条数据，大模500亿个token。首批用户登录中国网络空间安全协会网站，中文点击“中文基础语料库”链接，基础通过注册、认证等程序，就能够下载相关语料。

　　网安协会人工智能安全治理专委会负责人表示，语料库建设是一项长期性、专业性的工作，需要遵循相应法规、标准和规范，需要合力共建、突破创新，推动形成科学有效的语料库汇聚、处理、使用机制，为国家人工智能技术创新和产业发展赋能。

　　来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。

免责声明

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络收集整理，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！