IT之家 1 月 13 日音讯,据英伟达官方博客,英伟达宣告推出一款名为 Nemotron-CC 的大型英文AI练习数据库,。英伟达宣称该练习数据库可以在必定程度上协助为学术界和企业界逐渐推进大言语模型的练习进程。
现在,业界各类AI模型的详细功能首要依据相应模型的练习数据。但是现有揭露数据库在规划和质量上往往存在局限性,英伟达称Nemotron-CC 的呈现正是未处理这一瓶颈,该练习数据库 6.3 万亿 Token 的规划内含很多通过验证的高质量数据,号称是“练习大型言语模型的抱负资料”。
英伟达官方表明,Nemotron-CC 的开发进程中使用了模型分类器、组成数据重述(Rephrasing)等技能,最大极限地确保了数据的高质量和多样性。一起他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,然后进一步提升了数据库高质量 Token 的数量,并防止对模型精确度形成危害。
IT之家注意到,英伟达已将 Nemotron-CC 练习数据库已在 Common Crawl 网站上揭露(点此拜访),英伟达称相关文档文件将在稍晚时分于该公司的 GitHub 页中发布。
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
一个古怪现象:大部分爸爸都是身着一般且价格低的衣服,过着繁忙而压抑的日子,闭上眼难以入睡
《编码物候》展览开幕 北京年代美术馆以科学艺术解读数字与生物交错的世界节律
笑起来非常治好的小女子,看到她心境都好了不少,“这样的笑脸也太治好了”
“看宝物吃东西 能医治厌食症吧” 这也太治好了 都给我看饿了 网友:我孩子要这样吃饭我做梦都能笑醒