为何同一个中文大模型,不同评测标准打分差异大?|见智研究
5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵,论坛上对该评测标准质疑的声音越发多了,这是为什么?大模型评测标准设立的难度又在哪里?
中文评测标准为何重要?
科大讯飞董事长刘庆峰认为:如果要努力追赶OpenAI的进度,需要一套科学系统的评测体系;用这一套科学系统,来判定技术迭代到底到了什么程度,还有哪些任务是不达标的。
市场看重中文大模型评测标准主要基于三方面考虑因素。
【资料图】
第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异,需要针对中文特点开发相应的数据集,以确保评测结果的准确性和公正性。
第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言,而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别,需要不同的评测标准和方法。
第三、中文词汇量和歧义性。中文的词汇量非常大,而且存在很多歧义性,需要更复杂的处理方法和技术,如分词、词性标注、命名实体识别等。
华尔街见闻·见智研究认为:中文大模型评测标准的重要性在于它可以帮助厂商相对客观地评估模型的质量和性能,比较不同模型的性能和差异。更重要的是标准化的评估方法和数据集能够为开发者提供很好的方向,促进模型迭代速度。
此前,IDC发布的大模型评测标准,从三个维度(产品能力、应用能力和生态能力)、6个一级指标和11个二级指标来评估中国大模型的能力。
并且给出结论:文心大模型在产品力和生态能力上都超过平均分水平。但是由于评测方法没有完全公开,貌似并没有被市场所完全认可。
所以,在大模型层出不穷的当下,市场上非常需要对模型的评估方法和一致性标准。
但从当下来看,这貌似又是一个在短期内非常难以兑现的预期。
中文大模型评测标准化很难,SuperCLUE被吐槽选择题方式单一
刚刚发布的文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。
SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
以SuperCLUE测试结果来看,文心一言的评测结果远不如星火大模型;
而以另一种比较火的评测标准是JioNLP,该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室(简称“计算所NLP”)开发和维护的。
JioNLP评测还提供了多种评测指标和计算工具,以帮助研究者和开发者客观地评估模型的性能和效果,并比较不同模型的优缺点和适用范围。
JioNLP评测方式目前的总下载量达到2.4万次,近三十天下载量为1634次。
通过JioNLP评测,研究者和开发者可以获取实时的评测结果和排名,以及相应的源代码和技术报告,为中文自然语言处理的研究和应用提供参考和支持。
从JioNLP评测的结果来看:文心一言的得分却又高于星火大模型。
这背后的原因是两种评测的方法的设置有很大的差异性。
SuperCLUE是只通过选择题对模型能力进行测试,而JioNLP采用的是客观选择题+主观题(生成题、翻译题和聊天题)进行测试。
但相同的是,在官网留言区对于两个测试标准都出现很多质疑声音。
如:对SuperCLUE评测方法如何限定测试题目数量,生成和创作类评测用选择题测试是否合理,以及建议SuperCLUE像中文Alpaca一样适度公开评测说明和标准。JioNLP也同样存在测试精度、样本量小等问题。
见智研究认为:当下对大模型的评估方法和指标还没有形成共识、更没有统一的标准出现,特别是对于不同场景和任务可能有不同的评价体系和需求出现。
常用的机器学习模型评估标准有7个比较重要的方向:
包括准确度(针对分类能力)、精确度和召回率(模型正确预测的内容占该样本的比例)、对抗攻击鲁棒性(模型在受到输入干扰时保持稳定的能力)、计算效率、均方误差、R方值以及数据隐私。
从当下来看,SuperCLUE的评测方式单一性确实存在一定的弊端,但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。
总的来说,大模型测试标准化是行业所需要的,但同样也是非常难实现的。
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。标签:
精彩推送
全球观点:极具收藏意义 红魔8 Pro+变形金刚限量典藏套装来袭
5月10日消息,红魔召开了电竞宇宙新品发布会,全新的专业电竞装备——红魔8 Pro+变形金刚领袖版以及氘锋...
环球热资讯!报道称AI公司出门问问最早年内赴港上市 最高融资3亿美元
编程客栈()5月10日消息:据彭博报道,出门问问上个月刚刚推出了自己的AI大语言模型“序列猴子”。知情...
启明星辰(002439.SZ):将与中国移动深度合作,做好安全垂直领域大模型的研究和实践 天天简讯
格隆汇5月10日丨启明星辰在5月8日15:00-17:00业绩说明会表示,公司在大模型与中国移动的合作方面有两个主要
特斯拉Model Y全球人都喜欢!车型销量榜世界第三_全球最资讯
随着特斯拉上海、加州超级工厂产量持续提升,以及柏林和德克萨斯超级工厂陆续投产,特斯拉ModelY的产量也明
新闻快讯
新闻快讯
- 为何同一个中文大模型,不同评测标准打分差异大?|见智研究
- 全球观点:极具收藏意义 红魔8 Pro+变形金刚限量典藏套装来袭
- 环球热资讯!报道称AI公司出门问问最早年内赴港上市 最高融资3亿美元
- 前沿资讯!200余种“昭化造”农特产品亮相杭州拱墅
- 建行:美联储降息前后的美债收益率变化经验规律
- 马斯克打造“美国版微信”,将加入2个新功能
- 启明星辰(002439.SZ):将与中国移动深度合作,做好安全垂直领域大模型的研究和实践 天天简讯
- 世界快讯:香椿什么季节可以吃 什么季节吃香椿最好
- 特斯拉Model Y全球人都喜欢!车型销量榜世界第三_全球最资讯
- 什么是调查表法 什么是调查法 焦点快报
- 广西北部和东部等部分江河可能出现超警洪水|当前快播
- 全球热门:掩饰隐瞒犯罪所得数额认定有哪些标准
- 2023年5月湖南怀化市普通话报名时间5月8日起 考试时间5月20日起
- 应急管理部:今年一季度全国受理安全生产举报量同比上升25.1%|全球关注
- 【全球新要闻】2023茂名中考成绩查询时间 什么时候查分
- 纪德《田园交响曲》:一个人最通透的活法,是管好自己|环球信息
- 关注!我州“三举措”压紧压实生产经营活动用火作业标准化管理
- 外逃7年,“红通人员”麦凯常回国投案
- 焦点日报:开发拖后腿!大众汽车软件子公司管理层大清洗,宾利制造业务负责人空降
- “为家乡高质量发展贡献力量” ——访中国科学院院士、矿床地球化学国家重点实验室主任胡瑞忠
- 智明达:5月9日融资买入252.03万元,融资融券余额6999.13万元
- 耕地保护成效如何跟进监督“回头看”_环球聚焦
- 3名指挥官死于以军空袭,杰哈德誓言采取报复行动_焦点讯息
- 公积金联名卡怎么办理_公积金联名卡是什么
- 天天快资讯:是的,真的有中国玩家用英文玩游戏
- 世界快播:2023年健康管理师在哪里报名
- 火车持刀杀人案细节:嫌犯返回补刀具体详细内容是什么
- 【聚看点】崇信:患者感激送锦旗 见证浓浓医患情
- 打造“一朵云”“一张网”“一道墙” 河南数字政府建设再提速(附图解)
- 爱_婚礼歌曲_婚礼现场音乐爱之 环球观点
- 天天观速讯丨任子行:终止向特定对象发行股票事项
- 世界观焦点:玉林侬喝过吗?一知名茶饮店被曝光,有蟑螂……
- 万万没想到,A股又成跳水冠军,市场发生了什么?马上告诉大家!
- 5月9日龙虎榜:1.78亿抢筹雪峰科技 机构净买入15只股_热点
- 中国驻俄使馆:向在卫国战争和二战中牺牲的英烈们致敬 世界播资讯
- 荷塘区:守护“心灵窗口” 保护幼儿视力
- 云南丽江市发展投资集团副董事长罗鸿接受审查调查_世界观天下
- Arkane工作室将开发新3A游戏 精力可能不再投入在《红霞岛》上-当前快播
- 海关总署:前4个月民营企业进出口同比增长15.8%_世界速读
- 乘联会:4月乘用车市场零售达到163.0万辆 同比增速55.5%
- 当前滚动:A股市场表现分化:沪指涨0.22%站上3400点,西安银行一字涨停
- 焦点日报:浙江宁波开通欧洲第五航权全货机航线 畅通空中贸易
- 【聚看点】《变形金刚:超能勇士崛起》发布海报 正义众将昂首迎敌无畏激战
- 百事通!运筹帷幄!詹姆斯全场27+9+6守卫主场
- 当前讯息:校友会2023湖北省大学排名,华中科技大学、武昌首义学院第一
- 焦点速看:美媒:因暴力犯罪激增 女性成为美国增长最快枪支拥有群体
- 向全球发出来自“上海世界会客厅”的邀约,浦东旅游率先“走出去”! 天天速看料
- 天天短讯!将7万余名困境儿童纳入信息库
- 天天快看点丨反差!强弱模糊的中超却更加刺激 强队低迷让进球陷入低迷
- 中学生走进大学校园,感受“科普盛宴”