各个引擎的打分为什么不一样?甚至相同引擎不同版本也不一样?:修订间差异
跳到导航
跳到搜索
(创建页面,内容为“现在引擎打分是没有标准的。 没有谁规定xx等于固定多少分,所以不同引擎不同版本的分数不能比较。 有一种统一的标准是,根据测试数据做出一个胜率模型,把引擎输出的分数转换成胜率,比如50%取胜概率代表100分。皮卡鱼的github上就是以此为标准。”) |
无编辑摘要 |
||
(未显示同一用户的13个中间版本) | |||
第1行: | 第1行: | ||
<small>[[棋软知识|返回“棋软知识”]]</small> | |||
<br> | |||
<br> | |||
现在引擎打分没有标准,没有谁规定什么局面就等于固定多少分,所以不同引擎不同版本的分数不能互相比较。分数只能和同版本同引擎的分数内部比较。 | |||
所以不同版本不同引擎的分数不一样很正常。 | |||
引擎的分数如何,和所谓“敏感度”“虚高”没有丝毫关系。如果把皮卡鱼的分数乘以10变成一个“新引擎”,你会认为新引擎会对分数更敏感或者分数虚高吗?显然两个引擎相同,只是外在表现看起来不同而已。'''引擎棋力的唯一指标是科学的测试数据''' | |||
但有一种统一的标准是:根据测试数据做出一个胜率模型,把引擎输出的原始分数转换成胜率分数。 | |||
目前皮卡鱼(2024年3月14日后)的胜率分是'''和ELO挂钩''',200分代表76%胜率(象棋届常说的胜率,也就是胜局加上一半的和局,例如4胜4和2负就是60%胜率,3胜4和3负就是50%胜率) | |||
[[文件:Ca5083ed-8215-4faa-9b12-e394b109edae.png|缩略图|“胜率(胜局+一半的和局)”与胜率分数的对应曲线图]] | |||
[[文件:2ebfe70f-bb33-4146-9cf2-a9de2060c7f0.png|缩略图|“获胜概率(仅胜局)”与胜率分数的近似对应曲线图]] | |||
皮卡鱼的胜率模型,拟合了引擎自我测试的实际胜率(相当于1线程60秒+0.6秒)。 | |||
在本意上,引擎的非绝杀分都不代表必胜,这些分数只是“评估”,引擎认为当前局面谁优,类似于人类认为这局面谁好走、大优、胜势,只不过引擎会细分成分数。 |
2024年3月31日 (日) 22:51的最新版本
返回“棋软知识”
现在引擎打分没有标准,没有谁规定什么局面就等于固定多少分,所以不同引擎不同版本的分数不能互相比较。分数只能和同版本同引擎的分数内部比较。
所以不同版本不同引擎的分数不一样很正常。
引擎的分数如何,和所谓“敏感度”“虚高”没有丝毫关系。如果把皮卡鱼的分数乘以10变成一个“新引擎”,你会认为新引擎会对分数更敏感或者分数虚高吗?显然两个引擎相同,只是外在表现看起来不同而已。引擎棋力的唯一指标是科学的测试数据
但有一种统一的标准是:根据测试数据做出一个胜率模型,把引擎输出的原始分数转换成胜率分数。
目前皮卡鱼(2024年3月14日后)的胜率分是和ELO挂钩,200分代表76%胜率(象棋届常说的胜率,也就是胜局加上一半的和局,例如4胜4和2负就是60%胜率,3胜4和3负就是50%胜率)
皮卡鱼的胜率模型,拟合了引擎自我测试的实际胜率(相当于1线程60秒+0.6秒)。
在本意上,引擎的非绝杀分都不代表必胜,这些分数只是“评估”,引擎认为当前局面谁优,类似于人类认为这局面谁好走、大优、胜势,只不过引擎会细分成分数。