不进行引擎测试去“感觉”孰强孰弱可靠吗?:修订间差异

来自皮卡鱼 Wiki
跳到导航 跳到搜索
无编辑摘要
New讨论 | 贡献
无编辑摘要
 
(未显示另一用户的1个中间版本)
第1行: 第1行:
<small>[[棋软知识|返回“棋软知识”]]</small>
<br>
<br>
感觉xx不如yy、我感觉xx杀不动yy所以棋力差不多、xx算不出来这么简单的局所以xx不行、xx和棋局面打分这么高所以xx不行、xx这局面算得没有yy快所以xx不如yy、xx分数太飘虚高所以不如分数更稳的yy.....此类言论都是极度片面的。
感觉xx不如yy、我感觉xx杀不动yy所以棋力差不多、xx算不出来这么简单的局所以xx不行、xx和棋局面打分这么高所以xx不行、xx这局面算得没有yy快所以xx不如yy、xx分数太飘虚高所以不如分数更稳的yy.....此类言论都是极度片面的。




人类的“感觉”很离谱,一些人可以根据感觉得出各种离谱结论,除非两个引擎相差实在太多,感觉都可以轻易感觉得出来。
人类的“感觉”很离谱,一些人可以根据感觉得出各种离谱结论,除非两个引擎相差实在太多,感觉都可以轻易感觉得出来。
引擎的棋力并不能单靠个别局面中的表现来衡量。每个引擎都存在盲区,且不同引擎的盲区不一定完全重合。即使某个引擎无法解出一些局面,而另一引擎可以解出这些局面,由于样本量过少,也无法得出该引擎棋力不如另一引擎的结论。





2024年8月22日 (四) 16:46的最新版本

返回“棋软知识”

感觉xx不如yy、我感觉xx杀不动yy所以棋力差不多、xx算不出来这么简单的局所以xx不行、xx和棋局面打分这么高所以xx不行、xx这局面算得没有yy快所以xx不如yy、xx分数太飘虚高所以不如分数更稳的yy.....此类言论都是极度片面的。


人类的“感觉”很离谱,一些人可以根据感觉得出各种离谱结论,除非两个引擎相差实在太多,感觉都可以轻易感觉得出来。


引擎的棋力并不能单靠个别局面中的表现来衡量。每个引擎都存在盲区,且不同引擎的盲区不一定完全重合。即使某个引擎无法解出一些局面,而另一引擎可以解出这些局面,由于样本量过少,也无法得出该引擎棋力不如另一引擎的结论。


和棋是很正常的,需要更多的统计数据,并且注意开局库因素。即使是测试也需要大样本,几局几十局的测试可以得出任何所谓的"结论"。


引擎不是神,也有很多的不完善,打个比方就是引擎是越野车,它在绝大多数场景下比人优越,但要是遇到一堵需要爬的墙就不如人类了——这个例子中,这个“墙”就相当于一些排局,但这不代表引擎的棋力差。


引擎的分数波动更不代表棋力如何,实际上将引擎的原始分数乘一个系数(比如乘3),让那么很多人就会感觉引擎变弱了,分数太飘了虚高,实际上棋力完全一致。