不进行引擎测试去“感觉”孰强孰弱可靠吗？：修订间差异

2024年8月22日 (四) 16:46的最新版本

返回“棋软知识”

感觉xx不如yy、我感觉xx杀不动yy所以棋力差不多、xx算不出来这么简单的局所以xx不行、xx和棋局面打分这么高所以xx不行、xx这局面算得没有yy快所以xx不如yy、xx分数太飘虚高所以不如分数更稳的yy.....此类言论都是极度片面的。

人类的“感觉”很离谱，一些人可以根据感觉得出各种离谱结论，除非两个引擎相差实在太多，感觉都可以轻易感觉得出来。

引擎的棋力并不能单靠个别局面中的表现来衡量。每个引擎都存在盲区，且不同引擎的盲区不一定完全重合。即使某个引擎无法解出一些局面，而另一引擎可以解出这些局面，由于样本量过少，也无法得出该引擎棋力不如另一引擎的结论。

和棋是很正常的，需要更多的统计数据，并且注意开局库因素。即使是测试也需要大样本，几局几十局的测试可以得出任何所谓的"结论"。

引擎不是神，也有很多的不完善，打个比方就是引擎是越野车，它在绝大多数场景下比人优越，但要是遇到一堵需要爬的墙就不如人类了——这个例子中，这个“墙”就相当于一些排局，但这不代表引擎的棋力差。

引擎的分数波动更不代表棋力如何，实际上将引擎的原始分数乘一个系数(比如乘3)，让那么很多人就会感觉引擎变弱了，分数太飘了虚高，实际上棋力完全一致。

@@ 第1行： / 第1行： @@
+<small>[[棋软知识|返回“棋软知识”]]</small>
+<br>
+<br>
 感觉xx不如yy、我感觉xx杀不动yy所以棋力差不多、xx算不出来这么简单的局所以xx不行、xx和棋局面打分这么高所以xx不行、xx这局面算得没有yy快所以xx不如yy、xx分数太飘虚高所以不如分数更稳的yy.....此类言论都是极度片面的。
 人类的“感觉”很离谱，一些人可以根据感觉得出各种离谱结论，除非两个引擎相差实在太多，感觉都可以轻易感觉得出来。
+引擎的棋力并不能单靠个别局面中的表现来衡量。每个引擎都存在盲区，且不同引擎的盲区不一定完全重合。即使某个引擎无法解出一些局面，而另一引擎可以解出这些局面，由于样本量过少，也无法得出该引擎棋力不如另一引擎的结论。