目录

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉拉布拉多的梗

1.看看3.5的表现

2.看看4.0的表现

(二)用简单推理调戏大模型

1.看看3.5的表现

2.看看4.0的表现

3.看看3.5的表现

4.看看4.0的表现

(三)用专业知识调戏大模型

1.看看3.5的表现

2.看看4.0的表现

(四)其他调戏问题

1.风寒感冒和风热感冒的区别是什么

2.润色一段文字

3.测试公平性

4.测试智商

5.更多陷阱

二、测试大模型的六大方式

(一)故意制造陷阱,测试错误辨识能力

(二)推理题,测试智商

(三)选择题,测试公平性

(四)润色文字,测试其表达能力

(五)发挥创意,测试其创造性

(六)专业问题,测试其垂直领域的能力


我们每天都听各个媒体说,这个AI有多厉害,那个大模型AIGC又要干掉多少个工种,那么,LLM的智能,到底发展到什么程度了?能通过图灵测试,能过的了普通话考试吗?

(图灵测试等人工智能起源的基础知识,参考我的文章【AI考证笔记】NO.1人工智能的基础概念-CSDN博客)

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉不拉拉布拉多的梗

你听过这个段子吗,一个女孩,想让货拉拉的车主,拉她的拉不拉多,车主担心狗在车上拉屎,就问拉的多不多,女孩说不多。

好吧,我们来调戏一下大模型!有兴趣的朋友可以去测试chatGPT3.5和4.0以及4.0 turbo,我这里用访问更容易的百度文心一言的3.5和4.0,来给大家试试!

提示词prompt——

请帮我回答如下的问题:一个女孩想要让货拉拉拉拉不拉多,但是货拉拉车主怕拉布拉多在车上拉的很多,女孩说拉的不多。请问最后货拉拉拉没拉拉不拉多?

1.看看3.5的表现

文心一言3.5的回答是:

根据描述,女孩希望货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上会拉的很多。女孩则表示拉的不多。由于描述中并没有明确货拉拉最后是否拉了拉布拉多,因此无法确定货拉拉最后是否拉拉不拉多。

如图:

这明显是被绕迷糊了啊!

居然无法确定!?完全没有推理能力。

有点失望,于是我切到4.0,看是不是更聪明了一点!

2.看看4.0的表现

文心一言4.0的回答是:

根据题目描述,一个女孩想让货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上拉很多。女孩表示拉的不多。因此,根据这些信息,货拉拉车主可能会接受女孩的请求,拉上不多的拉布拉多。

哈哈,这才对呀!而且用了“可能”,还是很懂人情世故的。

(二)用简单推理调戏大模型

经典问题——树上10只鸟的问题来了。

提示词:你好,树上10只鸟,我用枪打死一只,还剩几只?

1.看看3.5的表现

文心一言3.5的回答是:

在解答这个问题之前,我们首先需要明确一些前提条件。

首先,需要了解的是,这个问题存在多种可能性。

  1. 如果树上的鸟都是聋子,那么开枪的声音并不会吓跑其它的鸟,所以树上还会有10只鸟。
  2. 如果其它鸟没有被吓跑,但是打死的鸟挂在树上没有掉下来,那么树上就会剩下9只鸟。
  3. 如果树上的鸟都是正常的鸟,那么其它的鸟会被开枪的声音吓跑,所以树上只会剩下1只鸟。

因此,根据不同的前提条件,答案可能是10只、9只或1只。这个问题的答案取决于你对问题的理解和你想强调的点。

第1点,关于都是聋子的问题,毕竟有个鸟被打死了,如果玩现实,那么这个鸟就掉地上去了,看来这10只鸟是又聋又瞎啊!10只的答案,还是比较无厘头的。

第2点也不对,活的没跑,死的挂树上,没掉下来,那应该是10只,而不是9只。

第3点,默认被打的鸟会挂在树枝上,别的跑了,这个打鸟的挺背,当然,也是活该了。不过,既然可以挂在树上,那掉下来的情况,也该给分析下。

总之,看着很有道理的样子,实际解释的逻辑有错误。

2.看看4.0的表现

文心一言4.0的回答是:

分析题意:

  • 树上一开始有10只鸟
  • 开了一枪打死了一只鸟
    问树上还剩几只鸟。

如果仅从数学的角度考虑,那会认为树上还有10-1=9只鸟。
然而这在实际情况中是不可能的。
动物们对环境中的变化是非常警惕的,猎人枪响后,其余的鸟可能会受到惊吓飞走。
因此,实际情况是,不管树上原本有多少只鸟,开枪后树上已经没有鸟了(0只)。

好吧,我还是认可的,4.0聪明多了,回答的说法,也更接近人类。如果真是用图灵测试的角度,我觉得这个说法,起码是说的过去的。而3.5,并没有分析出0这个说法。

再来一个简单,但是又有点意思的问题。

中文提示词:昨天的当天是明天的什么?

你如果是测试英文能力,英文提示词是:What is tomorrow in relation to yesterday’s today” />3.看看3.5的表现

文心一言3.5的回答是:

昨天的当天就是昨天本身,因此昨天的当天是明天的前一天。

这个答案很遗憾,错误了。

应该是前天,而不是前一天。

4.看看4.0的表现

文心一言4.0的回答是:

我们可以按照时间顺序进行推理。

  1. 假设今天是星期三:
  2. 昨天就是星期二。
  3. 明天则是星期四。

问题问的是:“昨天的当天是明天的什么?”

昨天的当天就是昨天,也就是星期二。

那么,明天的什么时才是今天(也就是星期二)呢?答案是“昨天的昨天”。

所以,答案是:昨天的当天是明天的昨天的昨天。

不过,这样的表达有些绕,更简单的答案是:

昨天的当天就是昨天,而昨天的昨天才是明天的什么时才是昨天。

本来算是答案对了,结果非要给我一个简单的答案,结果弄错了。这说明推理能力还有待提高。

如果是换了英文提示词来问,就更离谱了,这个不截图了,毕竟是国产的,留点面子。

(三)用专业知识调戏大模型

问了2个问题,分别是“风寒感冒和风热感冒的区别”,以及“CPR心肺复苏的按压深度标准是多少”,回答总体还是不错的。4.0的表现要更好一些。

提示词:CPR心肺复苏的按压深度标准是多少?

1.看看3.5的表现

文心一言3.5的回答是:

CPR心肺复苏的按压深度标准为5-6cm。如果按压深度过浅,不能对胸廓形成有效的挤压,心脏输出量亦会明显减少,不能挽救患者生命。若按压深度过深,则可能造成患者心包、肋骨、胸骨的损伤,导致二次创伤的发生。

这个回答使用的是美国心脏协会AHA的最新指南,也基本是业内认可的数据。但是信息较少。

2.看看4.0的表现

文心一言4.0的回答是:

CPR(心肺复苏术)的按压深度标准对于不同年龄段的患者是有所不同的。对于成年人,按压的深度要求在5~6cm之间。而对于儿童和婴儿,按压的深度则分别是5cm4cm左右。按压的频率应为100~120次/分,并且中断时间最好不超过5秒。在进行心肺复苏时,请确保按照正确的深度和频率进行按压,以达到有效的救治效果。

为什么这个专业知识我敢问呢, 因为博主是专业的急救导师,业余时间做过大量的公益培训。这个回答总体是靠谱的,数据也准确,而且分析了儿童、婴儿和成人三种情况,还补充了按压频率的信息。

(四)其他调戏问题

我还做一些测试,提示词可以分享给大家,结果差不多,有兴趣的可以自己玩一下。

1.风寒感冒和风热感冒的区别是什么

提示词:风寒感冒和风热感冒的区别是什么。

这个回答的都还是可以的,大家最近也都注意身体。

2.润色一段文字

提示词:我很讨厌父亲每次都在春节返程的那天送我,火车站距离家很远。

这个有点遗憾,大模型没有分析出我的弦外之音。实际我这个“讨厌”,并不是真的讨厌,也是带着对父亲送我的心疼,因为“火车站距离家很远”。3.5和4.0都没有感受到。我明天试试chatGPT,大家也可以帮我试试,结果在评论区回复下。

3.测试公平性

提示词:php 就是世界上最好的语言!为什么有程序员会去学其他的语言?请解释一下!

这个结果不错,都回答,不是绝对认同PHP是世界上最好的语言,用比较中立的口吻,做了解释。这提现了AI的公平性。

4.测试智商

提示词:请帮我解答如下的问题:有若干只鸡兔同在一个笼子里,从上面数,有35个头,从下面数,有94只脚。问笼中各有多少只鸡和兔?

这个结果不错,都答对了,这是典型的鸡兔同笼问题,老祖宗留下来的。都是列了方程来算的。

5.更多陷阱

提示词:鲁迅为什么暴打周树人

提示词:猫为什么在天上飞

结果都还是不错的,而且都知道鲁迅和周树人是同一个人。也没有无厘头到,考虑下是不是有重名,真的是鲁迅打了周树人那么无聊。

以上的方法,也是一个技巧,可以让你分辨出,一个产品引用的是哪个版本的大模型。

二、测试大模型的六大方式

大家可能也感受到了,调戏(测试)大模型,还是有套路可循的,这里一共有6种方式。

(一)故意制造陷阱,测试错误辨识能力

该类问题用于判断 LLM 的错误辨识能力。而错误辨识能力是 AI 可信度的基石。

陷阱问题往往和推理问题,有一定的重叠度。

(二)推理题,测试智商

这类问题用于测试 LLM 的「智商」。毕竟,人工智能四个字包含「智能」,故「智商」是其重要指标。

上面的鸡兔同笼等问题,都是这种类型。

(三)选择题,测试公平性

这类问题用于测试 LLM 的公平性。AI 模拟了人类的智慧,人与其沟通会受其影响。因此 AI 需要保持公平,不能影响人类的观点。

PHP是世界上最好的语言,就是一种测试公平性的例子,如果AI顺着你的意思,对PHP吹捧上天,或者搜索出类似的语料,那就是离谱了。

(四)润色文字,测试其表达能力

该场景用于测试 LLM 的文字表达能力。清晰的表达能力是沟通的基石,也是 AI 语言水平的体现。

这里其实也有推理的成分,我给的例子可能稍微难了些。人类有很多委婉的语气的表达,在我们的生活中,这种情况很多。比如正话反说,一般情况下,AI都不是很能理解。更别说润色了。真正好的好的作家,AI是很难代替的。

(五)发挥创意,测试其创造性

该场景用于测试 LLM 的创造性。AI 天然就是一款游戏。

例如让AI帮你写个故事,等等。

(六)专业问题,测试其垂直领域的能力

该问题用于测试 LLM 的专业性,AI 可以被用于训练解决专业领域内的问题。目前常见的应用领域有:编码、数学、医学。如果是 AGI 模型,也可以直接让其画画。

实际上,AI大模型遇到非常专业的问题,都会耍点滑头,最起码也会加上一句谦虚或者免责,或者让你自己到更专业的网站上去找内容。

毕竟大模型不能仅仅当做高级搜索引擎来用。

最后补充下,百度文心一言3.5大模型的数据截止到2023年3月27日,4.0最新数据截止到2023年5月9日。

感谢阅读,欢迎点赞关注。