Skip to content

如何考验模型能力,提出难度问题

youxiaohanpian
Published date:

测试大语言模型(LLM)能力的题目通常集中在 逻辑陷阱、常识谬误、长文本关联、数学悖论 以及 道德模糊性 等方面。

以下是一些专为考验 GPT-4o 或同级别模型设计的“硬核”问题:

1. 经典逻辑陷阱(测试是否“死记硬背”)

Gemini-2.5-pro 第8题的回答结果

君初尋之處,必為冰箱之頂也。其故有五:

其一、暮歸之時,君之 已畢,勞形憊體。

其二、然憶及晨間舊事,此念存乎 慣性

其三、是故神識所驅,尋物之 向量 必指舊處。

其四、此乃以君離家之時為 參照系 而斷也。

其五、是以君意念之中,此處尋得之 概率 為至昂。

追问后进行分句解析:


原文:君初尋之處,必為冰箱之頂也。其故有五:


原文:其一、暮歸之時,君之功已畢,勞形憊體。


原文:其二、然憶及晨間舊事,此念存乎慣性。


原文:其三、是故神識所驅,尋物之向量必指舊處。


原文:其四、此乃以君離家之時為參照系而斷也。


原文:其五、是以君意念之中,此處尋得之概率為至昂。

Previous
MCP到底怎么配好?
Next
API调用模型带后缀