OpenAI o1-preview 模型的实际复杂数学问题测试:

背景:
这是今年夏天帮我弟报高考志愿时,想到的一个实际的数学建模问题。每个经历过高考报志愿的考生、家长或老师,都可能思考过这个问题(可能粗略思考过,可能严格思考过)。至今我还没确定严格解是什么,不过哪些解答不够严格,多数还是能分辨的。

问题:
假设高考志愿填报中,一个考生可以填报40个学校,每个学校可以填报6个专业作为志愿。系统会按照学生的填报顺序,依次判断该学校、该专业是否被录取:如果考生分数高于该学校、专业录取线,则被录取,停止后续处理,一个考生仅会被一个学校、一个专业录取。如果一个学校6个专业都没被录取,且考生选择服从调剂,如果考生分数高于该学校的其他专业录取线,则会被调剂到这个学校的其他专业。如果低于该学校所有专业的录取线,则系统会针对考生填报的下一个学校继续类似的处理。下面分析一个特定考生的志愿填报策略问题。
问题(1):对于某个学校i,已知这位考生对于专业j,考上的概率为p_{ij},收益为r_{ij},仅考虑这个学校的各专业志愿填报,为了使考生的收益最大化,应该如何对各专业进行排序?
问题(2):对于某个学校i,已知这位考生对于专业j,考上的概率为p_{ij},收益为r_{ij}。考生高于该学校最低专业录取线的概率为q_i,被调剂的收益为s_i(假设学校专业数远大于考生可报考的6个专业)。考虑不同学校、不同专业志愿填报,为了使考生的收益最大化,应该如何对各学校,以及各专业进行排序?

结果:

OpenAI o1-mini:

整体思路基本正确,整体期望收益计算正确。

在学校专业数等于填报专业数(6个)的情况下(以下简称弱要求情况),排序方法分析正确,计算过程正确,结论正确。

在学校专业数大于填报专业数的情况下(以下简称强要求情况),经过引导,可以给出进一步深入分析(动态规划方法),不过这里我已经不太看得懂细节了,期望有大神能帮忙检查一下是否严格正确。

问题(2)开始犯了低级错误

整体评分:80分。

完整对话链接:chatgpt.com

OpenAI o1-preview:

经过了114秒的思考,思考过程中曾经接近弱要求情况的正确答案,但继续经过复杂思考后,给出了错误结论。

弱要求情况:未计算整体期望收益,未给出排序方法分析,结论错误。

强要求情况:未考虑。

整体评分:20分。

完整对话链接:chatgpt.com

GPT 4o / GPT 4:

两个模型的答案相似。没有严格的思考过程,给出的答案与OpenAI o1-preview相似。

弱要求情况:未计算整体期望收益,未给出排序方法分析,结论错误。

强要求情况:未考虑。

整体评分:10分。

完整对话链接:
GPT 4o:chatgpt.com
GPT 4:chatgpt.com

Claude 3.5 Sonnet:

整体思路基本正确,整体期望收益计算正确。

弱要求情况:排序方法分析正确,计算过程错误,结论错误。

强要求情况:未考虑。

整体评分:40分。

主要分析过程链接:claude.site

图1-5:OpenAI o1-mini在引导下的关键回答
图6-7:OpenAI o1-preview的部分思考与回答
图8:GPT 4o的回答
图9:Claude 3.5 Sonnet的回答
评论加载中...