数据不均衡 数量小 1-g-s 可能很接近导致结果不同 哪个 epsilon 区分最好 如果认知诊断使用同一套题目都必须做完,然后使用 EM 算法估计:猜测系数 g,失误系数 s,学生掌握类型
- 不均衡数据的表现
- 显式:答对的题目远多于答错的数据(或者相反)
- 隐式:某些低掌握状态的学生数远高于高掌握状态的学生(或者相反)(认知诊断特有的情况)
- 学生状态掌握分布对参数估计的影响
- 从现实层面上看是作答矩阵对参数估计的影响
- 而作答矩阵本质上是学生的状态分布下的概率作用下的表现
- 参数估计使用EM算法估计猜测系数g,失误系数s,学生掌握类型
- 不均衡数据影响
- 如果出现不均衡数据的情况,诊断模型参数估计偏差变大,学生状态不稳定,基于误差较大的估计下修改 q 矩阵是徒劳的,或者说偏差很大的。
- 已知理论:
- 正确 Q 矩阵+正确的学生状态 S——>作答矩阵 R
- 作答矩阵 R+错误 Q 矩阵——>估计参数 g、s、与有偏差的学生状态 S‘
- Q 矩阵属性缺失,slip 估计偏大
- Q 矩阵属性冗余,guess 估计偏大
- 修改 Q 矩阵的方法是依据 gs 的大小进行修改(可以举出反例了,设计一份数据找到他们算法的问题)
- 法是根据第 道题目的 是否大于临界值,且第 道题目的第 个属性的 ES 公式是否小于临界,若是则1 改成 0
- 法是根据每道题目的 判断大小,取出小的题目集合,对每个知识掌握状态遍历计算 g 和 s ,取最优的状态替代之前的 q 向量
- 如果是掌握情况好的学生多于不好的学生,
- 因此需要一种方法弥补不均衡数据问题,不仅在
- 一般的不均衡数据是一维数据,
- 而认知诊断领域的的作答矩阵是高维的,
- 不均衡产生的原因是学生隐藏的状态决定的
- 不均衡数据的可能原因(学生知识掌握状态分布不均衡、作答情况不均衡)
- 影响因素:题目难度、区分度、班级
- 难度:难度越大的试卷,被试整体错误率较高(80%),难度较低的试卷,被试整体正确率较高(80%)
- 区分度:区分度高时模型参数估计没有问题,如果区分度低,做对题目无法判断是否掌握知识点,表现在大家一起做对和一起做错
- 班级:对于一个班级,由于样本不足够多,学生只是掌握状态可能出现偏态分布情况,导致不均衡的学生状态数量。
- 影响因素:题目难度、区分度、班级
- 解决的问题、方法、思路
- 问题
- 虽然看答案能够判断是否不均衡,但学生隐藏的掌握状态是否不均衡是未知的(有点像隐马尔可夫,但模型是每个隐藏对应一个标签,他是一个隐藏对应很多种标签)
- 问题