Intro

为了借鉴《ViSeq: Visual Analytics of Learning Sequence in Massive Open Online Courses》中3.1中的相似度计算方法,精读了这一篇文章,作以下笔记,笔记内容偏向关注文章中和相似度计算有关的部分,另外还简略看了一下关系度较高的两篇参考文献,也作了一点记录。

ViSeq: Visual Analytics of Learning Sequence in Massive Open Online Courses

Abstract

背景:由于更多的工作只研究aggregated events而不关注sequence of learning activities

ViSeq:可视化的分析系统,实现不同学习群体学习序列的可视化,更好地理解学习行为背后的原因

ViSeq包含四个链接视图:用于识别学习者分组的投影视图(projection view)、用于显示某个选定的学习者群体内整体序列模式的模式视图(pattern view)、用于说明连续事件之间转换的序列视图(sequence view)、带有扩展序列链的用来比较选中的一些个人学习序列的个人视图(individual view)

Case studies和expert interviews:用来评估该系统

1 INTRODUCTION

MOOC现状:学生并非按照设计的学习顺序进行学习。

现有研究大多基于统计基础上的(statistical grounds)、具有一些显性特征的指标(with a few dominant features),忽略了某些特定方面(some specific aspects)。

现有可视化工作:主要集中在一个聚合的层次上(focused on an aggregated level),消除了顺序上的信息(eliminates sequential information)

ViSeq的目的:利用序列模式的挖掘工具去检测序列性模式,从多个粒度层次对不同类型学生的学习序列进行可视化,并分析他们学习行为背后的故事或原因。

基于三个不同MOOC的真实数据集进行案例研究(Case studies)

采访了几位领域专家对系统进行了评估(expert interviews)

文章主要贡献:

  • 一个交互式的多层次视觉分析系统:帮助教师探索各种类型的学习序列,以检测不同的学习群体,并了解学习序列与表现之间的潜在相关性。
  • 一种增广序列设计:发现个体学习行为序列
  • 从基于真实数据集和专家访谈从案例研究中获得见解,以指导有效的课程设计。

2.1 MOOC Analytics

  • 学习者的参与度与学习成绩
  • MOOC课程的设计
  • 自我管理式学习(SRL)
  • 社会网络分析与在社交网络影响下的学习
  • 学习动机和MOOC学习成功的标准

2.2 Learning Sequence Analytics

提到参考文献[22]:D. H. Shanabrook, D. G. Cooper, B. P. Woolf, and I. Arroyo, “Identifying high-level student behavior using sequence-based motif discovery,” in Proc. 3rd Int. Conf. Educational Data Mining, 2010, pp. 191–200. 提出了一种半自动的方法来识别学生在完成单一作业时的状态,其中采用基于序列的模体发现方法识别高水平的学生行为,然后从30个动机分组中归纳出7个不同的有意义的组。

2.3 Event Sequence Visualization

提到参考文献[26]:J. Wei, Z. Shen, N. Sundaresan, and K.-L. Ma, “Visual cluster exploration of web clickstream data,” in Proc. IEEE Conf. Visual Analytics Sci. Technol., 2012, pp. 3–12. 实现了一个自组织映射来对web的点击流数据进行聚类和可视化。

3 PROBLEM CHARACTERIZATION

3.1 Data Preprocessing

数据来源:3个edX的课程,日志数据包括视频观看、测验问题访问和讨论发布(数据情况详情参照Table1),缺少学习者的背景信息

用一个序列S表征每一个学习者的行为,共n个事件。

为了根据学习序列对学习者进行分组:基于学习序列建立相似度矩阵(similarity matrix)——

  • 为了解决序列冗长且长度不一样的问题:从原始序列中提取子序列作为特征来比较相似度(参照文献[27]),Tk(S)定义为序列S中长度为k的子序列(k-grams)的集合。
  • 为了让两个不等长序列达到统一长度来计算距离:定义T = Tk(S1)∪Tk(S2),T长度为n。
  • 然后计算T中每个子序列在两个序列中分别出现的归一化频数,分别存入两个序列对应的一个数组中(该数组长度为n)。则该数组为一个n维的向量,两个向量算余弦公式的反函数得出两个序列的polar distance。
  • 这个polar distance取值范围为0到1,结果越小,距离越小,相似度越大。
  • 在文中数据集作者测试了k从1到10的取值,发现k=5时效果最好,呈现出最明显的模式(presents the most distinct patterns)。

在建立相似度矩阵之后,根据学习者的相似性将其投影到二维空间。投影方法选择t-SNE:通过将数据点之间的相似性转换为联合概率,并在二维地图中为每个数据点提供一个位置,来可视化高维数据,以更清楚地看到学习者的分组。

每次用户选中一个分组,将采用序列挖掘算法VMSP挖掘最大序列模式。介绍SPMF:一个开源的序列数据挖掘库平台,包括MaxSP、VMSP、VGEN、FEAT、FSGP等算法,作者对每种算法测试了结果并选择了VMSP算法。VMSP的选择参考了文献[31]:Z. Liu, Y. Wang, M. Dontcheva, M. Hoffman, S. Walker, and A. Wilson, “Patterns and sequences: Interactive exploration of clickstreams to understand common visitor paths,” IEEE Trans. Vis. Comput. Graph., vol. 23, no. 1, pp. 321–330, Jan. 2017.

3.2 Task Analysis

T1:能否根据学习顺序确定任何学习者群体,并得知这些群体的分布情况?

T2:不同学习群体的典型学习序列模式是什么?

T3:对于不同的学习者群体,连续事件之间的非线性的转换(Non-Linear Transitions)的概况如何?大多数MOOC都有一个设计好的学习顺序,课程设计好的连续事件之间的转换定义为线性转换(Linear Transitions)。相对而言学生不遵循顺序的、个性化学习里的跳转则称为非线性转换。

T4:对于一个指定的事件(课程资源里的某个特定的视频、某次作业等)的前后连续事件是什么?用于了解用户在这个特定事件之前和之后是如何进行他们的活动。

T5:学习序列的时间差异是什么?时间信息影响学生的学习方式,尤其是当他们第一次学习和复习测验或考试时。因此,需要时间过滤功能来帮助用户研究这种模式的不同。

T6:个人学习序列是什么样的?确切地了解学生在不同课程期间的表现、深入到特定的学习者中,一个可以支持不同粒度级别的系统是有帮助的。

T7:每个个人序列与其他人的序列有何区别?如何找到相似或不同的个体?这是基于T6提出的一个问题:调查完某个个体的学习序列之后,需要找到其他学习者是否与所选个体具有相似的序列。通过一个相似度排序功能直接对不同的个体序列与该选定个体进行比较。它可能会启发教师向学生提供建议,例如“根据与你有相似学习顺序的学生的表现,你很有可能通过重温这些学习单元赶上课程。”——这是基于相似用户行为序列的一个学习建议推荐。

3.3 Design Rationales

系统设计的基本原则:

R1:帮助快速识别学习者群体和最常见的模式

R2:逐步显示足够的信息量。“概况放在首位,细节通过指令呈现”的原则,遵循从一般到详细的分析任务,从简单到复杂实现这些可视化。提供了四种不同的可视化效果:散点图、弦图、弧图和增强链图。

R3:支持即时反馈的交互式过滤。系统提供直接选择的可视化功能和单独的控制面板进行精确过滤。

R4:为多个视图进行一致的设计和适当的链接。

4 VISUALIZATION DESIGN

4.1 System Overview

系统顶部可以选择要浏览的课程,主界面参照图1。

(a)为投影视图(projection view),以散点图形式依据学习序列的相似度来表示学习者,可以识别学习者分组。

(b)为模式视图(pattern view),罗列通过VMSP算法检测出来的序列模式,并以条形图的形式显示出现的频率。

(c)和(d)为序列视图(sequence view),一个交互式的三级和弦图。(c)是周与周之间的,(d)是一周内的情况。

(e)为个人视图(individual view),由顶部弹窗进入,显示整个课程期间学习者的个体学习顺序。

每个视图都有一个独立的控制面板来过滤(FILTER)学习者的成绩、课程时间段。

4.2 Visual Encoding

矩形、圆形和三角形三种形状分别用于编码三种类型的学习事件,即视频观看、作业练习和论坛讨论。

不同的颜色用来代表不同的星期。

4.2.1 Projection View

为了便于对有意义的模式进行研究,应用VMSP算法挖掘出的序列模式还进行了分类、进一步支持搜索功能,允许用户过滤出感兴趣的模式。

投影视图显示为所有学生的散点图,其中每个学生由一个节点表示。基于学习者在整个课程期间的序列相似性完成了投影视图,来发现学习者组,并确定不同组的总体学习者分布(这里完成了T1)。

预定义的时间段是整个学期,还可以在控制面板筛选更具体的持续时间,同时设定成绩阈值过滤不及格学生等。用户可以通过在散点图上用矩形框直接进行选择,选中一部分学习者(符合了R1)。

此视图与其他视图链接起来以便用户可以在不同的视图中看到同一组学习者的可视化效果(符合了R4)。

4.2.2 Pattern View

模式视图展示不同学习者组的典型学习序列模式(完成了T2)。

从投影视图中选择一个学习者组后,模式视图显示从VMSP中挖掘的所有序列模式,并在左侧显示其条形图表示出现频率。每个条形图的长度代表具有该序列模式的学习者的数量。每一行显示一个挖掘的序列模式,每个事件用彩色矩形、圆形和三角形标记。

允许用户通过根据模式长度进行排序或基于不同的持续时间对序列模式进行分类。提供模式查询功能来过滤指定的事件(图1b中打开的QUERY窗口),提供对某个事件或一组事件的包含和排除。

4.2.3 Sequence View

序列视图由一个三级交互图组成,用于从不同的细节层次(T3T4)和不同视角(T5)可视化连续事件之间的非线性转换。

图1c以和弦图来演示两周之间的转换,不同周之间的流入和流出是分开的,每个流的宽度表示具有该转换的学习者的数量(鼠标停在这个流上会显示具体数值)。

图2是比较不同学习群体的学习序列的应用。将学生的成绩从高到低排列分成A到E五个组,O代表整个学生群体。

点击转换流,这些学习者的分数分布的直方图出现在底部,如图1中c和d两张图的底部所示(符合了R3)。

当单击序列视图中选定的圆圈边缘时,会打开对应周的同一周内的事件序列转换时(第二级视图),然后会显示一个弧形图(图3a)。其中结构化事件在选定的一周内垂直对齐,右侧的圆弧表示向前过渡,而左侧的圆弧表示向后跳转(完成了T3)。

在第二级视图上选定中间的某个特定元素,将展开第三级视图(图3b),描述了某个特定事件的前序和后续事件,左右两条垂直条形图显示了前序和后续事件中的不同事件的分类(完成了T4)。时间范围和学习者等级也可用于在控制面板中过滤学习者(完成了T5)。

4.2.4 Individual View

个人视图位于单独的弹出窗口中,而不是作为主界面的一部分。

图4:事件按时间顺序排列,每个小形状表示一个事件,形状表示事件类型,颜色表示该事件所属的周。利用折线图来表示连续事件之间的距离,若按照设计的课程顺序则画一条直线来连接,若向前跳过了几个学习单元则使用上三角线连接,若回顾之前的学习单元则画一条较低的三角形线。当其中一个事件是期末考试问题时,用一条矩形线来更明确地显示转换。三角形或矩形线的高度表示两个连续事件之间的相对距离。(完成了T6

为了便于搜索相似的学习者,使用了先前计算的相似度矩阵,当用户选中一个感兴趣的个体时,其他个体序列根据与所选个体的相似度进行排序(完成了T7)。

5 CASE STUDIES

三个实验课程,J1和J2是同一个课程的不同课程结构(一个10周,一个5周),E1是另一门语言类课程。

5.1 Learner Grouping and Typical Sequential Patterns

图6:对三门课程中成绩合格的学生(60分以上)进行筛选时,前两门课程有两个明显的分组,而第三个课程只出现一个明显的分组。(A)~(C)显示了所识别组的典型个体序列,其中(A)和(C)中有较多的代表期末考试周频繁跳转的矩形线,具有相似模式。

5.2 Non-linear Transitions from Different Levels of Detail

延续5.1节的结果,学习者在期末考试中有两种典型的方式,因此继续挖掘不同的学习者准备期末考试的方式是否也不同。筛选出考试前一周的Sequence View(图7),高分学习者开始复习前几周的视频(a),低分学习者仍在努力学习前一周的材料(b)。

点击随机一周的边界打开第二级视图(图8),将阈值设置为100隐藏少于100个学习者的流(a),选中一个特定的序列路径来过滤来自同一组学习者的学习序列(b)。

5.3 Individual Sequence Exploration and Comparison

从5.2的Sequence View中第三级视图中选定某个学生进入Individual View,图9展示了两种不同类型的跳转行为。

6 EXPERT INTERVIEW

通过采访4位专家描述了这个系统的可用性、视觉设计和互动。

7 DISCUSSION

7.1 System Limitations

相似性度量中时间信息的损失:选择当前的相似性度量方法是因为它能更好地反映不同长度序列的相似性——特别是与传统的相似性度量如编辑距离相比,然而这个度量丢失了时间信息。为了减少这种信息损失,作者提到计划探索基于哈希的技术来加快计算速度。这样,当用户选择一个特定的时间段时,我们可以用过滤后的序列更新投影视图。因此,不同的行为不太可能会被计算为相似行为。

另外提到可伸缩性的问题、缺乏对学习序列的内容感知分析、在探索过程中缺乏并行比较的支持、挖掘到的学习序列模式与学习结果(如平均成绩、退学率等)之间缺乏视图上的联系等问题。

7.2 Design Reflection

散点图有助于识别具有相似序列的学习者分组,和弦图显示了不同周之间的非线性转换,而弧图则显示了同一周内的转换。

T4本质上是T3的一个子任务。

7.3 Generalizations(通用化)

这类应用不仅可以应用于在线教育领域,也可以应用于其他事件序列数据分析。提到ViSeq是一个非常通用的系统,可以适应不同的应用领域。

7.4 Implications for the Education Domain

总结了在教育学领域的三个潜在方向:

  • 利用学生的实际学习序列来检验教学假设,并通知教师重新设计课程。
  • 促进个性化推荐,促进自主学习。
  • 在设计面向学生的可视化面板时,遵循所谓“成功”学生的学习轨迹。

8 CONCLUSION AND FUTURE WORK

CONCLUSION

  • 重述了ViSeq的四个视图作用:(a)识别学习者群体的投影视图;(b)识别最频繁的学习序列模式的模式视图;(c)探索连续事件之间转换的序列视图;(d)呈现每个学习者序列并比较相似个体的个体视图。

  • 使用了多种交互技术:过滤、搜索、突出显示、排序和历史回调。

  • 介绍了相似度计算和学习者分组的方法。

  • 通过与领域专家的访谈总结出的分析任务。

FUTURE WORK

  • 提交作业的成绩信息可用于探索更有意义的学习模式。
  • 年龄、语言和教育背景信息也可能有助于识别不同的学习者群体,并解释原因。
  • 将较长的序列模式可视化,用于分组级的分析。高阶网络(HoN)可以通过创建额外的节点来表示高阶相关性来研究较长的序列模式(参考文献[54])。

参考文献54:HoNVis: Visualizing and Exploring Higher-Order Networks

高阶网络(HoN):通过创建额外的节点来编码高阶的相关性,提供了更准确的转换描述。

文章提出了一个新的视觉分析框架来探索全球海运网络的高阶相关性,利用多个视图从三个级别(全球、某地和单个港口级别)显示海运网络的结构。最后讨论了该框架在其他实际应用中的可推广性,提到了社交网络中的信息传播。将电话或推特转发视为船舶轨迹,HoNVis可以用于探索信息传播模式。

参考文献27:Unsupervised Clickstream Clustering for User Behavior Analysis

研究面向用户行为分析的无监督点击流聚类,建立了一个无监督的系统,从点击流数据(用户点击事件的痕迹)中捕捉用户行为,并以直观的方式可视化检测到的行为。通过划分相似图来识别相似用户的集群(图3和图4)

在第4页的Clickstream and Similarity Graph中提到了ViSeq文章中参考的k-grams和polar distance(描述基本一样)。

在后面的Feature Pruning based Clickstream Clustering分析中提到采用Divisive Hierarchical Clustering算法,分层聚类步骤在图1中描述,可以用于任意矩阵空间和发现任意的聚类形状。该算法的参考文献[13]: L. Kaufman and P. Rousseeuw. 2009. Finding groups in data: an introduction to cluster analysis. Vol. 344. John Wiley & Sons.

另外提到为了确定聚类的个数(Determining the Number of Subclusters)采用了模块度(Modularity),用于测量簇内边缘到簇外边缘的密度。参考文献[4]:V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre. 2008. Fast unfolding of communities in large networks. JSTAT 2008, 10 (2008).