总评审

优点：

话题与SIGCSE非常相关
数据集相当大
分析很好地呈现出来
将视频观看行为编码为字符串是一种有趣的方法
视觉效果非常简洁

缺点：

文章像一篇应用机器学习进行的项目报告
结果&讨论部分较多不足之处。在Programming1和Programming2课中没有full participation learners，原文的意思是利用轮廓系数确定的K值是2，所以没有这类学习者，但是过于牵强，应该是由于课程差异很大而导致的可能同一聚类方法不能应用于不同的课程。
4门特殊课程的选择过程没讲清楚

建议：

展示一些创造性的新应用技术
进行一些实验，以证明该工作在现有工作的基础上有所改进
比较并替代现有技术

评分

评分项	审1	审2	审3
有理论基础	2	1	3
有一个或多个研究问题	3	2	3
研究问题有基于相关的前期工作	2	2	3
工作解决了研究问题	2	2	3
文章提供了足够的细节来支撑对研究结果的复现	1	3	3
文章中描述的过程/方法是回答研究问题的有效方法	2	2	2
贡献描述清楚。（若是新项目，）介绍了超出先前工作的贡献。（若是复现，）本文的贡献包含了对与先前研究相比的新结果意义的讨论。	1	2	3
对有效性的威胁或研究局限性已明确说明，并证实其适合研究过程/方法	1	1	1
陈述（文字、图表或图表）清晰明了	1	2	2

一审

优点

主题相关
将视频观看行为编码为字符串是一种有趣的方法

缺点

没有讨论以往研究成果，缺乏理论依据
描述了该方法，但存在潜在的偏差问题和缺乏适当的理由
结果中没有足够的细节
研究问题的影响不明确，与这些问题相关的结果的意义没有得到适当的讨论
对有效性的威胁没有得到解决

总体评价

建议把工作更多地放在文献研究中：因为在学习分析方面已有大量的工作（推荐了一个：Ihantola等人从2015年起对LA的研究）；对于related work应该描述他们的发现，而不仅仅是使用的方法。
修改RQ2的措辞：学习结果是由教师定义的、学习者期望达到的，聚类集群不会直接影响学习结果。我知道作者们想用这个问题来评估学生在课堂上的表现是否会有差异，我的评论也反映了这个假设。

RQ2: Do different learning patterns of different clusters of learners exert an influence on learning outcomes?

只报告了每个分组的平均分和学生人数：希望看到更多的描述性统计数据，比如分数的标准差、每个聚类中字符串长度的平均值和标准差，并对每一组学生的行为进行全面评估；而不是仅仅从5个组别中分别选出一个学生，5253个学生只有5个被研究讨论。同样，也没有证明在不同课程里的相同类别学生的相似性。
评估类别之间平均分差异的显著性：需要一些统计测试，比如ANOVA或非参数检验。同时，没有说明后3门课程的分数为何如此之低。并且没有讨论课程之间各类别的分差的差异性：第二高的“Section-oriented” cluster类学习者平均分，在Theory_2里比第一高的低了50%，而在Theory_1里只低了10%。
确定研究问题之间的相关性、以及结果与它们如何解决问题之间的联系：本文中所有的研究问题都有一个二元的结果，可以直接用“是/否”来回答，没有多大意义。比如RQ3可改为：What are the differences in the clustering results among different types of clusters?
所产生的聚类集群似乎是人为的：预先分成两类之后使用K-Medoids分成5类似乎是随意确定的，没有报告一共8次K-Medoids运算过程中的轮廓系数的具体变化情况。建议在每次确定k值时都显示一个轮廓系数图。同样，一个课程有5个集群而其他课程有4个集群，但结果上保持相同的集群名称，需要更多的数据驱动的理由——比如对每个集群的字符串都进行描述性统计。
报告更详细的结果的这个建议同样意味着这项工作的复现。除开有效性不谈，文章提出的方法得到了描述并且是可以重复使用的，但是论文缺少的细节使得这项工作无法得到复现和验证。
在1585门课程中选择这4门的原因没有说明。例如：选择过程是什么？每个课程中都有多少个视频？视频的长度（最大值、最小值、平均值）是多少？有这些课程的学习者的个人信息吗？每门课程的作业考核评估都有多少次？
结果存在偏差的一个可能的原因：对于那些未完成（辍学的）学习者给了0分。应该报告清楚那些未完成练习的学生数量，与真正考得很差的那些人区分开。只考虑已完成（有得分）的学习者来计算平均分可能是一个更好的方法。
其他不算很大的问题：作为这项工作的动机的未经证实的陈述，例如“The analysis results of video watching behavior is the most direct reflection of learner’s learning behavior”，这在文献中有点争议（参考），建议引证一下。
总而言之的问题：the validity of the methods and the lack of transparency in the results

二审

语法问题

较多待解决的语法问题，摘要的第一句话就有几个问题，不过其含义大体上是清楚的。

优点

有趣的问题——在MOOC中描述学生的主要行为类型
技术方法似乎合理
论文的组织结构很好，很容易理解所做的事情

缺点

研究贡献不大：简单地展示了使用MOOC数据进行聚类分析和可视化的一种方法，没有尝试多种方法，并且建立一套标准来评估哪种方法是最好的。
没有将他们的聚类方法与其他方法进行比较，以证明他们的方法更有效。只是在解释他们尝试过的一种方法，使得无法评估该方法是否比任何其他方法更好或更差。
本文的一个关键技术选择是如何将视频日志数据编码为字符串，但无法判断这是否是一个好的选择。同样地对聚类分析的选择也是如此。
一般来说，无监督学习和可视化方法是很难评估的；但至少可以说明，如果使用其他方法，他们的结果会如何变化。需要对比
语法问题：由于语法问题论文很难阅读，特别是在前几页中这个问题似乎尤其糟糕，对应文字里作者们正在高水平地解释他们的工作。
建议提供一个例子来展示某个学生的视频观看行为的编码字符串。
在第3.1节中作者把日志数据分为不同的观看“session”，但后面又提到了“Sequence”，尚不清楚序列中的字符串是否对应于单个会话。（特别是3.1节的最后两段表述不清楚）

总体评价

研究贡献薄弱。
没有将文中方法与其他方法进行比较，也没有提供一种评估结果质量的方法。
论文更多的是对一个工程项目的描述，而不是一篇研究论文。

三审

语法问题

本文最有趣的部分之一是聚类方法发现了5种类型的学习者，并且这5种类型的学习者（a）是可解释的，（b）在不同的课程中相当一致。建议在摘要和结论中强调这五种类型的学习者。

详细意见

建议删除摘要的前两句话，以便更快地抓住要点
第2章节第2段的”screen out”表述不清，不知道是”including”还是”excluding”
第2章：不是 “user’s ID”, “course’s ID”而是”user ID”、”course ID”。”OS”作为操作系统的缩写需要大写。”local start time”应该比”start local time”更常用，”real time”意味不明。
第2章第一段：”a log entry will be generated”
3.2章：”Considering the form of string in behavior sequences, we use Levenshtein distance as our similarity measurement”应该是”Since we are computing similarities of sequences, we use the Levenshtein distance.”
4.2章：”we extract all the log of him”应该是”we extract all his logs…”或者（更可取的，保持性别中立的）”we extract all their logs…”
表3：减少“Average Score”列中的有效位数，以显示适当的不确定度。
表1/2/3中的“Number”推荐用“Count”代替

优点

这项工作与更广泛的SIGCSE话题界相关。
该方法相当有趣，似乎是合理的。
类似的可解释聚类出现在多个课程中，这是一个非常引人注目的结果。
论文的结构也很好，虽然有一些语法问题，但易于理解。
数字很容易理解，也很有启发性。

缺点

评估学习成果的方法存疑：低覆盖率的学习者不会完成大部分题目，所以“average score”更像是练习题完成率的代表。更推荐的指标是计算每个学习者实际完成的题目的平均分数。比如4.2节最后几句讨论的话，比较并不完全成立，因为不清楚section-oriented learner是否仅是因为完成了更多的问题而把平均分抬高了。

For example, the average score of low-participation learners is 10 points less than that of section-oriented learner, indicating that the outcome of superficial learning is worse than that of targeted learning.

研究的MOOC背景条件不充分，不利于把研究结果置于特定背景中讨论：它们在小学/中学/大学环境中使用过？学员是否需要完成课程才能获得一些证书认证？对于编程课程，是否有一些入门部分是大多数学习者跳过的，因此没有full-participation learners？
第4.1节似乎表明低覆盖率学习者比高覆盖率学习者多得多，但这些数字与表1和表2不符。（确实这里4.1节写反了）对于大多数MOOC来说，低覆盖率的学习者应该会比高覆盖率的学习者更多。（但是Theory_1就是一个例外）
低覆盖率和高覆盖率学习者的聚类前的划分本身是非常有趣的，但是多讨论一下为什么不能将这两个群体聚集在一起将有助于理解。
集群中是否有异常值，如果有，这些异常值有多普遍。有多少学习者不适合这五个聚类集群？
对有效性的威胁没有得到解决。