国立中山大学 资讯管理研究所
硕士论文
从学习历程档案建构决策树以支援网路教学
Constructing Decision Tree Using Learners' Portfolio
for Supporting e-Learning
研究生:廖圣杰 撰
指导教授:陈年兴 博士
中华民国 九十二年七月
博硕士论文授权书
(国科会科学技术资料中心版本92.2.17)
本授权书所授权之论文为本人在_ 国 立 中 山__大学(学院) _资讯管理_系所
_ (空白)_ 组__91__学年度第_2_学期取得_硕_士学位之论文.
论文名称:__从学习历程档案建构决策树以支援网路教学___
R同意 □不同意 (政府机关重制上网)
本人具有著作财产权之论文全文资料,授予行政院国家科学委员会科学技
术资料中心,国家图书馆及本人毕业学校图书馆,得不限地域,时间与次
数以微缩,光碟或数位化等各种方式重制后散布发行或上载网路.
本论文为本人向经济部智慧财产局申请专利(未申请者本条款请不予理会)
的附件之一,申请文号为:______,注明文号者请将全文资料延后
半年再公开.
--------------------------------------------------------------------------
R同意 □不同意 (图书馆影印)
本人具有著作财产权之论文全文资料,授予教育部指定送缴之图书馆及本
人毕业学校图书馆,为学术研究之目的以各种方法重制,或为上述目的再
授权他人以各种方法重制,不限地域与时间,惟每人以一份为限.
上述授权内容均无须订立让与及授权契约书.依本授权之发行权为非专属性发行
权利.依本授权所为之收录,重制,发行及学术研发利用均为无偿.上述同意与不同
意之栏位若未钩选,本人同意视同授权.
指导教授姓名: 陈年兴
研究生签名: 学号: 9042615
(亲笔正楷) (务必填写)
日期: 民国 92 年 月 日
1. 本授权书 (得自http://sticnet.stic.gov.tw/sticweb/html/theses/authorize.html 下
载或至http://www.stic.gov.tw首页右下方下载) 请以黑笔撰写并影印装订於书名页之次
页.
2. 授权第一项者,请确认学校是否代收,若无者,请个别再寄论文一本至台北市(106-36)和平
东路二段106号1702室 国科会科学技术资料中心 王淑贞.(本授权书谘询电
话:02-27377746)
3. 本授权书於民国85年4月10日送请内政部著作权委员会(现为经济部智慧财产局)修正定
稿,89.11.21部份修正.
4. 本案依据教育部国家图书馆85.4.19台(85)图编字第712号函办理.
致谢
研究所的日子转眼即逝,这两年生活中的点点滴滴,若不是亲身经历,就不
会有这麼深刻的体会,在研究所生活中,首先要感谢我的指导教授陈年兴老师,
在这两年中老师对於研究认真的态度,并让我能时时掌握自己论文的进度与方
向.同时也要感谢口试委员游宝达教授以及黄武元教授在口试时给予的建议,论
文得以更为完善.
实验室的岳峻学长,盛文学长,以及秀佳学姐,谢谢你们对我的研究方向上
给予相当多的帮忙;一同努力奋战的道辉,佑宏,铮琪,慧成,不论在研究或生
活上都感谢有你们一起分享;还有辛苦的学弟妹们,也谢谢你们口试当天的帮
忙,并感谢同学兼室友,俊凯与启常,以及3024,3024-1的同学们,更让我在
苦闷的课业之外也留下许多欢乐的回忆.
此外,也要感谢我的父母及姊姊,在这段离家求学的日子无悔的给予我生活
上的支持,让我在异乡念书更无后顾之忧;还有我的女友妍希,能在这里求学都
是因为有你的支持与鼓励.在此仅将论文献给我的家人及女友.
廖圣杰 2003年7月
谨志於西子湾中山大学
论文提要
学年度: 91
学期: 2
校院: 国立中山大学
系所: 资讯管理学系研究所
论文名称(中): 从学习历程档案建构决策树以支援网路教学
论文名称(英): Constructing Decision Tree Using Learners' Portfolio for
Supporting e-Learning
学位类别: 硕士
语文别: 中文
学号: 9042615
提要开放使用: 是
页数: 73
研究生(中)姓: 廖
研究生(中)名: 圣杰
研究生(英)姓: Liao
研究生(英)名: Shen-Jai
指导教授(中)姓名: 陈年兴
指导教授(英)姓名: Nian-Shing Chen
关键字(中): 网路教学,学习历程档案,资料探勘,决策树分析
关键字(英): e-Learning, Portfolio, Data Mining, Decision-Tree Analysis
i
中文摘要
网路学习的发展与成熟,透过学习者在教学网站参与各项教学活动过程中所
记录下来的学习历程档案,可以帮助教师有效的掌握学习者的学习状况.为了将
这些储存每个学习者的学习动作之网页日志转换成具教育意义的资讯,以帮助教
师能够即时观察学生的学习状况.并提供整合多个维度的观察方式,让教师可即
时观察学生所有的学习行为及学习状况.本研究提供一个整合性的分析机制,可
以利用现有的学习历程档案,整合多个观察维度分析出学生的学习行为,并用决
策树分析预测出可能发生学习困难的学生,让教学者可以即时的给予适当的教学
辅助.
经由本研究的分析发现,(1)不同的课程与其产生的决策规则将会与该门课
程的课程性质,教师的教学方式以及分数评量重点项目不同而有不同对应属性,
而缴交作业将是教师在评量学生的学习成效上一个很重要的依据,且这些与学生
学习成效相关的属性都一定与学生在网路上学习行为相关.(2)利用时间点的观
念将这些学习行为变项做累计的动作,确实能够在一定的时间点之前就能够提早
预测到学生可能的学习成效;然而以不同时间单位做预测的效果差异性不大,但
个别来看各个时间单位下都能在一定的时间点即达到预测的效果.(3)用不同成
绩等级分类方式针对整体学生来做分析预测时,各种的成绩分类方式对於描述决
策规则的效果都很高,但预测整体学生的学习行为与学习成效间的关系有其困
难.(4)平均而言经由本研究所分析出的决策规则用来预测高分群学生的学习行
为较为不易,但是能够有效的预测出低分群的学习行为.表示经由本研究的方
式,能够在学期中藉由即时的观察学生的学习状况与学习行为,提早预测出可能
落入低分群的学生,教师可以依据此资讯即早给予教学辅助以达到个别化教学的
目标.
关键字:网路教学,学习历程档案,资料探勘,决策树分析
ii
Abstract
In recent years, with the development of electronic media, e-learning has begun
to replace traditional teaching and learning with Internet service. With the availability
of newly developed technology, opportunities have risen for the teacher of e-learning
to using students' learning logs that recorded via Web site to understanding the
learning state of students. This research will address an analytical mechanism that
integrated multidimensional logs to let teachers observe students all learning
behaviors and learning status immediately, and used decision tree analysis to detect
when and what students may have a learning bottleneck. Finally, teachers can use
those results to give the right student with the right remedial instruction at the right
time.
Summary, we have four conclusions: (1) the decision rules are different from
course to course, for example instruction method and assessment method, assignment is a
basis to assess student's learning effectiveness, as well those attributes cooperate with
learning effectiveness are related to student's learning behaviors. (2) To accumulate
those learning behavior attributes with the time point actually detect learners probably
learning effectiveness early. The variation of effectiveness with different time interval
is not clearly, but all time intervals can detect learning effectiveness early. (3) To
detect students' learning effectiveness with different grade level classifications, every
grade level classifications can describe decision rules very well, but not to detect all
students' learning effectiveness. (4) Although to detect high-grade students' learning
effectiveness are very difficult, but we can detect lower-grade students' learning
effectiveness. Finally, this research can really observe student's leaning states
immediately, and early detect students' learning effectiveness. Therefore, teachers can
make decisions to manage learning activities to promote learning effect.
Keywords: e-Learning, learning portfolio, data mining, decision tree analysis
iii
目 录
第1章 绪论..................................................................................................................1
1.1 研究背景.........................................................................................................1
1.2 研究动机.........................................................................................................2
1.3 研究目的.........................................................................................................4
1.4 论文架构与研究流程.....................................................................................5
第2章 文献探讨..........................................................................................................7
2.1 学习历程记录与相关研究.............................................................................7
2.2 学习活动,学习时间与学习成效之关系.....................................................9
2.3 资料探勘相关理论.......................................................................................11
2.4 决策树相关理论与应用...............................................................................14
第3章 研究架构与方法............................................................................................20
3.1 研究架构.......................................................................................................20
3.2 研究对象.......................................................................................................22
3.3 分析变数.......................................................................................................23
3.4 研究步骤.......................................................................................................24
3.5 研究方法与工具...........................................................................................31
第4章 资料分析结果与讨论....................................................................................32
4.1 不同课程下课程属性与决策规则之关系...................................................33
4.2 不同时间单位下各时间点与决策规则之关系...........................................39
4.3 不同成绩等级分类方式与决策规则之关系...............................................46
4.4 不同时间单位下各时间点与高分及低分预测效果之关系.......................48
4.5 不同成绩等级分类方式与高分及低分预测效果之关系...........................58
第5章 结论与建议....................................................................................................63
参考文献......................................................................................................................68
中文参考文献......................................................................................................68
英文参考文献......................................................................................................71
iv
图 目 录
图1- 1 研究流程图......................................................................................................6
图3- 1 研究架构图....................................................................................................21
图3- 2 研究流程图....................................................................................................25
图4- 1 第五期计算机网路与网际网路专题的决策规则........................................33
图4- 2 第五期管理资讯系统专题的决策规则........................................................35
图4- 3 第六期电子商务专题的决策规则................................................................37
图4- 4 第七期计算机网路与网际网路专题的决策规则........................................38
图4- 5 以时间单位之整体训练错误率....................................................................45
图4- 6 以时间单位之整体预测错误率....................................................................46
图4- 7 不同成绩分类方式之整体训练错误率........................................................47
图4- 9 不同时间单位之高分训练错误率................................................................52
图4- 10 不同时间单位之高分预测错误率..............................................................53
图4-11 不同时间单位之低分训练错误率...............................................................57
图4-12 不同时间单位之低分预测错误率...............................................................57
图4-13 不同成绩分类方式之高分训练错误率.......................................................59
图4-14 不同成绩分类方式之高分预测错误率.......................................................60
图4-15 不同成绩分类方式之低分训练错误率.......................................................61
图4-16 不同成绩分类方式之低分预测错误率.......................................................62
v
表 目 录
表2- 1 学生学习行为与学习型态之相关研究 (本研究整理)................................10
表2- 2 条件X属於分类C的对应表.......................................................................18
表3- 1 资管系网路硕士学分各学期开授课程........................................................22
表4- 1 以七天为时间单位下各个时间点之训练错误率........................................40
表4- 2 以七天为时间单位下各个时间点之预测错误率........................................41
表4- 3 以十四天为时间单位下各个时间点之训练错误率....................................42
表4- 4 以十四天为时间单位下各个时间点之预测错误率....................................43
表4- 5 以二十八天为时间单位下各个时间点之训练错误率................................44
表4- 6 以二十八天为时间单位下各个时间点之预测错误率................................44
表4- 7 高分群,不同时间单位下各个时间点之训练错误率................................49
表4- 8 高分群,不同时间单位下各个时间点之预测错误率................................51
表4- 9 低分群,不同时间单位下各个时间点之训练错误率................................54
表4-10 低分群,不同时间单位下各个时间点之预测错误率...............................55
1
第1章 绪论
1.1 研究背景
随著网际网路的普及与资讯科技的进步,以资讯数位化的方式来进行知识的
传授与共享已经成为必然的趋势,其中利用网路教学的方式也是主要的应用之
一,而目前也有许多的网路教学系统提供教师在网路上进行教授课程以及让学生
在网路上进行学习.
网路教学打破了时空的限制,让教师与学生可以在网路上进行与传统教学相
近的教与学活动.其最大的好处是可以在不影响学生进行学习的情况下,方便的
记录所有与学生相关的学习行为资讯.对教师而言,这些学习资讯除了可以用来
检视学生的课程表现及学习情况外,亦可做为教师在教材编排,教学策略制定及
教学活动设计之参考(刘惠如,1999).但是这些学习记录无法直接给予教师与学
生有意义的资讯,必须经由繁复的步骤来转换这些大量的网页日志(Web Log)才
能够找出具有教学意义的学习资讯(蔡旻芳,2001).许多关於网路教学的研究显
示记录学生的学习路径及学习表现,可以提供教师作为评估学习成效及诊断学习
困难的依据,这些都是非常有用且较真实的评量资料(童宜慧,张基成,1996,
2000;蔡孟勋,2000).然而一个整合性的分析机制,且可以提供教师以多种维
度来观察学生在课程进行过程中的学习历程资讯,并提供整体性的学习资讯让教
师做为辅助教学策略时的依据之相关研究就显的非常的重要(刘晨钟,2003).
因此,本研究提出了一个整合性的分析机制,透过对这些异质且大量的学习
记录与网页日志的处理,并整合多个观察维度来分析这些学习历程资讯,以找出
学生的学习行为,以便於能够根据学生目前的学习情况主动预测出学生可能的学
习成效,让教师可以根据这些预测资讯对可能发生学习困难的学生进行辅助之教
学策略.
2
1.2 研究动机
随著网路学习的发展与成熟,网路上累积的学习资源与教学系统日趋丰富,
目前有许多的网路教学系统,如Web CT,Learning Space,Top Class,中山网路
大学等,这些网路教学系统都提供教师在网路上进行教授课程以及让学生在网路
上进行学习.由於在网路上进行教与学的活动时可以达到与在传统教学环境相同
的教学方式,也就是说教师可以在网路上进行同步或是非同步的课程内容的讲
授,也可以在网路教学系统提供教材与相关资源供学生线上阅读;学生针对上课
内容所产生的问题也可以在网站上提问问题与进行讨论,教师也可以请学生进行
分组讨论,小组专案合作等等(陈年兴,石岳峻,2000).
除了能够达到与传统教学环境具有相同的教学活动之外,许多研究也指出,
在网路上进行学习与一般传统教学最大的不同之处为网路学习并不会受限於传
统教学环境中的学习模式,除了网路上学习资源相当多使得教材资源的取得更为
方便与弹性之外,在教学活动上教师不须亲自与学生面对面的教授课程,而学生
也无需在固定时地上课,让学习者可以依据各自的需求进行学习,也在时地上更
加的具有弹性(童宜慧,张基成,1996;林奇贤,1997;林清贺,1998;陈年兴,
石岳峻,1999;吴信贤,2000;陈年兴,林甘敏,2001).
在网路上进行学习活动的优点除了不受地理时空的限制之外,最大好处在於
所有学习者在教学网站上的学习动作,都会经由系统主机自动记录下来,并将这
些记录存在网页日志内.从另一方面来看,这些网页日志就是目前网站上学生进
行学习的历史性资讯,完整的记录了学生的网路学习行为,对於教师来说这些学
习资讯可以了解学生的课程表现及学习情况(蔡旻芳,2001).
在传统的教学里,测验与评量是用来评估学生学习状况的主要方式.评量不
但可以表现出学生目前的学习情形,并针对学习成效的实际表现可以找出该学生
学习时发生学习障碍的盲点为何,教师也可以针对这些可能的学习盲点进行特别
的辅助教学或是个别教学.然而传统的测验分数,并无法完全反映出学生的学习
3
成效以及学习障碍点,因而无法给予即时的补救与辅助.可见必须解决此问题才
能让教师协助学生找学习盲点出并克服学习盲点,以提高学习成效(萧嘉琳,
2001).
此外,传统的教学环境里,学生的学习历程档案多为课堂心得,作业及作品
集等纸本的形式,这些学习历程档案,不论对於学生或是教师的收集都是相当大
的负担;而在网路教学的环境里,除了可以直接的记录学生的学习动作之外,在
课程中的各个学习活动的记录包括各项的作业,笔记,讨论文章等等都能由主机
直接的记录,对於学习历程档案也可以依照个别学生以及课程的方式有系统的记
录下来,这对於教师要收集,检视课程里所有学生的学习历程,或是学生要检视
自己的学习历程档案来说都具有非常大的便利性.
然而对於教师而言,这些网页日志资讯虽然完整记录了学生所有的学习行
为,也能确实的反映出学生在课程中所有的表现及学习情形,但是这些网站日志
并不是针对教育用途而设计,教师并不易从这些记录中了解学生各种学习行为与
教学策略的关系,所以教师很难从学习历程中推导学生的学习活动效能进而制定
有效的教学活动及教学策略.换而言之,教师在进行网路教学时并无法直接根据
学生目前即时的学习状况侦测出学习是否有效(刘晨钟,2000).这种教学上的决
策资讯除了可以反映出学生的学习情形与学习成效的关系之外,也可以了解教师
的教学特色以及班级经营的方式.因此若能从这些资料中找出对於教师有帮助的
决策资讯,将更能协助教师掌握学生在修课过程中的学习情形,以及针对学生不
同的学习状况进行个别化的教学.所以如何将这些储存著各个学习动作的网页日
志转换成具教育意义的资讯,以帮助教师能够即时观察学生的学习状况,便是相
当重要的研究议题(陈国栋,2003;刘晨钟,2003).
目前针对教学网站学生学习行为的相关研究,大多针对单一的观察指标来观
察与学习成效之间的关系程度(这些观察指标可以是频率值,例如上课次数,或
是学习时间维度,或是社会人口变项等观察维度),但是以单一维度并无法完整
的观察学生的整体学习情形,而且也没有办法给予教师立即性与直接性的资讯来
4
观察学生所有的学习行为.因此,提供以多个维度的观察方式,可以让教师了解
整体学习情形的研究,便成了相当重要的研究方向.
另一方面,许多研究也提到可以将这些学习历程的记录,经过资料的处理产
生适当学习行为的相关资料,并视此相关资料为资料探勘中决策树分析的输入变
项,再加上以学生成绩作为学习成效的指标的分类方式,进而找出学习行为与学
习成效间的关系,并进一步作分析及预测(林清贺,1998;吕静芳,1999;倪家
祥,2000;刘晨钟,2000).然而此类的研究往往只以单一维度的学习行为作学
习行为与学习成效的预测,因此对於学生学习行为的描述并不具有完整性的描
述,因此提供一个多个观察维度的分析机制,分析出学生的学习行为并作出预
测,以达到可以即时的观察与侦测可能有学习困难的学生,将是相当重要研究议
题. 因此,本论文的研究议题便是如何将这些储存著各个学习动作的网页日志转
换成具教育意义的资讯,以帮助教师能够即时观察学生的学习状况.并提供教师
立即性与直接性的以多个维度的观察学生所有的学习行为.针对这些问题,本研
究将提供一个整合性的分析机制可以利用现有的学习历程记录,以多个观察维度
分析出学生的学习行为,并预测出可能发生学习困难的学生以即时的给予适当的
教学辅助.
1.3 研究目的
本研究目的在提供一个整合性的分析机制,提供给教师决策规则作为教学的
辅助资讯,以辅助教师在教学时能够即时知道学生的学习状况,并针对不同学习
行为的学生给予不同的教学或辅助.因此本研究的目的可以分为以下三个:
(1) 探讨目前应用学习历程记录的应用以及影响学习者学习成效的因素,并
分析以归纳出利用学习历程分析所具备的因素有哪些.
(2) 探讨不同课程学生的学习行为与学习成效的关系
5
(3) 这些学习行为与学习成效间的决策规则是否可以用来作为预测学生学
习状况的依据.
1.4 论文架构与研究流程
本论文共分为五章,各章的内容重点简述如下:
第一章 绪论
说明本研究的研究背景,研究动机,研究目的以及论文架构与研究流程.
第二章 文献探讨
本章里面首先探讨目前对於学习历程记录之相关研究,以了解如何应用学生
学习历程记录於网路教学平台的相关研究.第二节是有关影响学习者的学习
型态与学习成效之关系的相关探讨与归纳,藉以了解目前影响学习者不同的
学习型态与学习成效的关系.第三节是针对学生学习活动,学习时间与学习
成效之关系做一说明,藉此了解学习者在网路学习环境中的个人学习状况.
第四节则是对本研究使用的资料分析方法之相关理论与应用进行说明.
第三章 研究架构与方法
说明本研究之研究架构与研究变数,研究对象与研究方法与研究步骤,以及
所使用的研究工具及分析软体.
第四章 资料分析结果与讨论
本章根据分析软体产生的结果进行整理,分析与讨论,并针对资料分析结果
进行讨论.
第五章 结论与建议
归纳本研究的研究发现与结论,说明本研究之限制并提出后续研究之建议.
6
图1- 1 研究流程图
形成研究动机与目的
探讨相关文献与理论
确认研究主题与范围
确立研究架构及方法
整理相关文献资料 资料收集与汇整
资料分析与讨论
归纳结论与建议
7
第2章 文献探讨
本研究的主要目的在於提供教师辅助决策资讯,以辅助教师在教学时能够即
时知道学生的学习状况,并针对不同学习行为的学生给予不同的教学或辅助.在
本章里面首先探讨目前对於学习历程记录与相关的研究,以了解如何应用学生学
习历程记录於网路教学平台的相关研究.第二节探讨有关影响学习者的学习型态
与学习成效之关系的相关研究与归纳,藉以了解目前影响学习者不同的学习型态
与学习成效的关系;并针对学生学习活动,学习时间与学习成效之关系也做说
明,藉此了解学习者在网路学习环境中的个人学习状况.接著第三节及第四节则
是对本研究使用的资料分析方法之相关理论与应用进行说明,包括了资料探勘的
相关理论以及决策树分析的基本原理和延伸的演算法理论,做为本研究在进行资
料分析时的依据.
2.1学习历程记录与相关研究
2.1.1 学习历程记录
学习历程记录,其应用已成为近年来教育上新兴的发展趋势之一,它以特定
的目的或用途来收集学习者学习过程中各面向的资料,以反应或显现学习者的真
实表现及进步或改变的情形(童宜慧,张基成,1996).在传统教学里学习历程记
录所遭遇的主要困难在於资料的储存,搜寻及管理不易.然而透过网路并结合资
料库的方式就可以有系统的记录学习历程.因此,本研究中即是藉由网站主机自
动的记录,并产生每一位学习者的学习历程记录,以完成收集学习者完整学习历
程记录.
8
2.1.2 网路学习历程记录相关研究
过去有关网路学习历程记录的研究,多是分析网站所记录的网页日志资料以
获取决策性资讯的研究,例如WebWatcher可以记录与分析使用者的网页日志的
资料,藉由对过去系统使用者留下的记录进行资料分析与运算,以决定哪些网页
是使用者最常去,或是根据使用者的使用模式,找出下一个最可能连结的网页推
荐给使用者(Joachims, T., 1998,Freitag, D., Mitchell, T. etc., 1998).另外Fuller, R.
(2002)提出可以藉由统计验证使用者花在网页上的时间来评估使用者对网页的
兴趣,来改善网站的网页架构,而使用者花在网页上的时间是透过计算系统里日
志所登录的时间而得.WebLogMiner则是一套针对网页日志伺服器上的登录档
案进行资料探勘的工具.此外也可以利用网路的流量分析(例如用MRTG,The
Multi Router Traffic Grapher),或是教学网站中如果有提供已经整理过的资讯(例
如同班同学资讯,各项学习指标的排名等方式)呈现整体班级的学习情形.诸如
此类的研究,都是藉由分析网页日志 记录,得到系统运作情形或使用者活动趋
向等资料.但是上述研究多仅能呈现学习情形,并无法针对这些学习情形即时的
给予老师对於学生有一些直接且易读的教学资讯,因此必须要运用其他资料分析
方法来针对这些资料做分析.
另外也有些研究提出运用即时多维度分析处理(OLAP)和资料探勘技术分析
网页日志资料,将分析步骤分成清除整理资料,将资料建成Data Cube,利用资
料探勘进行分析等三部分(Zaiane, O.R., 1998),其中Data Cube 的观念是由Jim,
G.(1997)等人提出的,并针对Data Cube 的观念,运作和原理都做了详尽的描述.
此外过去也有许多的研究利用资料探勘的技术来获取资讯,从大量资料中尝试探
勘出一些决策性的规则,例如:Han, J. 将资料仓储(Data Warehouse)或是以OLAP
当作资料来源,以各种资料探勘的方式进行资料分析.资料探勘几乎可处理所有
的资料型态,可处理的资料范围广阔,而统计的理论存在已久,其验证能力更是
受到肯定,利用两者进行分析,相信可以得到更具意义的资料.
9
在本研究中,就是将教学网站里所留下的网页日志中的学习记录做前置处
理,以方便未来能够直接有用的取得这些学习资讯,并采用资料探勘的方式找出
这些学习记录下隐含的资讯以及关联程度,进而找到学生在网路上进行学习时各
种的学习行为与学习成效的规则,以期这些资讯能够给予老师在进行网路教学
时,能即时的了解目前学生的学习情形并适时的给予辅助.
2.2 学习活动,学习时间与学习成效之关系
2.2.1 学习者学习行为与学习型态
关於学习者学习型态(Learning Style),以往的研究发现过去的成绩对於学生
考试成绩有显著之影响(杨奕农,柴蕙质,2000).此外,Kumar(1999)曾研究学
生本身的学业自我概念(academic self-concept),研读的习惯及对远距教学的态度
与学习成效的关连,发现上述三者皆与学习成效成显著正相关,而其中学业自我
概念与学习成效有较高的相关性,且发现学习者的个别资料中的主修科系,婚姻
状况,工作与否与使用远距教学的经验都会间接影响学习成效(Kumar, 1999).而
上述的研究多是探讨社会人口变项与学习成效之间的关系.
近几年的研究多是以学生在网路上的学习行为来探讨与学习成绩之间的关
系,其中有研究是以在网路上的互动方式以及线上阅读时间两个维度来分析学生
的学习类型(陈年兴,林甘敏,2001),例如在网路学习行为上,学生在学习面的
特质有「连续学习型」与「间断学习型」以及「网路积极主动型」与「网路消极
沈默型」;在互动行为上,学生可分「积极互动型」与「不互动型」以及「纯问
型」,「纯答型」,「不问不答型」以及「既问且答型」.另外也有研究是以学生每
次上站学习的持续时间(duration)与上站间隔时间(inter-arrival)两种时间计算方式
(王锦裕,2001,许荣隆,2000,杨岱霖,2000),这两种时间计算方式所构成之
线上阅读时间分布图的类型(pattern),可分为四种学习行为:(1)鲜少投入型,(2)
10
临时抱佛脚型,(3)后继乏力型,(4)时间归划型,并以学生在网站里的发表的文
章内容对应不同的学习型态.学生学习行为与学习型态的相关研究整理如表2-1.
表2- 1 学生学习行为与学习型态之相关研究 (本研究整理)
分类方式 学习型态
学习面的特质 连续学习型与间断学习型;
网路积极主动型与网路消极沈默型
互动面的特质 积极互动型与不互动型;
纯问型,纯答型,不问不答型,既问且答型
学习的持续时间与
上站间隔时间
鲜少投入型,临时抱佛脚型,后继乏力型,时间规划型
2.2.2 学习成效评量
有关学习成效评量方面,一般而言可将学习成效的评量方式概分为两种:形
成性评量与总结性评量(Bloom,1976).形成性评量应用在教学过程中,提供教
师及学生立即性回馈及学生学习进步的详细讯息.而且形成性评量的范围较小,
测验内容限於教学的特定内容,可能是一个概念或原则,或某一单元内容.透过
形成性评量,如发现多数学生在某一题目答错,则对全体学生进行再教学;如仅
少数学生答错,则实施个别辅导.总结性评量则在教学后,用来评定学生的学习
状况.包含学校定期举行的月考和期考,都可视为此种评量.其目的比较偏重在
评定学生的成绩等级,与认定学生的精熟程度,不在於发现学习困难和改进教学.
由於评量是衡量学习成效的具体指标,因此教育部在「国民中学小学九年一
贯课程纲要」即提出评量方法应采多元化方法实施,兼重形成性和总结性评量.
然而现今多数传统学校大多以总结性评量为主,重视段考或单元评量,若有形成
性评量,也只是采用市面上所贩售的纸笔测验,教师很少自行编写适用於班级学
11
生学习状况的形成性评量.由於网路大学有别於传统教学方式,网路大学系统平
台除了能够完整记录各式各样的学习资料,包括学员上网次数,学期成绩,也能
够提供给教师们学员学期参与,群组讨论的内容,与学员的心得等资料.虽然网
路大学学习成效评量,也是以传统「纸笔测验」为主的情况之下,但教师在评量
一个学生的学习成效时,也能够兼顾学生的形成性评量,并不会忽略学生其他能
力,而给出一个不客观的学习成绩.
而本研究基於在网路学习上除了以传统纸笔测验形式进行成效评量之外,也
兼顾到能够利用各种的学习资料与学习行为记录进行形成性评量的观念,将针对
这些学习行为记录进一步萃取出学生的学习历程,以提供给教师作为成效评量的
参考资讯.
2.3 资料探勘相关理论
近几年来,各种和资讯相关的产业累积大量的资料.这些资料里面,包含著
许多有用的知识,以原始资料的方式散布在其中.而这些资料对於商业上的管
理,产品的研发,行销设计等等,都是非常有用的资料,所以开始引起大家的注
意,想要从里面挖掘出里面所拥有的资讯.从原始的资料(Raw Data)转换出我们
所需要资讯(或称知识)的过程中,对於资料探勘有著不一样的观点与定位.而也
有研究认为资料探勘是知识转换过程中的一个阶段,其中应该包含了资料前置处
理的步骤,以及之后知识的过滤与呈现等后续步骤;不过也有学者认为资料探勘
所代表的是整个知识探索的过程;而因为分析的是过去的历史资料,所以也可说
资料探勘是找出过去决策行为与之后所产生的结果之间的关联.总而言之,资料
探勘的意义就是从大量资料中探索出资讯或是知识,也就KDD(Knowledge
Discovery in Database)的一种方式(Fayyad,Piatetsky-Shapiro etc,1996;Han,
Kamber,2001).
12
基本上,包含了下面的几个步骤:
(1) 资料清除:资料杂讯的处理.
(2) 资料整合:多方资料的汇整.
(3) 资料选取:选取所要探勘部分相关的资料.
(4) 资料转换:转换资料成所需要的形式.
(5) 资料探勘:使用智慧的方法来找寻所需要的样式.
(6) 样式的评估:筛选找出的资料样式.
(7) 知识的呈现:将找出的知识以适当的方式呈现给使用者.
经由学习平台所记录的学习历程档案,包含了众多学习者在网路教学平台上
的学习资讯,相对的也占据了庞大的储存空间.因此有必要提供一个转换的机
制,将原始且庞大的学习历程资料做资料的转换,成为可让教师弹性的观看学习
者的学习历程档案资讯.本研究即是建置一个学习历程档案资料库,从以课程和
学生两个种维度来观察学生的学习情形,并希望能够从此资料库中提供教师或学
生快速的查询即时的学习状况,并进一步从储存於资料库的各项学习行为指标
值,利用资料探勘中分类分析方式来找出与学生有关的决策资讯,使得教师能够
藉由这些决策资讯来找出可能有学习困难的学生并给予适当的辅助.因此以下将
针对建置学习历程资料库中重要的步骤进行说明.
2.3.1 学习历程记录的前置处理
学习平台在回应学习者请求教材时,会针对教材内所包含的资讯,如:图片,
音乐档,网页框架及任何失败的查询,都会自动记录成一笔记录档,太多重覆的
记录档会对有用记录造成分析上的杂讯,所以在进行分析储存之前必须先进行过
滤杂讯的动作,有相当多有关针对网页日志处理的研究即说明如何针对记录档进
行过滤的动作,以更取得有用的资料(Feng , Fionn, 2000;Zaiane, 1998).
13
2.3.2 群集分析与分类分析
由於本研究是利用分类分析的方式,从学习历程记录中以不同的分类方式对
学生的学习成效(此即为学生的学期成绩)做分类,然而分类分析(Classification)
是群集分析(Cluster)的特例,因此以下将先介绍群集分析.
群集分析是根据观察值的相似或相异性,将同值性较高或相异性较低的观察
值集成一群,在分析前不知道观察值所对应的组别为何,经由群集之后,组别内
容才会成形.群集依分类方法不同分为阶层式与非阶层式两种.阶层式又分为融
核式与分裂式,阶层融核式的群集在刚开始时是将N 个观察值划分为N 集群,
然后根据彼此间的相似程度,将最相似的集群加以合并,最后合并成为一个大集
群.而阶层分裂式则刚好相反.至於非阶层式的群集,最常用的就是K平均数
法(K-mean),K-mean 一开始藉由选出种子就固定了分群 的个数,再按照计算质
心和点与点间的距离逐渐调整集群内所含的观察值,一直到这些观察值几乎没有
再变动才停止.
分类分析是群集的特例,需要事先知道每一个观察值所属组别,再依据已知
组别的观察值资料进行分类计算,决定最好的分类方式,将所有分类的条件依阶
层排列会呈树状,称之为决策树.决策树的每一分支,代表一种规则,树的末端
即代表所属组别,我们可以利用决策树来预测其他符合分支特徵的观察值所属的
组别为何.
本研究即是利用分类分析的方式,从学习历程记录中以不同的分类方式对学
生的学习成效(此即为学生的学期成绩)做分类,并用学生过去在网站上的学习历
程与学习成绩等资料进行分类分析法来分析资料.教师可决定哪些决策规则可以
再利用,并回馈至系统中.而本研究也将用上述的分析步骤进行资料分析,当然
也会有相当多的时间在做资料的前置处理工作.本研究将会用到分类分析法中的
决策树分析(Decision Tree)进行资料分析.以下针对决策树相关的基本概念,延
伸理论,以及相关的应用做一说明,并说明本研究所采用的工具.
14
2.4 决策树相关理论与应用
2.4.1 决策树分析
决策树是一棵语意树(Semantic Tree),他与一般的资料结构中的树一样有节
点与树叶,每一个节点都被安排一个适当的测试,然后利用该测试结果决定资料
将再利用此一节点的哪一棵子树作为分类的条件继续做决策,最后拓过节点中的
测试达到问题分析的目的(邱美珍,1996).本研究所采用的决策树演算法是由
Quinlan 於1993 年所提出的C4.5 学习法(Quinlan,1993),它的基本理论是改良
自他於1986 年所提出的ID3 学习系统.近年来新发展的归纳学习方法,大多改
良自C4.5 学习方式或与其比较学习效能,它几乎已变成目前归纳学习法中的标
准学习法.C4.5 的学习方法是利用消息理论(Information Theory),而以归纳学习
的方法建构决策树的一种过程.其中包括下列三种步骤:1. 由训练资料建构决
策树,2. 决策树的修剪(Prune),3. 从决策树中产生学习规则.以下将对此三种
步骤作一详细说明.
(1) 建构决策树
C4.5 学习方法的首先就是从训练资料中建构决策树,其基本概念可以追溯
至1950 年代末期的Hoveland 及Hunt 二位学者属提出的理论.简单说明如下:
假设一组训练资料所组成的集合S 中有K种类别(Class),及
},...,,{321kCCCCS=,在建构决策树时有三种情形可能发生:
I. 当S 中的所有训练资料都属於同一种类别Cj时,所建构的决策树只包
括一片树叶,此片树叶Cj的所有资料.
II. 当S 中没有任何训练资料时,所建构的决策树依然只包含一片树叶,此
片树叶代表的类别则由集合T 以外的训练资料决定.
15
III. 当S 中包含多种类别的训练资料时,则将集合T 根据某种属性分割成
多种子集合nSSSS,...,,321,每个子集合尽可能包含一种类别的的资料.S
所建构的决策树包含一个判断节点及n 个分枝,每一个子集合的训练资
料分别对应T 的一个分枝.
一般我们在给定训练资料时,会有多种决策树可以正确的将资料分类,因此
如何找出一最小而能正确的分类的决策树便在於分类属性的考量.而本研究所采
用的C4.5 是由其前身ID3 学习法改进而来.在ID3 中分类属性的选择标准称
为gain,其基本作法是根据消息理论为基础,它是以测量资讯量多寡来计算各个
类别的资讯量,并进而计算出该训练集合的平均资讯量,也就是所谓的乱度
(Entropy)来表达该集合中资料的复杂度.
假设训练资料形成得集合S 中有n 种类别niCi...3,2,1,=,每个类别的
资料个数以),(SCfreqi=表示,||S代表S 中所有资料的个数,因此各个类别其
资料出现机率可表示为||
),(
S
SCifreq
,因此根据消息理论,各个类别的资讯为
)
||
),(
(log2
S
SCifreq
-
,训练集合中包含各个类别的训练资料,由各类别的资讯量可
以计算出训练集合的平均资讯量(即乱度),为所有各个类别的资讯量乘上各个类
别的资讯量乘上各个类别资料的出线机率总和为:
=
-=
n
i
ii
S
SCfreq
S
SCfreq
S
1
2)
||
),(
(log
||
),(
)info(
根据)info(S的计算方式,当集合S 根据某个属性A 分割成多个子集合
mSSSS,...,,321时,其分割后所占的资讯量等於各个子集合的资讯量乘上各个子集
合所占的比例的总和:
=
×-=
n
i
i
i
AS
S
S
S
1
)info(
||
||
)(info
.
16
因此集合S 经由属性A 分割后所获得的资讯量则为分割前的资讯量减去分
割后的资讯量,表示为:)(inf)(inf)(SoSoAgainA-=
而ID3 学习系统选择分类属性的方法即计算所有属性的gain值,并选择其
中gain 值最大的做为分类属性.决策树以此属性的属性质分割成多个训练子集
合,形成多个数.各个子树重复上述步骤藂尚未被选为分类的属性中在找出gain
值最大的作为分类属性,在分割成多个子树直到不能再分为止.
ID3 选择分类属性的方法对於一般学习问题已经有不错的结果,但是当分类
条件较偏向分出的子集合较多的属性,其中最特殊的便是当集合S 分割后的子
集合都只有一个资料时,其分割后的资讯量为零,因此所或的的资讯量最大.然
而此种分割并没有太大的意义.为了弥补这种缺点,Quinlan 在C4.5 中提出将
gain 正规划的方法以缓和分成过多子集合的效应.正规划的方法是利用将原有
的gain 值除以split info(A)的值,即
)(inf/)()(AosplitAgainAgainratio=,
其中split info(A)
=
×=
n
i
ii
S
S
S
S
1
2)
||
||
(log
||
||
可代表集合透过属性A 分割的子集合
个数指标,分割后的子集合个数越多split info 的值就会越大,相对的gain ratio
的值就偏小.因此利用split info 使得C4.5 学习系统改善了ID 分类偏向多子集
合的缺点.
(2) 修剪决策树
在建构决策树的程序中,有二个停止的条件:一个是分割后的每个子集合中
的资料都属於同一种类别.第二个则是子集合中已经没有任何资料可以改进.因
此当资料不完整,过於稀疏或是含有杂讯时,利用此种方式所建构的决策树通常
过於配合资料(Over-fits the Data),以致於所产生的决策树太过於复杂,因此在利
用C4.5建构决策树后还需要做适当的修剪.
17
C4.5 修剪过程的标准是根据预估错误率(Predicted Error Rate)的值作为判断
条件.它的方法是从树的底部(树叶)往上测试每一个节点所形成的子树,若是将
子数以一个树叶代替后所得到的错误预估率较低,则将子树修剪成为树叶,否则
将保留原来的子数.所谓错误预估率是指由现有训练资料的错误比率来评估其他
非训练资料的错误比率.更明确的说,假设被分类於某一子树的所有训练资料个
数为N,其中有E 个训练资料分类错误,而错误预估率就是由NE/来评估当有
新的资料被测试时利用此一条件判断结果为不正确的机率值.计算错误预估率的
方法有数种,C4.5 学习系统的预估错误率是采用E)(N,二项式分配(Binominal
Distribution)的机率值,其作法是给定一个可信度(Confidence Level,CF),简单
的以其二项式分配机率的上限值来作为预估错误率的值,写为N)(E,UCF.其中N
是所有训练资料中属於此子树的个数,而E 则是N 中分配错误的资料个数.因
此预测错误的资料个数则为N)(E,UCF×N.
(3) 由决策树中产生规则
在建立决策树的分类模型后,我们的直觉是要达到正确的预测,但是除此之
外我们还会希望进一步建立类似人类智慧的分类模型.换句话说,分类模型除了
要具有高正确率之外最好也能够拥有简单易懂的规则.C4.5 学习方法在建立了
决策树之后又将决策树转换成更简单的规则以降低判断资料类别的复杂度.
由决策树产生规则最简单的方式便是将决策树中的每一个树叶根据其路径
建立一条规则,然而此种方法所产生规则的复杂程度与原来的决策树一样,并没
有做任何的改进.而C4.5 利用产生规则的过程中做了一次简化的步骤,以仔细
评估每一个条件在规则中的必要性,让建立规则所使用的条件最精简,但又不会
造成错误率过高.
C4.5 评估规则的方法所使用的评估标准与修剪决策树的标准一样是根据错
18
误预估率的原则,它的基本作法如下:
假设有一条规则为
R:If Condition =AThen Class=C
而另一个比R更一般化的规则-R为:
-R:If Condition=-A Then Class-C
条件集合-A为条件集合A去除某一条件X 的结果,写为XAA-=-.而满
足或不满足条件X 在类别C与不在类别C的资料个数可以表2-2表示:
表2- 2 条件X属於分类C的对应表
类别C 其他类别
满足条件X 1Y 1E
不满足条件X 2Y 2E
因此根据规则R,会有11EY+ 个资料被设定为类别C,但其中有1E 个资料
属於其他类别是属於分类错误,因此规则R的错误预估率为),(U111CFEYE+.同
理,根据规则-R,由於少了条件X 的判断,因此会有2121EEYY+++个资料被
设定为类别C,但其中有21EE+个资料属於其他类别是错误的分类,因此规则-R
的错误预估率为),(U212121CFEEYYEE++++.如果的-R错误预估率比R的错误
预估率低,则表示条件X 不会影响预测错误率因此可以被删除.利用这个观念,
C4.5 的学习系统为求计算方便,改於在每个规则中删除最没有贡献的条件.
19
2.4.2 有关决策树分析理论与本研究的相关性
决策树(Decision Tree)是一个可以建构树状结构方法,用来帮助我们将资料
分类.其演算的方法很简单好用,说明如后.首先,将每一笔资料都当成是同一
群.接著再从这群里,从所有属性中用乱度的概念,也就是计算资讯量
(Information Gain)的方式,挑出一个属性可以将资料种类分别的最好的,然后就
把这群资料依照这群中有的种类切开,各自变成一群,然后每一群都变成当初挑
出来那个属性的叶子(leaf).将这个步骤重复的用在每一群里,除非发生以下几
种情形,否则就停止再往下衍生.
1. 该群中的每一笔资料都归类在同一种类的.
2. 该群中的资料,已经没有办法再找到属性来切割了.
3. 该群中已经没有资料了.
依照这个方法,然后就可以渐渐地建出一个树,这就是决策树(Decision
Tree).在里面我们可以找到许多规则(Rule),部分特殊资料中的现象,也因此可
以容易的观察出来,不会因为考量整体的资料,而把部分现象过滤掉了.这对我
们算是很有用的分析结果,经过善加利用,可以发挥在预测或是其他的方面.而
我们使用的是J. Ross Quinlan 所发展的软体C5.0( http://www.rulequest.com/).它
能找出决策树中的规则(Rules),帮助我们在分类方面的工具.
因为在本研究所要分析变项中有关学习行为的所有属性值为连续型的资料
属性,而且有关学习行为的属性个数非常多,因此本研究即是以决策树演算法以
用来找寻影响学生在进行网路学习时影响学习成效的变项有哪些.
20
第3章 研究架构与方法
藉由文献探讨,我们可以了解在网路上进行教学,不但学生的上课方式比传
统教学较具弹性,更可以利用网站主机自动且完整的记录学生在网站上的学习活
动.当学生在网站上进行学习活动时,所有的学习动作都会被完整的记录在网路
教学平台的网页日志里.虽然网页日志已将使用者的学习动作依照时间先后顺序
一笔一笔完整记录,然而,网页日志里的学习记录若未经分析及整理,仍然只是
一些大量而且没有意义的资料,无法转为有用的资讯,因此本研究将从网页日志
里萃取出与学习记录有关的部份资料,再利用资料探勘技术对这些资料进行分类
与分析,以提供教师关於学生学习行为与学习成效间的关系与相关程度,并让教
师能从学生过去的学习行为中,进一步即时的预测目前及未来学生可能的各种学
习情形,并适时的给予学习辅助或调整教学策略.
3.1 研究架构
本研究分析资料的方式,是从已经前置处理过的学习历程档案资料库中,以
学生的基本资料,以及学生在网站上的学习记录之各个属性做为本研究的分析变
项,这些属性值包括名目尺度(性别,学历等等)与等距尺度(上课次数,线上讨论
次数等等).首先,透过资料探勘中分类分析的方式找出这些分析变项对於不同
的课程,不同学习成效的学生所产生的各种意义,以及各个分析变项之间可能的
关系.接著,利用决策树软体进一步从学习历程记录中找出学生的各种学习行为
属性与学习成效之间的决策规则,并透过与过去历史资料及现有资料来验证这些
决策规则是否可适用不同的学期.最后,由教师验证这些决策规则是否的确能反
应教师对於该门课的授课方式,以评估这些决策规则是否有用,以做为教师在进
行网路教学时教学策略与课程设计的辅助资讯.
21
图3-1说明了教师如何在网路教学系统上利用学习历程档案来分析与观察学
习行为.学生在教学网站上进行学习的动作,包括登入网站,浏览教材,参与线
上讨论,点选并阅读文章,张贴及回覆文章等等,均被系统记录於网站的日志档.
由於日志档的记录过於零散,因此,对於教师或是学生来说不具备实质的意义与
帮助,必须再结合学生的基本资料档及课程资讯与学生关系的课程资料库的资
料,经过前置的处理以及资料汇整处理后,才能进一步建立描述每门课程中每个
学生学习行为的学习历程资料库,以做为往后快速查询各门课程中学生即时学习
情形的参考依据.
图3- 1 研究架构图
22
为了能够系统化的描述这些学习行为,此一分析机制提供了可用单一观察维
度,多个观察维度,或是结合不同的观察维度等方式以将学生的学习类型进行分
析,观察维度可以是时间维度(持续时间,间隔时间等等),频率维度(上课次数,
讨论次数,张贴文章篇数,文章被点选次数等等),或是同时以观察多个维度,
并且建立各个对应的学习类型资料库.
为了找出这些不同学习类型的学生与其学习成效之间的关系,本研究利用资
料探勘中的分类分析法,以及决策树与决策规则的方式来呈现上述的关系,以求
分析的结果能够具有系统性与易读性.同时,这些决策规则亦会存入学习模式
库.让教师可以从学习模式库中得知过去相同课程的学生学习行为与学习成效之
间的关联为何 哪些学习行为会影响学习成效 甚至是哪些学习行为会直接影
响到学生最终的学习成效不佳 教师以这些决策资讯来评估过去的教学活动,并
且评估这些决策资讯的正确性,而这些决策规则经过验证之后直接内建至教学系
统,系统除了即时的观察目前修习该门课程的学生的学习情形,也可以依据这些
决策规则系统自动侦测并适时的提供讯息给教师及学生.
3.2 研究对象
本研究利用中山大学资管系网路硕士学分班第五期,第六期,以及第七期资
料共十八门课程做为本研究的资料来源(列於表3-1),并以学期与课程为单位做
为分析对象.
表3- 1 资管系网路硕士学分各学期开授课程
学期 时间 课程
管理资讯系统
顾客关系管理
第五期 2001/09~2002/01
系统分析与设计
23
科技创业模式与科技行销
计算机网路与网际网路
企业资源规划
企业流程再造
资料库系统专题
电子商务
知识管理与资料探勘
网路安全
第六期 2002/02~2002/06
e-Learning理论与实务
管理资讯系统
计算机网路与网际网路
系统分析与设计
企业资源规划
顾客关系管理
第七期 2002/09~2003/01
e-Learning理论与实务
3.3 分析变数
本研究所分析的变数共有十二个属性,可分为两个部份,一个是学生的社会
人口变项,另一个是学生在网站上的学习行为变项.并分别说明如下:
3.3.1 社会人口变项
本研究所探讨的社会人口变项包括了学生的性别,年龄,学历以及居住地区
等,兹分述如下:
(1) 性别:分为男,女两种属性值.
(2) 年龄:此一属性值为连续型资料.
24
(3) 学历:分为专科技术学院,大学,研究所三种属性值.
(4) 居住地区:分为北部,中部,南部,东部以及外岛地区五种属性值.
3.3.2 学习行为变项
本研究所探讨的学习行为主要分为三个部分,分述如下:
(1) 课程学习行为:学生在课程中的学习行为,包括了『上课次数』,『参与
线上讨论次数』及『未缴作业次数』三个属性.此为数值型资料.
(2) 学生发表文章的篇数:学生如果在进行网路上课时,如果对於上课教材
内容有疑惑的地方,或是在课程的讨论区中(课程内容的讨论,课程议
题的讨论)张贴文章与教师,其他同学的互动,都可以藉由网站中学生
发表文章的学习行为观察得知,在本研究中是以文章发表篇数做为衡量
此一学习行为的变项.可分为两个属性,分别是『提问文章的篇数』以
及『回覆别人文章的篇数』.属性值皆为数值型资料.
(3) 学生发表文章后被点选的频率:被点选次数越高的文章对於课程内容或
是该讨论主题应具有较高的参考价值,为了衡量此一学习行为变项,本
研究将发表文章被点选频率分为两个部份:提问文章被点选次数以及回
覆文章被点选次数,而本研究为了提升分析此部份变项的严谨性,除了
以该生所有张贴过文章被点选的总次数为分析的属性外,同时,也将单
一学生张贴文章的类型分为提问文章或是回覆文章两个属性.因此该部
份可分为三个属性,分别是『发表文章被点选总次数』,『提问文章被点
选次数』,以及『回覆文章被点选次数』.属性值皆为数值型资料.
3.4 研究步骤
图3-2说明了本研究的研究流程.本研究首先先取得中山网路大学学生基本
25 资料,成绩资料与课程属性资料,并取得中山网路大学的网站记录档,这些不同
来源的资料经由资料的汇整以及前置的处理后,分别取出与本研究相关的资管系
网路硕士学分班第五期至第七期的网站记录档,再转换成课程为单位的学生学习
资料,并建置相关的资料库.接著,利用决策树分析方法产生各门课程的决策规
则与决策树结果,并利用其中第六期与第七期的elearning理论与实务课程,用
不同时间单位,不同成绩等级及决策规则的预测正确率,来验证本研究所找出的
决策规则是否具有预测效果.研究流程的各个步骤分别详述如下.
图3- 2 研究流程图
26
3.4.1 资料收集,汇整,分析变项的选择与前置处理
本阶段主要的目的为建立以课程及学生等不同观察维度的学习历程资料
库,以便在资料分析阶段可以快速的探查到各门课程中学生的即时学习情形,而
且也可以用不同的维度来分析学生学习行为与学习类型,并进而使用决策树分析
来分析学习行为与学习成效的关系.在处理程序中,首先需确认资料来源及欲分
析的学习行为变项,以确保可以正确取得资料处理时所需的所有资料.本研究的
资料来源结合了三个部份:分别是从资管系取得学生的基本资料及成绩档,从网
站记录中取得所有的学习动作记录档,以及与课程相关资讯的资料档,说明如下:
(1) 学生基本资料档与成绩:记录修习各门课程的学生基本人口统计资料
(包括了姓名,性别,生日,目前职业,毕业学校与科系,地址,联络
电话,修习课程)与最终的学期成绩.
(2) 网站记录档:由Apache主机所自动储存的网站日志档,此一网站日志
档主要记录档案,点选者,点选时间三种资料,而该系统已自动的萃取
出较具可读性的资料档,此资料档记录了学生在网大中所有的学习动作
(包括登入网站,点选教材及点选的时间,浏览教材的时间,参与线上
讨论,点阅文章的时间,张贴及回覆文章等等),而本研究主要就是针
对此记录档做相关的资料处理.
(3) 课程资料库:主要分为两部份,第一部份记录各门课程本身的资讯,包
括有那些课程大纲,课程安排,课程属性,课程开放的议题讨论主题,
议题讨论记录,作业主题及作业缴交记录等资讯,另一部份则记录该课
程与学生之间的对应关系及其他相关的资讯.
在取得这部份的资料之后,由於本研究欲分析的部份变数无法从资料来源中
直接取得,而且上述三个资料来源的资料格式并不一致,因此必须进一步汇整这
些异质资料库.而本研究是以MySQL做为资料库,并用{课程名称,学期,学
生名称,学习动作,学习时间}的资料库纲要来建置学习历程资料库中学生的学
27
习行为记录,同时辅以课程资料库中的课程资讯(课程名称,课程属性,课程与
议题讨论关系,课程与作业关系),使得学习行为记录可以以不同课程,不同学
生为最基本的观察点.而将学习行为记录课程化将可提升往后以课程为分析单位
处理时的方便性.
有关资料前置处理的部份,由於欲分析的部份学习行为属性属於文字性叙述
(Text Type),例如学生的居住地址与联络电话,毕业学校与科系,这些资料对於
分析者并没有意义,且决策树分析阶段所需的资料属性也以类别资料为主,因此
本研究透过程式的处理将这些资料转成有意义的类别,包括将学历分为专科及技
术学院,大学,研究所等三类,以及将居住地区分为北,中,南,东,外岛及其
他地区等五类.
而在学习行为变项中本研究欲分析的属性包括上课次数,线上讨论次数,提
问文章篇数,回覆文章篇数,发表文章被点选的总次数,提问文章被点选次数,
以及回覆文章被点选次数等七个属性,这些都必须从已经建好的学习行为记录中
依照时间点个别的取得,其中主要处理的部分为学习行为记录,此记录的格式为
{讨论的文章主题,张贴者,张贴时间},这部份必须先用程式以讨论标题为处理
对象,将讨论文章分成主动提问问题的文章与回覆别人问题的文章,并以学生为
单位分别计算出学生的文章张贴数(提问文章与回覆文章);在网站中也记录了该
文章被点选的次数,对於分析者而言,当该篇文章被点选次数大於某个值表示该
篇文章对於文章主题具有相当程度的意义才会被点选,因此这个属性也会当做本
研究的分析变项之一,并也依照上述的文章分类分别的计算出(张贴文章被点选
总次数,提问问题文章被点选次数,回覆文章被点选次数).
3.4.2 分类的处理与多重时间周期的处理
经过前一阶段将不同的资料来源经由资料汇整以及依照分析角度处理部份
的栏位之后,即完成以各课程的学生学习历程资料库之建置.然而由於本研究的
28
分析变项中大部份的属性值都是数值性资料(例如:上课次数,线上讨论次数等
等),尚未进行分类,若采用原始分类分析方法进行分析并无法直接处理这些连
续型属性的变项.此外,相同学生的学习成绩也并未分类,由於上述有关属性值
的限制,在进行分类分析时会有如何决定分类类别的困难,而藉由文献探讨中可
以得知在处理有关连续型属性的资料的方法,已经可以用CART演算法等改进演
算法或是现有的部份分析软体,可以直接解决这类问题,因此本研究采用目前现
有的决策树分析软体 - See5/C5.0这个决策树分析软体来直接处理连续型数值资
料.然而学生的学习成绩等级分类并没有相关的研究或是演算法来改善这个问
题,因此本研究拟采用不同的成绩分类方式,以找出最适合的等级分类方式.本
研究主要将成绩的分类方式分成两种方式:
(1) 固定区间:本研究采用10分,20分,25分,33分做为成绩类别切割点.
(2) 标准差,亦即用均值±固定的标准差做为成绩类别切割点:本研究采用
0.5个标准差,1个标准差,0.5与1个标准差三种方式.
此外,本研究根据过去多数研究采用的时间变项来做为学习类型分析的观察
维度.主要是以不同时间点下各个学习行为属性值的累积量,亦即从开学日起至
该各个时间点计算各项频率的累计值,并藉由观察不同时间点学习行为变项之累
计量的变化与学习成效的关系,以提供未来进行决策树分析时,藉著观察各属性
与决策规则的关系,是否也会随著不同的时间点而有不同的属性影响,换言之,
各个时间点下决策规则中的属性是否皆相同;以及,是否能在学期结束前就提早
预测出哪些学生可能落入低分群,发生学习成效不佳的问题,并给予补救教学或
相关的教学策略.学习成效是以学生最终该门课的学期成绩做为衡量的标准.
基於上述目的,本研究对时间维度的资料所进行的处理方式是将时间单位以
不同的方式进行切割处理,从开学日为时间起点,分别以七天为一个单位(单
周),十四天为一个单位(双周),二十八天为一个单位(单月)等方式,将这些学习
行为变项(上课次数,线上讨论次数,提问文章篇数,回覆文章篇数,发表文章
被点选总次数,提问文章被点选次数,回覆文章被点选次数)的属性值,用累计
29
的方式来计算这些属性值,藉由观察这些属性在时间累积下的变化量与决策规则
之间的关系,以尽可能以较早的时间点就能描述该门课学生的学习行为,并针对
当时学生的学习行为做出可能学习成效的预测.
3.4.3 决策树分类的产生,分析与整理
经过上述的资料前置处理,以及连续性与时间性的处理之后,采用现有的决
策树软体对第五期,第六期与第七期各门课程进行分类分析,并产生出决策树与
决策规则..
虽然本研究的分析变项中大部份的属性值均未事先分类,可能发生如何有效
分类的困难,但此问题已经有相当多的研究(邱美珍,1996)提出解决之道(例如:
CART演算法),因此本研究采用目前现有的决策树分析软体 - See5(C5.0),藉由
此软体能直接处理连续型资料的功能来解决本研究大部份属性值未分类的问
题.而另一方面,由於学生的学习成绩亦并非事先分类,且亦没有相关的研究或
是演算法可以改善学生学习成绩等级分类的问题,因此本研究拟采用不同的成绩
分类方式,以找出最适合的等级分类方式.
由於本研究所欲分析的变项之属性值不是数值性就是名目性的资料,因此采
用See5/C5.0 (http://www.rulequest.com/).See5/C5.0可用来处理数值性(numeric)
或是名目性(nominal)栏位的资料,而且为了清楚的表示分析结果,可用决策树
(decision trees)或是若-则(if-then rules)的关系呈现,因此也比类神经网路(neural
networks)容易理解,并在网路上有原始码提供下载.从文献得知C4.5是改进原
始的决策树分析演算法(ID3),而C5.0与C4.5不同之处在於C5.0可以处理几种
资料型态(data types),包括了日期(date),时间(times),时间戳记(timestamps),序
列性的离散型资料(ordered discrete attributes)等等.除了处理部份缺值(missing
value)的问题,C5.0还可以将部份属性标记为不适合,以使得做分析时仍能保有
资料的完整性.
30
本研究将不同学期的不同课程,利用上述的决策树分析软体产生出决策规则
以及决策树,产生出的决策规则描述修习该门课程的学生整体的学习行为与学习
成效之间的关联与若-则(if-then)的关系,对於教师而言将可以知道整体学生对於
该门课具有哪些学习模式,进一步可以反推高分群或低分群的学生可能具有哪些
学习模式,而这一辅助的决策资讯可做为教师未来进行教学时如何施行教学策略
及辅助教学的参考.
3.4.4 决策规则的验证
经过决策树分析产生出的决策规则是针对各门课程,而且由於分析的资料大
多是整个学期的历史性资料,对於教师而言,这些决策规则对现在正教授中的课
程并没有直接性帮助,而且这些决策规则是基於整个学期的资料,这些决策规则
是否能套用在不同学期之相同的课程中,以验证这些决策规则对於课程之预测的
准确率确实有其必要性.但是由於已取得资料来源并不完整,因此本研究将针对
其中单一课程(elearning理论与实务)不同期的资料(第六期及第七期)做为本研究
的验证对象;先用第六期资料做为训练资料找出决策规则,再用第七期资料做为
测试对象以验证找到的决策规则是否有效以及有效程度为何,并用相同的决策树
软体进行验证.
训练资料(Training Data)指的是在产生决策规则的过程中,用来训练这些决
策规则的资料,而训练错误率(Training Error Rates)指的是在决策规则产生之后,
将这些训练资料放进决策规则而发生错误的比率(亦即符合相同的决策规则,但
是实际资料的分类却与决策规则的分类不同);测试资料(Testing data)指的是已经
产生了决策规则之后,其他用来测试这些决策规则的资料(不属於原本的训练资
料),相同的测试错误率(Test Error Rates)指的是测试资料放进决策规则而发生错
误的比率.这两种错误率将会在决策规则验证时做为各种不同分析的比较指标.
31
3.5 研究方法与工具
本研究采用的分析方式是资料挖掘中的分类分析法,并且使用决策树分析方
式来呈现这些规则,而采用的工具是See5.0/C5.0.
本研究提出了一个如何利用现有各种有关学习历程的原始记录,进行资料的
前置处理与汇整的动作,并建置了学习历程档案资料库,此资料库可以提供各种
维度来观察学生的学习情形.论文中采用时间维度来观察学生学习情形,并试图
找出不同时间点下学生的学习行为,最后并以分类分析技术来找出学习行为与学
习成效的关系.此一分析机制并可以将这些已经找到的决策资讯用来预测目前学
生的学习情形与学习成效,教师可以用此分析机制用以诊断目前可能发生学习困
难的学生,并在适当时机给予合适的辅助教学.
32
第4章 资料分析结果与讨论
本研究分析资料的流程,是从已建置好的学习历程档案资料库中,以学生的
基本资料,以及学生在网站上的学习记录之各个属性做为本研究的分析变项.藉
由观察各个分析变项所包含的属性值,以资料探勘中分类分析的方式找出这些分
析变项对於不同的课程,不同学习成效的学生所产生的各种意义,以及各个分析
变项之间可能的关系.本研究的分析变项里共有十二个属性,包括了性别,年龄,
居住地区,学历,上课次数,参与线上讨论的次数,未缴作业次数,提问文章篇
数,回覆文章篇数,发表文章被点选总次数,提问文章被点选次数,回覆文章被
点选次数.针对上述十二个属性以及相对应的成绩等级做为决策树分析软体的输
入,利用决策树软体找出学生的各种学习行为属性与学习成效之间的决策规则,
再透过与同一课程不同学期的资料做验证之后,即可做为教师在进行网路教学时
教学策略与课程设计的辅助资讯.
根据上述的研究方法,首先针对第五期及第六期不同课程的学习历程档案,
利用C5.0决策树分析软体找出不同课程的决策规则,并说明与课程属性之间的
关系.为了验证本研究所找出的决策规则,接著将针对其中单一课程 (eLearning
理论与实务专题),以第六期的资料做为训练决策规则的资料,并以不同的时间
单位下找出各时间点与决策规则的关系,再以第七期的同一门课程资料做为验证
决策规则的测试资料,亦即以第六期找出的决策规则预测第七期学生的学习行为
与学习成效.除此之外,也用不同成绩等级的分类方式来观察预测的错误率(test
error rate),以验证找到的决策规则是否有效.为了更进一步验证是否能预测不同
学习成效的学生群,也针对高分群学生及低分群的学生,以不同时间单位下各个
时间累积点来看与预测效果之关系;最后并用不同成绩等级的分类方式观察预测
的效果.
以下将观察第五期及第六期不同课程的决策规则与课程属性之间的关系,并
列举几门课程做为说明.
33
4.1 不同课程下课程属性与决策规则之关系
4.1.1 第五期各个课程
l 以下为第五期计算机网路与网际网路专题的决策规则.
此决策规则用87笔资料做为训练资料,12个属性,而依照统计的方式以均
值±半个标准差,将最终将学生的成绩分为高分(A),中等(B),低分(C)三个等级,
而参数设定采用35%的树支修剪门槛值,以及最少需3个资料符合规则做为测试
条件,结果以规则条列的方式(Ruleset)的方式呈现,如图4-1.
图4- 1 第五期计算机网路与网际网路专题的决策规则
34
图4-1共分为两大部份,其中,上半部为最后产生的规则,下半部为对产生
的决策规则的评估结果.由上半部的结果中,可看出总共产生了6条规则,预设
的分类为B.而下半部中,可以看出87笔训练资料中有18笔资料并不符合这些
规则,亦即训练错误率为20.7 % (18/87).此外,亦可看出这些训练资料的分布,
其中Y轴的Class A,Class B,Class C为实际资料的成绩等级,而X轴则是依
决策规则而被分类的成绩等级,举例来说,第一列的意义代表的是实际资料为
Class A (高分群)的42笔资料中,依照产生的决策规则有39笔会被正确的分类为
Class A,而有3笔会被分类为Class B,因此其高分的错误率为3/42.
每一条若-则(if - then)关系的决策规则之后都会有其规则的正确率,以第一
条规则为例:若上课次数小於或等於546次,且未缴作业次数小於或等於0次,
且参与线上讨论次数大於6次,则归类为高分群(Class A),其正确率为0.857.
正确率越高表示此条规则具有较高的预测率.
在此针对训练资料,训练错误率,测试资料,测试错误率这几个相关名词做
一说明.训练资料指的是在产生决策规则的过程中,用来训练这些决策规则的资
料,而训练错误率指的是在决策规则产生之后,将这些训练资料放进决策规则而
发生错误的比率(亦即符合相同的决策规则,但是实际资料的分类却与决策规则
的分类不同);测试资料指的是已经产生了决策规则之后,其他用来测试这些决
策规则的资料(不属於原本的训练资料),相同的测试错误率指的是测试资料放进
决策规则而发生错误的比率.
从找到的决策中可以知道,此课程中学生学习行为中与学习成效直接相关的
属性包括了上课次数,参与线上讨论次数,未缴作业次数,回覆文章被点选次数,
提问文章被点选次数,居住地区等6个属性.其中若上课次数小於或等於546
次,且未缴作业次数小於或等於0次,且参与线上讨论次数大於6次,归类为高
分群的正确率为0.857;未缴作业次数小於或等於1次,回覆文章被点选次数大
於177次,归类为高分群的正确率为0.742,上述可以归纳出在此门课程中成绩
较高的大部份学生在课程学习行为方面上,不但作业几乎都缴交,经常到网大上
35 课,参与线上讨论,而且在课程互动上对於别人提问问题都会主动的回答,而且
回答的文章也被别人点阅.相对的以低分群的学习行为来看(第五条及第六条规
则),在课程学习行为方面,未缴作业大於1次,或是在课程互动行为,不常参
与线上讨论(小於或等於6次),都可能是教师在观察学生学习时是否发生学习困
难而导致可能学习成效较低的一个警讯.
l 以下为第五期管理资讯系统专题的决策规则.
此决策规则用72笔资料做为训练资料,其他设定皆与第五期计算机网路与
网际网路专题相同,结果以Decision Tree的方式呈现,如图4-2.
图4- 2 第五期管理资讯系统专题的决策规则
36
与之前用rule-set的呈现方式不同之处在於上半段找出的规则改用树状的方
式呈现出属性之间的阶层关系,而这样更可以知道何种学习行为的属性会直接的
影响学习成效.以此门课程(第五期管理资讯系统专题)为例,若未缴作业次数大
於或等於3次,则一定属於低分群(其中19笔资料符合,2笔资料不符合);与使
用rule-set呈现结果的方式相同的地方都会列出评估决策规则的正确率.由结果
可知道与学习成效相关的学习行为属性包括未缴作业次数,居住地区,提问文章
篇数,年龄,上课次数等五个属性.由於其他的属性并无法明确区分区高分群的
学习行为,因此就只看低分群的规则,可见此门课对於是否缴交作业相当的重
视.因此该门课教师或是助教可以藉由观察学生作业是否未缴交的情形来主动提
醒学生以免落入学习成效低分群.
4.1.2 第六期各个课程
l 以下为第六期电子商务专题的决策规则,以图4-3表示.
37
图4- 3 第六期电子商务专题的决策规则
此决策规则用87笔资料做为训练资料,其他的设定皆相同.由结果可知道
相关的属性包括未缴作业次数,提问文章篇数,学历,以及参与线上讨论次数等
四个属性.对於此门课的学生而言,必须经常参与线上讨论,也就是每周的Office
hour(大於30次),也就是积极的参与课程的互动(规则1),或是在课程学习行为
里的作业缴交情形良好(规则2与规则3),将会获得较高的学期成绩;相对的学
习成效较低的学生通常都是没有缴交作业或是缺交次数太多,而且又不主动问
题,这类型的学生也可以让教师或是助教藉由观察未缴作业次数过多或是提问文
章篇数过少这两个指标来提早知道哪些学生可能需要给予辅助.
38
4.1.3第七期各个课程
l 以下为第七期计算机网路与网际网路专题的决策规则,以图4-4表示.
图4- 4 第七期计算机网路与网际网路专题的决策规则
此决策规则用62笔资料做为训练资料,其他的设定皆相同.由结果可知道
相关的属性包括线上讨论次数,年龄,提问文章次数,回覆文章被点选次数,提
问文章被点选次数等五个属性.对於此门课的学生而言,必须经常参与线上讨
论,也就是每周的Office hour(大於23次),而且必须在课程互动上有所表现(提
问问题或是回覆别人的问题)则将会获得较高的学期成绩;相对的学习成效较低
的学生通常就是不主动参与线上讨论且提问问题,而这些指标正可让教师观察哪
些学生可能需要给予辅助的教学措施.
39
4.2 不同时间单位下各时间点与决策规则之关系
分析各门课程学生的学习行为与学习成效间的决策规则,可以帮助教师及助
教了解学生在该门课程表现的何种学习行为,可能会导致最终的学习成绩为高分
或是低分,并在下一次开设相同课程时可以观察这些相关的学习行为之属性值的
变化,来提早给予辅助.然而单纯以整个学期的资料来分析这些学习行为虽具有
解释性的意义,但是这些决策规则仅能描述过去该课程整学期学生的学习行为,
却无法描述不同时间点(例如,课程进行一周,两周,一个月之后)的学习行为,
因为藉由即时的观察这些学习行为,可以主动依据学生目前的学习状况来预测学
生的可能学习成效,并提早给予辅助教学的目的.因此接下来本节的目的将要观
察不同的时间单位下各个时间点与预测错误率的关系.
为了验证各个时间点下与决策规则之间的关系,本研究是以训练错误率与预
测错误率这两种错误率,用在验证决策规则时做为各种分析的比较指标.观察训
练错误率的目的在於训练错误率必须不能过高,在做预测时才会有意义;而预测
错误率指的就是以第六期训练出的决策规则用来将第七期做为测试(预测)的资
料之错误率,可用来验证决策规则是否适用於不同学期的同一课程.
由於资料的关系本研究拟将对象针对eLearning理论与实务这门课程,以第
六期的49笔资料做为训练资料来训练出决策规则,再以第七期的45笔资料做为
预测对象(测试资料).分析方式将会以七天,十四天和二十八天等不同的时间单
位将每个属性的频率值做累计,也用不同的成绩分类方式.并以决策树分析软体
C5.0(See5.0)来进行决策树分类分析.参数的设定是用35%的树支修剪门槛值,
以及测试时需最少符合3笔资料做为条件.
本研究首先观察七天,十四天和二十八天等不同的时间单位下,呈现出各个
时间点下训练错误率与预测错误率的变化与趋势.最后并针对不同的时间单位的
预测效果做一结论.
40
4.2.1 以七天为一个时间单位来看
l 训练错误率
表4-1为以七天为时间单位下各个时间点之训练错误率,以七天为时间单位
来看,各种成绩的分类方式的训练错误率皆能在30%以下,其中以均值±1个标
准差的错误率的平均表现较低(平均错误率为8.06%);而且每一个分类方式都能
随著时间的累积而慢慢的降低错误率,其中均值±固定标准差(0.5,0.5与1.0)
这两种成绩分类方式都能在第八周至第九周的时候训练错误率降至15%以下,表
示在此时间点的学习历程已经能完整的描绘出学生学习行为与学习成效的决策
规则.
表4- 1 以七天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 32.7 16.3 30.6 24.5 16.3 20.4 10.2
2 22.4 6.1 22.4 34.7 14.3 20.4 18.4
3 22.4 6.1 22.4 24.5 14.3 20.4 10.2
4 16.3 8.2 16.3 28.6 14.3 14.3 10.2
5 14.3 4.1 16.3 28.6 12.2 14.3 6.1
6 14.3 4.1 16.3 28.6 12.2 14.3 6.1
7 14.3 10.2 22.4 28.6 12.2 14.3 6.1
8 18.4 8.2 22.4 28.6 18.4 16.3 12.2
9 10.2 8.2 14.3 28.6 18.4 16.3 12.2
10 10.2 8.2 12.2 30.6 18.4 16.3 12.2
11 10.2 8.2 12.2 22.4 10.2 16.3 12.2
12 10.2 8.2 12.2 22.4 18.4 16.3 12.2
13 10.2 8.2 12.2 22.4 18.4 16.3 12.2
14 12.2 8.2 12.2 22.4 18.4 16.3 12.2
15 12.2 8.2 12.2 22.4 18.4 16.3 12.2
16 20.4 8.2 14.3 26.5 16.3 16.3 12.2
41
17 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 15.96 8.06 16.78 26.52 15.73 16.55 11.14
l 预测(测试)错误率
表4-2为以七天为时间单位下各个时间点之预测错误率,以七天为时间单位
来看,各种成绩的分类方式的预测练错误率皆能在50%以下,其中以均值±1个
标准差的错误率的平均表现较低(平均错误率为27.45%);而且均值±1个标准
差,能在第八周至第九周以及第十二周至第十三周时的错误率有明显的降低;而
均值±0.5与1个标准差,能在第七周至第八周以及第十二周至第十三周时的错
误率有明显的降低;20分的成绩区分方式,能在第十周至第十一周时的错误率
有明显的降低,以上的预测错误率都能降低至40%以下.上面的结果表示本研究
利用时间点的观念将这些学习行为变项做累计的动作,确实能够在一定的时间点
之前就能够提早预测到学生可能的学习成效.
表4- 2 以七天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
1 51.1 20 42.2 46.7 33.3 31.1 28.9
2 51.1 22.2 42.2 48.9 35.6 31.1 26.7
3 51.1 26.7 42.2 53.3 35.6 31.1 35.6
4 51.1 22.2 42.2 73.3 35.6 35.6 35.6
5 48.9 26.7 42.2 57.8 37.8 40 33.3
6 51.1 26.7 44.4 55.6 35.6 37.8 33.3
7 51.1 33.3 57.8 53.3 35.6 35.6 33.3
8 53.3 42.2 42.2 64.4 64.4 60 53.3
9 62.2 37.8 53.3 64.4 64.4 60 55.6
10 57.8 35.6 53.3 60 64.4 62.2 48.9
11 57.8 33.3 53.3 48.9 35.6 55.6 48.9
12 55.6 31.1 53.3 48.9 60 53.3 46.7
13 55.6 26.7 37.8 48.9 60 51.1 44.4
42
14 62.2 24.4 53.3 48.9 60 46.7 42.2
15 60 20 53.3 48.9 60 44.4 37.8
16 66.7 20 53.3 66.7 62.2 42.2 35.6
17 68.9 17.8 37.8 64.4 60 40 33.3
平均错误率 56.21 27.45 47.3 56.08 49.42 44.58 39.61
4.2.2 以十四天为一个时间单位来看
l 训练错误率
表4-3 为以十四天为时间单位下各个时间点之训练错误率,以十四天为时间
单位来看,各种成绩的分类方式的训练错误率皆能在35%以下,其中以均值±1
个标准差的错误率的平均表现较低(平均错误率为7.28%);而且每一个分类方式
都能随著时间的累积而慢慢的降低错误率,其中均值±固定标准差(0.5,0.5与
1.0)能够在第三个至第四个周期(第七周至第八周)的错误率降至15%以下,这也
与表4-1所呈现的结果具有相同的趋势.
表4- 3 以十四天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
1 22.4 6.1 22.4 34.7 14.3 20.4 18.4
2 22.4 6.1 22.4 34.7 14.3 20.4 10.2
3 14.3 4.1 16.3 28.6 12.2 14.3 6.1
4 18.4 8.2 22.4 28.6 18.4 16.3 12.2
5 10.2 8.2 12.2 28.6 18.4 16.3 12.2
6 10.2 8.2 12.2 22.4 18.4 16.3 12.2
7 12.2 8.2 12.2 22.4 18.4 16.3 12.2
8 20.4 8.2 12.2 26.5 16.3 16.3 12.2
9 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 16.77 7.28 16.29 28.11 16.33 16.99 11.99
43
l 预测(测试)错误率
表4-4为以十四天为时间单位下各个时间点之预测错误率,以十四天为时间
单位来看,各种成绩的分类方式的预测练错误率皆能在50%以下,其中以均值±1
个标准差的错误率的平均表现较低(平均错误率为27.41%);而且均值±1个标准
差,能在第七周至第八周的错误率降至35%以下.其中若与表4-2比较可以知道,
均值±0.5与1个标准差以及20分为区间这两种方式,在以十四天为时间单位下
的预测效果已经变得较不明显,这表示时间单位若变长,原本用较短时间单位时
错误率较易降低的效果将会变得不明显.
表4- 4 以十四天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(双周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 51.1 22.2 42.2 48.9 35.6 31.1 26.7
2 51.1 26.7 42.2 48.9 37.8 31.1 35.6
3 51.1 26.7 44.4 55.6 35.6 37.8 33.3
4 53.3 42.2 42.2 64.4 64.4 60 53.3
5 57.8 35.6 53.3 62.2 64.4 55.6 48.9
6 55.6 31.1 53.3 48.9 60 55.3 46.7
7 62.2 24.4 53.3 48.9 60 46.7 42.2
8 66.7 20 53.3 66.7 62.2 42.2 35.6
9 66.7 17.8 37.8 64.4 60 40 33.3
平均错误率 57.29 27.41 46.89 56.54 53.33 44.42 39.51
4.2.3 以二十八天为一个时间单位来看
l 训练错误率
表4-5为以二十八天为时间单位下各个时间点之训练错误率,以二十八天为
时间单位来看,各种成绩的分类方式的训练错误率皆能在30%以下,其中以均值
±1个标准差的错误率的平均表现较低(平均错误率为8.2%);而且每一个分类方
44
式的训练错误率都不错.
表4- 5 以二十八天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 16.3 8.2 16.3 28.6 12.2 14.3 10.2
2 18.4 8.2 22.4 28.6 18.4 16.3 12.2
3 10.2 8.2 12.2 22.4 18.4 16.3 12.2
4 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 16.33 8.2 16.3 26.53 16.33 15.8 11.7
l 预测(测试)错误率
表4-6为以二十八天为时间单位下各个时间点之训练错误率,以二十八天为
时间单位来看,以均值±1个标准差,以及均值±0.5个与1个标准差的错误率的
平均表现较低(皆在40%以下) ,如同前述,随著时间的累积与错误率降低的关
系变得越来越不明显,表示以月为单位的时间预测的方式并不好.
表4- 6 以二十八天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 51.1 22.2 42.2 73.3 35.6 35.6 35.6
2 53.3 42.2 42.2 64.4 64.4 60 53.3
3 55.6 31.1 53.3 48.9 60 53.3 46.7
4 66.7 17.8 37.8 64.4 60 40 33.3
平均错误率 56.68 28.33 43.88 62.75 55 47.23 42.23
45
4.2.4 本节综合说明
图4-5为以时间单位之整体训练错误率,而图4-6为以时间单位之整体预测
错误率,藉由观察这两张图可以看出以时间单位下,不同的时间单位之决策规则
对於整体学生的学习行为与学习成效间的关系的描述能力与预测能力.由图4-5
与图4-6可以明显得知,以不同时间单位做预测的效果差异性不大,但个别来看
各个时间单位下都能在一定的时间点即达到预测的效果;另外也由观察中也可以
知道各个成绩分类的训练错误率与测试错误率在不同的时间单位之间都相当的
类似,因此可以得知不同的成绩分类方式对於预测的效果也具有一定的关系,所
以下一节将会以不同成绩等级的分类方式与决策规则的预测效果之关系做进一
步的探讨.
l 整体的训练错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
7天
28天
16.33
8.2
16.3
26.53
16.33
15.8
11.7
16.77
7.28
16.29
28.11
16.3316.99
11.99
15.96
8.06
16.78
26.52
15.7316.55
11.14
051015202530
错误率
成绩分类方式
时间单位
整体训练错误率_以时间来看(平均)7天14天28天
图4- 5 以时间单位之整体训练错误率
46
l 整体的预测(测试)错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以
10
分区分
以20
分区分
以25
分区分
以
33
分区分
7天
28天
56.68
28.33
43.88
62.75
55
47.23
42.23
57.29
27.41
46.89
56.54
53.33
44.42
39.51
56.21
27.45
47.3
56.08
49.42
44.58
39.61
010203040506070
错误率
成绩分类方式
时间单
位
整体预测错误率_时间(平均)7天14天28天
图4- 6 以时间单位之整体预测错误率
4.3 不同成绩等级分类方式与决策规则之关系
本节将继续的观察不同成绩等级分类方式与预测错误率的关系,并且以与
4.2节中相同的分析对象(e-Learning理论与实务第六期及第七期),分析工具与参
数设定(35%的树支修剪门槛值,以及测试时需最少符合3笔资料做为条件)来进
行决策树分类分析.也针对不同的时间单位的预测效果做一结论.此小节将针对
该门课程整体学生探讨以不同成绩等级分类方式与决策规则的预测效果之关系.
图4-7为不同成绩分类方式之整体训练错误率,图4-8为不同成绩分类方式
之整体预测错误率.整体来看,各种成绩等级分类方式的训练错误率都能在30%
以下,这表示各种的成绩分类方式对於决策规则的效果都很高;以预测错误率来
看,其中均值±1个标准差(30%以下),均值±0.5个与1.5个标准差(47%以下),
25分(47%以下),33分(42%以下)这四种分类方式较好,这表示无论用哪一类的
47
成绩分类方式其预测效果至少能在47%以下,亦即不论用何种成绩的分类方式要
预测整体学生的学习行为与学习成效间的关系是有相当的困难.
l 整体训练错误率
7天
14天
28天
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
15.9616.77
16.33
8.06
7.288.2
16.78
16.29
16.3
26.5228.11
26.53
15.7316.33
16.33
16.5516.99
15.8
11.1411.99
11.7
051015202530
错误率
时间单
位
成绩分类方式
整体训练错误率_以成绩来看(平均)
均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4- 7 不同成绩分类方式之整体训练错误率
l 整体预测(测试)错误率
48
7天14天28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准
差
以10分区分
以20分区分
以25分区分
以33分区分
56.21
57.29
56.68
27.45
27.41
28.33
47.3
46.89
43.88
39.61
39.51
42.23
44.58
44.42
47.23
49.42
53.33
55
56.08
56.54
62.75
010203040506070
错误率
时间单位
成绩分类方式
整体预测错误率_成绩(平均)均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4- 8 不同成绩分类方式之整体预测错误率
为了改进上述的问题,本研究将预测对象分为高分群及低分群两类,以测试
在缩小预测对象的范围后,是否能降低预测高分群或低分群的预测错误率.其中
若成绩分类将学生分为{高分群,中等,低分群}三个等级,若等级数目超过四个
以上则是将极端的前两个高分等级归为高分群;最后两个低分等级归为低分群.
4.4 不同时间单位下各时间点与高分及低分预测效果之关系
由4.3节可以了解在不同的时间单位下,各种时间单位以及不同成绩等级之
学习行为与学习成效的决策规则,并可针对修课的所有学生做预测,但是不论用
何种成绩的分类方式,要用这些决策规则来预测整体学生的学习行为与学习成效
间的效果并不是非常好.而从教育的观点来看,如何能够依照学生目前的学习情
形找到可能为学习表现不佳(低分群)的学生,甚至於是中缀生,以及是否找出高
49
分学生的行为模式,的侦测与相关的辅助资讯才较具有实质上的意义.因此以下
将研究对象依照之前陈述的七种成绩等级分类方式将学生学习成效分群,并分别
探讨高分群和低分群与找出的决策规则预测的效果之关系.其中若成绩等级分类
超过四种,将以最前两个高分群与最后两个低分群做合 ,计算出错误率.同样
的也将以不同时间单位和不同的成绩等级分类方式两个维度来探讨高分群与低
分群的预测效果.
此一小节将以不同时间单位下的各个时间点为观察及预测的分析点,首先针
对高分群的训练错误率与预测错误率进行分析;接著,针对低分群分别探讨其训
练错误率与预测错误率,最后针对此小节的分析结果做综合的结论.
4.4.1 高分的预测错误率
l 训练错误率
表4-7为针对高分群的学生,以不同时间单位的各个时间点之训练错误
率.从表4-7来看,整体而言,不论是以七天,十四天,或是二十八天为时间单
位来看,训练的错误率至少都能在18%以下,而且在第七周至第八周都有相当明
显的下降,但是如同之前4.2节中的结果,时间单位越长,原本用较短时间单位
时错误率较易降低的效果将会变得越不明显.
表4- 7 高分群,不同时间单位下各个时间点之训练错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 15.38 0 15.38 3.13 0 0 2.5
2 3.85 0 3.85 0 2.78 0 0
3 3.85 2.44 3.85 3.13 8.33 0 2.5
4 7.69 4.88 7.69 0 5.56 0 2.5
5 7.69 0 7.69 0 5.56 0 0
50
6 7.69 0 7.69 0 5.56 0 0
7 7.69 0 19.23 0 2.78 0 0
8 3.85 0 3.85 0 0 0 0
9 3.85 0 3.85 0 0 0 0
10 3.85 0 3.85 0 0 0 0
11 3.85 0 3.85 0 0 0 0
12 3.85 0 3.85 0 0 0 0
13 3.85 0 3.85 0 0 0 0
14 3.85 0 3.85 0 0 0 0
15 3.85 0 3.85 0 0 0 0
16 7.69 0 3.85 0 0 0 0
17 3.85 0 0 0 0 0 0
平均错误率 5.66 0.43 5.88 0.37 1.8 0 0.44
14天 1 3.85 0 3.85 0 2.78 0 0
2 3.85 2.44 3.85 0 8.33 0 2.5
3 7.69 0 7.69 0 5.56 0 0
4 3.85 0 3.85 0 0 0 0
5 3.85 0 3.85 0 0 0 0
6 3.85 0 3.85 0 0 0 0
7 3.85 0 3.85 0 0 0 0
8 7.69 0 3.85 0 0 0 0
9 7.69 0 0 0 0 0 0
平均错误率 5.13 0.27 3.85 0 1.85 0 0.28
28天 1 7.69 4.88 7.69 0 5.56 0 2.5
2 3.85 0 3.85 0 0 0 0
3 3.85 0 3.85 0 0 0 0
4 7.69 0 0 0 0 0 0
平均错误率 5.77 1.22 3.85 0 1.39 0 0.63
l 预测(测试)错误率
表4-8为针对高分群的学生,以不同时间单位的各个时间点之预测错误率.
从表4-8来看,针对高分群,不同时间单位下各个时间点之预测错误率,发现一
个很有趣的现象,就是以七天为时间单位来看,每种分类方式都是在一开始的错
误率最低,之后逐渐升高,其中均值±1个标准差的成绩分类方式能在第八周之
51
后有明显的降低,而25分与33分都能在第十周至第十二周之后有明显的降低.
其他的预测效果的表现并不明显.而以十四天为时间单位则与七天的效果相同.
至於以二十八天为时间单位的预测,除了以均值±0.5个标准差以外的效果都能
在50%以下.以上的结果可以说明以不同的时间单位下各个时间点来预测高分群
学生的学习行为较为不容易.
表4- 8 高分群,不同时间单位下各个时间点之预测错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 29.17 0 29.17 0 3.45 0 3.03
2 29.17 2.78 29.17 0 0 0 0
3 29.17 8.33 29.17 8.7 0 0 12.12
4 33.33 2.78 33.33 73.91 3.45 6.45 12.12
5 33.33 8.33 33.33 43.48 3.45 12.9 9.09
6 33.33 8.33 33.33 39.13 0 9.68 9.09
7 33.33 38.89 70.83 39.13 0 6.45 9.09
8 58.33 52.78 29.17 39.13 55.17 51.61 51.52
9 75 47.22 50 43.48 58.62 51.61 54.55
10 66.67 44.44 50 30.43 58.62 54.84 45.45
11 66.67 41.67 50 0 0 45.16 45.45
12 66.67 38.89 50 0 48.28 41.94 42.42
13 66.67 33.33 12.5 0 48.28 38.71 39.39
14 75 30.56 50 0 48.28 32.26 36.36
15 70.83 25 50 0 48.28 29.03 30.3
16 83.33 25 50 43.48 58.62 25.81 27.27
17 62.5 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 53.68 25.33 38.97 23.53 28.8 25.24 26.56
14天 1 29.17 2.78 29.17 0 0 0 0
2 29.17 8.33 29.17 0 13.79 0 12.12
3 33.33 8.33 33.33 39.13 0 9.68 9.09
4 58.33 52.78 29.17 39.13 55.17 51.61 51.52
5 66.67 44.44 50 34.78 58.62 45.16 45.45
6 66.67 38.89 50 0 48.28 41.94 42.42
52
7 75 30.56 50 0 48.28 32.26 36.36
8 83.33 25 50 43.48 58.62 25.81 27.27
9 79.17 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 57.87 25.93 37.04 21.74 37.55 25.45 27.61
28天 1 33.33 2.78 33.33 73.91 3.45 6.45 12.12
2 58.33 52.78 29.17 39.13 55.17 51.61 51.52
3 66.67 38.89 50 0 48.28 41.94 42.42
4 79.17 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 59.38 29.17 31.25 38.04 40.52 30.65 32.58
l 小结
图4-9与图4-10分别为不同时间单位之高分训练错误率与预测错误率之折
线图.由图4-9与图4-10可以得知,以不同时间单位做预测的效果差异性不大,
然而不同的成绩分类方式与针对高分群预测的效果之关系较强,而且除了以均值
±0.5个标准差这种成绩等级分类方式之外,其他的预测效果都不错(平均错误率
至少都小於40%以下),可见就平均的预测而言,本研究所分析出的结果的确能
有效预测出高分群.
均值减加
0.5
个标准差
均值减加
1...
均值减加
0.5...
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天14天28天
5.77
1.22
3.85
0
1.39
00.63
5.13
0.27
3.85
0
1.85
00.28
5.66
0.43
5.88
0.37
1.8
00.44
0123456
错误率
成绩分类方式
时间单位
高分训练错误率_时间(平均)7天14天28天
图4- 9 不同时间单位之高分训练错误率
53
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个...
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天
28天
59.38
29.1731.25
38.0440.52
30.6532.58
57.87
25.93
37.04
21.74
37.55
25.4527.61
53.68
25.33
38.97
23.53
28.8
25.2426.56
0102030405060
错误率
成绩分类方式
时间单
位
高分预测错误率_时间7天14天28天
图4- 10 不同时间单位之高分预测错误率
4.4.2 低分的预测错误率
l 训练错误率
由表4-9 针对低分群,不同时间单位下各个时间点之训练错误率.以七天为
时间单位来看,均值±0.5与1个标准差的分类方式则是能够在第八周至第九周
的时候,训练错误率能有明显的降低(10%以下);而10分的分类方式则是能够在
第十周至第十一周的时候,训练错误率能有明显的降低(0%).以十四天以及以二
十八天为时间单位的训练效果与七天相同.
54
表4- 9 低分群,不同时间单位下各个时间点之训练错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 50 100 36.84 0 25 100 16.67
2 30 37.5 31.58 100 0 100 100
3 30 25 31.58 0 0 100 16.67
4 30 25 10.53 33.33 0 100 16.67
5 30 25 10.53 33.33 0 100 0
6 30 25 10.53 33.33 0 100 0
7 30 62.5 10.53 33.33 0 100 0
8 20 50 31.58 33.33 50 50 50
9 20 50 10.53 33.33 50 50 50
10 20 50 5.26 33.33 50 50 50
11 20 50 5.26 0 0 50 50
12 20 50 5.26 0 50 50 50
13 20 50 5.26 0 50 50 50
14 20 50 5.26 0 50 50 50
15 20 50 5.26 0 50 50 50
16 40 50 10.53 0 25 50 50
17 40 50 15.79 0 25 50 50
平均错误率 27.65 47.06 14.24 19.61 25 70.59 38.24
14天 1 30 37.5 31.58 100 0 100 100
2 30 25 31.58 100 0 100 16.67
3 30 25 10.53 33.33 0 100 0
4 20 50 31.58 33.33 50 50 50
5 20 50 5.26 33.33 50 50 50
6 20 50 5.26 0 50 50 50
7 20 50 5.26 0 50 50 50
8 40 50 5.26 0 25 50 50
9 40 50 15.79 0 25 50 50
平均错误率 27.78 43.06 15.79 33.33 27.78 66.67 46.3
28天 1 30 25 10.53 33.33 0 100 16.67
2 20 50 31.58 33.33 50 50 50
3 20 50 5.26 0 50 50 50
4 40 50 15.79 0 25 50 50
平均错误率 27.5 43.75 15.79 16.67 31.25 62.5 41.67
55
l 预测(测试)错误率
从表4-10中可以得知,以七天为时间单位来看,以均值±0.5个标准差的成
绩分类方式能在第八周之后有明显的降低;均值±1个标准差,10分,25分,
33分等成绩分类的方式也具有相同的预测效果.而以十四天与二十八颠为时间
单位则与七天的效果相同.上述的结果可以说明不同的成绩分类方式不管在何种
时间单位下,都能在一定的时间内就预测出低分群的学习行为.
表4-10 低分群,不同时间单位下各个时间点之预测错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 80 100 40 100 100 100 100
2 90 100 40 100 100 100 100
3 90 100 40 100 100 100 100
4 100 100 33.33 100 100 100 100
5 100 100 33.33 100 100 100 100
6 100 100 40 100 100 100 100
7 100 11.11 20 100 100 100 100
8 0 0 40 0 33.33 0 16.67
9 0 0 40 0 33.33 0 16.67
10 0 0 40 0 33.33 0 16.67
11 0 0 40 100 100 0 16.67
12 0 0 40 100 33.33 0 16.67
13 0 0 53.33 100 33.33 0 16.67
14 0 0 40 100 33.33 0 16.67
15 0 0 40 100 33.33 0 16.67
16 0 0 40 0 100 0 16.67
17 0 0 53.33 0 100 0 16.67
平均错误率 38.82 35.95 39.61 70.59 72.55 41.18 50.98
14天 1 90 100 40 100 100 100 100
2 100 100 40 100 100 100 100
56
3 100 100 40 100 100 100 100
4 0 0 40 0 33.33 0 16.67
5 0 0 40 0 33.33 0 16.67
6 0 0 40 100 33.33 0 16.67
7 0 0 40 100 33.33 0 16.67
8 0 0 40 0 100 0 16.67
9 0 0 53.33 0 100 0 16.67
平均错误率 32.22 33.33 41.48 55.56 70.37 33.33 44.45
28天 1 100 100 33.33 100 100 100 100
2 0 0 40 0 33.33 0 16.67
3 0 0 40 100 33.33 0 16.67
4 0 0 53.33 0 100 0 16.67
平均错误率 25 25 41.67 50 66.67 25 37.5
l 小结
由图4-11及图4-12可以得知,以不同时间单位做预测的效果差异性不大,
而不同的成绩分类方式与针对高分群预测的效果之关系较强,且除了10分与20
分这两种成绩等级分类方式之外,其他的成绩分类方式对於预测低分群的效果都
还不错(错误率至少小於40%以下),可见就平均而言经由本研究所分析出的决策
规则的确能有效的预测出低分群的学习行为,而这对於教师来说更具有相当的意
义,因为这表示经由本研究的方式,能够在学期中藉由即时的观察学生的学习状
况与学习行为,可以提早预测出哪些学生可能会落入低分群,藉由此方式侦测出
这些可能为低学习成效的学生,教师或是助教可以即早给予教学辅助,以达到某
种形式的个别化教学.
57
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天14天28天
27.5
43.75
15.7916.67
31.25
62.5
41.67
27.78
43.06
15.79
33.33
27.78
66.67
46.327.65
47.06
14.2419.6125
70.59
38.24
01020304050607080
错误率
成绩分类方式
时间单位
低分群training错误率_时间(平均)7天14天28天
图4-11 不同时间单位之低分训练错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天
14天28天
25
25
41.67
50
66.67
25
37.5
32.2233.33
41.48
55.56
70.37
33.33
44.45
38.82
35.9539.61
70.5972.55
41.18
50.98
01020304050607080
错误率
成绩分类方式
时间单位
低分群预测错误率_时间(平均)7天14天28天
图4-12 不同时间单位之低分预测错误率
58
由於之前的结果可以得知,不同的成绩分类方式与针对高分群与低分群的预
测之关系非常的强,因此以下将以不同成绩等级分类方式来看高分与低分的预测
效果.
4.5 不同成绩等级分类方式与高分及低分预测效果之关系
从前两节可以知道,由於不同的成绩分类方式与针对高分群与低分群的预测
具有相当程度的关系,因此本节将继续观察在不同的成绩等级分类方式下,针对
高分群与低分群之预测错误率,并采用与前两节相同的分析对象,分析工具与参
数设定(35%的树支修剪门槛值,以及测试时需最少符合3笔资料做为条件)来进
行决策树分类分析.也针对不同的成绩等级分类方式的预测效果做一结论.
4.5.1 高分的预测错误率
l 训练错误率
由图4-13可以知道,不论用哪一种成绩分类方式,在描述学习行为与高分
的学习成效的正确率相当的高,其训练错误率至少都在6%以下.
59
7天
14天
28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
0.44
0.28
0.63
000
1.81.85
1.39
0.37
00
5.88
3.853.85
0.43
0.27
1.22
5.66
5.13
5.77
0123456
错误率(%)
时间单位(天)
成绩分类方式
高分群训练错误率(平均)
均值减加0.5个标准
差
均值减加1个标准差
均值减加0.5个与1个
标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-13 不同成绩分类方式之高分训练错误率
l 预测(测试)错误率
由图4-14预测高分群的效果来看,除了以均值±0.5个标准差的预测错误率
较高外(50%左右),其他的成绩等级分类方式的预测效果都能在38%以下,其中
以均值±1个标准差(30%以下),25分(25%以下)这两种方式的平均效果较好.这
表示平均而言,各种成绩分类方式的预测效果都相当好,也表示高分群的决策规
则是能够适用於不同学期所开设的课程,对於教师或是分析者而言,可以进一步
从这些高分群的决策规则中反推出其学习行为,并进而可以利用这些学习行为指
标做为教学时或是班级经营时给予学生一个努力的目标.
60
7天14天
28天
均值减加
0
.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
53.68
57.87
59.38
26.56
27.61
32.58
25.24
25.45
30.65
28.837.55
40.52
23.53
21.74
38.04
38.97
37.04
31.25
25.33
25.93
29.17
0102030405060
错误率时间单位(天)
成绩分类方式
高分预测错误率(平均)均值减加0.5个
标准差
均值减加1个标
准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-14 不同成绩分类方式之高分预测错误率
4.5.2 低分的预测错误率
l 训练错误率
由图4-15可以得知,除了以25分为区间的成绩分类方式之外,其他的成绩
分类方式,在描述学习行为与高分的学习成效的正确率相当的高,其训练错误率
至少都在6%以下.
61
7天28天
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以
10
分区分
以
20
分区分
以
25
分区分
以
33
分区分
38.2446.3
41.67
70.59
66.67
62.5
25
27.78
31.25
19.61
33.33
16.67
14.24
15.79
15.79
47.06
43.06
43.7527.65
27.78
27.5
01020304050607080
错误率
时间单位
成绩分类方式
低分群训练错误率_成绩(平均)
均值减加0.5个
标准差
均值减加1个标
准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-15 不同成绩分类方式之低分训练错误率
l 预测(测试)错误率
整体来看,各种成绩等级分类方式针对低分群的预测错误率,以固定分数区
间的分类方式(10分,25分以及33分)的预测错误率较高,而以均值±固定标准
差的成绩分类方式(0.5个标准差,1个标准差,0.5与1个标准差)的预测错误率
都能在40%以下.这表示平均而言,各种成绩分类方式的对於低分群预测效果都
相当好,更可以进一步的说以本研究采用的方式能够有效且正确的预测出低分群
学生的学习行为,对於教师而言,预测出学习成效低的学生之学习行为可以即早
的给予教学的辅助.
62
7天
14天
28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
50.98
44.45
37.5
41.18
33.33
25
72.55
70.37
66.67
70.59
55.56
50
39.6141.48
41.67
35.95
33.33
25
38.82
32.22
25
01020304050607080
错误率
时间单位(天)
成绩分类方式
低分群预测错误率_成绩(平均)
均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-16 不同成绩分类方式之低分预测错误率
63
第5章 结论与建议
本研究目的在提供一个整合性的分析机制,提供给教师决策规则作为教学的
辅助资讯,以辅助教师在教学时能够即时知道学生的学习状况,并针对不同学习
行为的学生给予不同的教学或辅助.此一分析机制分别建立了三个与学习历程分
析相关的资料库:学生学习历程资料库,学生学习类型资料库,教学决策支援资
料库.且经过本研究分析产生出的决策规则结果,并针对这些结果的进行分析,
主要分为三个部分:(1)针对第五期及第六期的各门课程找出学生的各种学习行
为属性与学习成效之间的决策规则,并对产生的决策规则加以说明;(2)为了验
证找出的决策规则,本研究用不同学期的同一课程作为验证的对象,并使用第六
期以及第七期的资料分别作为训练资料与测试资料,以决策数分析中的训练错误
率以及测试错误率做为验证的指标,以试图用不同的时间单位来找出最佳的预测
时间点,也用不同的成绩等级分类方式试图找出最佳的成绩分类方式;(3)将分
析对象区分为整体的学生,高分群的学生以及低分群的学生,并也以第二种分析
方式进行这些族群学生的学习行为分析.最后得到以下的结论.
5.1 研究发现
u 以不同课程的决策规则来看,在第五期计算机网路与网际网路专题中,学生
学习行为中与学习成效直接相关的属性包括了上课次数,参与线上讨论次
数,未缴作业次数,回覆文章被点选次数,提问文章被点选次数,居住地区
等6个属性.此门课程中成绩较高的大部份学生在课程学习行为方面上,不
但作业几乎都缴交,经常到网大上课,参与线上讨论,而且在课程互动上对
於别人提问问题都会主动的回答,而且回答的文章也被别人点阅.相对的以
低分群的学生在课程学习行为方面有过未缴作业的记录,或是在课程互动行
为不常参与线上讨论,这些学习资讯都可以让教师在观察学生是否发生学习
64
困难的一个警讯.
u 以第五期管理资讯系统专题来看,该门课程的学生与学习成效相关的学习行
为属性包括未缴作业次数,居住地区,提问文章篇数,年龄,上课次数等五
个属性.此门课对於是否缴交作业相当的重视.因此该门课教师或是助教可
以藉由观察学生作业是否未缴交的情形来主动提醒学生以免落入学习成效低
分群.
u 以第六期电子商务专题来看,该门课程的学生与学习成效相关的学习行为属
性包括了未缴作业次数,提问文章篇数,学历,以及参与线上讨论次数等四
个属性.对於此门课的学生而言,必须经常参与线上讨论,或是在课程学习
行为里的作业缴交情形良好,将会获得较高的学期成绩;相对的学习成效较
低的学生通常都是没有缴交作业或是缺交次数太多,而且又不主动问问题.
这类型的学生也可以让教师或是助教藉由观察未缴作业次数过多或是提问文
章篇数过少这两个指标来提早知道哪些学生可能需要给予辅助.
u 上述不同的课程与其产生的决策规则将会与该门课程的课程性质,教师的教
学方式以及分数评量重点项目不同而有不同对应属性.具有相同的属性只有
未缴作业次数,表示在网路进行学习时缴交作业将是教师在评量学生的学习
成效的一个很重要的依据;不同课程也会依据各课程的特性以及与教师的授
课方式而有不同的属性,但是这些与学生学习成效相关的属性都一定与学生
在网路上学习行为相关(例如参与线上讨论次数,回覆文章与提问文章被点选
次数,提问文章篇数等等).这也说明在网路上进行网路学习时积极的参与教
与学的活动是与学习成效的相关性非常高,积极的参与课程相关的互动,藉
由提问课程相关问题以及回答别人的问题,才能达到教学相长的目的.
u 以七天为一个时间单位针对整体学生来做分析预测时,在第八周至第九周时
的时间点下的学习历程已经能完整的描绘出学生学习行为与学习成效的决策
规则.而在第八周左右就能够有效的预测出学生的学习行为,表示利用时间
点的观念将这些学习行为变项做累计的动作,确实能够在一定的时间点之前
65
就能够提早预测到学生可能的学习成效.
u 以十四天与二十八天为时间单位针对整体学生来做分析预测时,描述过去学
习行为与学习成效间的效果与以七天为一个单位具有相同的趋势;但预测的
效果都不如七天的好,这也说明合适的时间切割单位以七天较佳.以不同时
间单位做预测的效果差异性不大,但个别来看各个时间单位下都能在一定的
时间点即达到预测的效果.
u 用不同成绩等级分类方式针对整体学生来做分析预测时,各种的成绩分类方
式对於描述决策规则的效果都很高,然而不论用何种成绩的分类方式要预测
整体学生的学习行为与学习成效间的关系是有相当的困难,其中以均值±1
个标准差(30%以下),均值±0.5个与1.5个标准差(47%以下),25分(47%以
下),33分(42%以下)这四种分类方式较好.
u 针对高分群的学生以不同时间单位分析学习行为时,如同以整体学生为对象
的结果,时间单位越长,原本用较短时间单位时错误率较易降低的效果将会
变得越不明显.然而要预测高分群学生的学习行为较为不容易,都是在一开
始的错误率最低,之后逐渐升高,再深入观察不同成绩等级分类方式的预测
效果,其中均值±1个标准差的成绩分类方式能在第八周之后有明显降低的
趋势,而25分与33分都能在第十周至第十二周之后明显的降低,而其他的
分类方式预测效果的表现并不明显.
u 针对低分群的学生以不同时间单位分析,在描述低分群学生的学习行为与其
整体学生以及高分群学生的效果相同;而就预测的效果来看,不论以七天,
十四天或是二十八天为时间单位来看,大部分的成绩等级分类方式都能在第
八周之后明显的降低.
u 就平均而言经由本研究所分析出的决策规则的确能有效的预测出低分群的学
习行为,而这对於教师来说更具有相当的意义,因为这表示经由本研究的方
式,能够在学期中藉由即时的观察学生的学习状况与学习行为,可以提早预
测出哪些学生可能会落入低分群,藉由此方式侦测出这些可能为低学习成效
66
的学生,教师或是助教可以即早给予教学辅助,以达到某种程式的个别化教
学.
5.2 研究贡献
本研究将目前教学网站的历史资料与网页日志档萃取出学生的学习历程,并
建置了以各门课程的学生学习历程档案资料库,透过资料探勘中的分类分析法将
学习历程以时间维度做分析,并产生出个别课程的决策规则以提供教师了解学生
的学习行为与学习成效的可能关系.本研究的主要贡献如下:
u 找出不同课程下课程的属性与决策规则之关系
利用本研究找出的决策规则确实可以反应出该门课程学生的学习行为与学习
成效间的关系.这些决策规则将有助於教师在未来开设相同课程时的一个参
考资讯.
u 找出不同时间单位下与高低分预测效果之关系
对教师来说,如何能够依照学生目前的学习情形找到可能为学习表现不佳(低
分群)的学生,甚至於是可能的中辍生,或是找出高分群学生的学习行为,而
能在一定时间点下即时的侦测出可能为低学习成效的学生,教师在评估之后
可给予适当之辅助教学策略.
u 不同成绩等级分类方式下与高分及低分预测效果之关系
不同成绩等级的分类方式会直接的影响欲观察的对象学习成效的程度,本研
究采用不同成绩方式,皆能够有效且正确的预测出低分群学生的学习行为,
而且预测出学习成效低的学生之学习行为可以即早的给予教学的辅助.而这
些分类方式也可提供给未来欲进行相关研究者.
67
5.3 研究限制
u 分析结果的适用性
本研究的分析对象为中山网路大学资管系网路硕士学分班的第五期至第七期
资料,在分析结果的适用对象及范围将会因分析资料来源的不同而有不同.
而且进行决策规则的验证是采用单一门课程做为验证,其验证的结果并未能
一定适用於其他的课程.
u 分析结果的验证
决策规则的目的是为了辅助教师在教学时的一个辅助资讯,为了能够让这些
找出的决策规则更有效的验证,应将专家的回馈纳入至验证的阶段.
5.4 研究建议及未来研究方向
在研究进行的过程中基於上述研究限制,因此本研究仍有一些不完善的地方
待改进,且在进行研究的过程中也发现有一些议题值得未来继续探讨,因此本研
究提出几项建议以供后续研究者参考.
u 研究范围的延伸
由於时间及资料取得的限制,因此仅适用於第五期至第七期的网路硕士学分
班资料,且由於开设相同课程只有单一门课程,因此在进行研究验证时仅能
挑选该门课程,建议后续研究者可以扩大研究对象的范围及资料收集的时间.
u 专家意见的回馈
本研究提供一整合性的分析机制,产出的决策规则确实能够预测出学生的学
习行为,若能再有教师及专家针对这些决策规则进行验证及意见回馈,将能
使这些资讯成为更一般化的教学辅助资讯.例如,可结合相关的理论(例如电
脑辅助教学CAI)帮助教师更了解这些学习历程资讯.
68
参考文献
中文参考文献
[1]. 王锦裕(2001),线上阅读的学习时间型态与学习互动及学习成就相关性
之研究,国立高雄师范大学资讯教育研究所硕士论文.
[2]. 王文中,吕金燮,吴毓茔(1999),教育测验与评量-教室学习观点,五南
出版有限公司.
[3]. 余民宁(1997),教育测验与评量,心理出版社.
[4]. 吴明隆(2000),班级经营与教学新趋势,五南出版社.
[5]. 吴信贤(2000),非同步网路教学系统之发展及学习历程档案,国立台湾
师范大学资讯教育研究所硕士论文.
[6]. 吕静芳(1999),由网站行为历程以贝式学习建立学习者模式之引导系
统,国立中央大学资讯工程研究所硕士论文.
[7]. 李怡慧(2000),网路教学环境上群组合作学习分组方式之探讨,国立中
山大学资讯管理研究所硕士论文.
[8]. 李建亿,吴孟淞,吴政道(2000),"在全球资讯网学习环境中学习历程
样式发掘法之研究",第八届台湾区网际网路研讨会",台南,国立成功
大学,页448-455.
[9]. 邱美珍(1996),决策树学习法中连续属性之分类研究,中原大学资讯工
程研究所硕士论文.
[10]. 岳修平,王郁青(2000),"电子化学习历程档案实施之态度研究",教育
心理学报,第31卷,第2期,页65-84.
[11]. 林奇贤(1997),"全球资讯网辅助学习系统-网际网路与国小教育",资讯
与电脑杂志,第58期,页14-18.
[12]. 林清贺(1998),网路学习系统上之学习历程评量辅助系统,国立中央大
69
学资讯工程研究所硕士论文.
[13]. 倪家祥(2000),以网站行为的历程建立具时间性学习者模式,国立中央
大学资讯工程研究所硕士论文.
[14]. 庄雅茹,张银益,吴照辉,刘季纶,林淑琼(2000),"传统教室与虚拟
教室学习成效之研究",第十一届全国资讯管理学术研讨会,高雄,国
立中山大学.
[15]. 黄武元,张宸彬(2002),"非同步学习活动与教材特性对於学习时间之
影响",科学教育学刊,第10卷,第2期,页179-191.
[16]. 黄常明(1998),远距教学学习成就及相关因素研究,国立师范大学社会
教育研究所硕士论文.
[17]. 郭俐兰(2000),支援使用者观点之线上分析系统,国立中央大学资讯工
程研究所硕士论文.
[18]. 陈年兴(2000),"网路教学与传统教学之比较分析",远距教育,第15/16
期合刊,页153-163.
[19]. 陈年兴,石岳峻(2000),"建构式网路教学系统设计准则与评量结果",
第十一届全国资讯管理学术研讨会,高雄,国立中山大学.
[20]. 陈年兴,林甘敏(2001),"网路学习之学习行为与学习成效分析",第十
二届国际资讯管理学术研讨会,中坜,国立中央大学.
[21]. 陈国栋(2003),"Discover SCORM portfolio online analysis and
decision-make supporting",第三届网路教学系统平台与内容标准化研讨
会,高雄,国立高雄师范大学.
[22]. 许荣隆(2000),远距教学的学习历程与时间之研究,国立高雄师范大学
资讯教育研究所硕士论文.
[23]. 杨奕农,柴蕙质(2003),"非同步网路学习成效及影响因素之计量分析:
经济学课程个案研究",科学教育学刊,第10卷,第2期,页193-210.
[24]. 蔡孟勋(2000),非同步教学个人化评量机制,国立高雄师范大学工业科
70
技教育研究所硕士论文.
[25]. 杨岱霖(2000),动态适性化学习系统之研究,国立高雄师范大学资讯教
育研究所硕士论文.
[26]. 郭俐兰(2000),支援使用者观点之线上分析系统,国立中央大学资讯工
程研究所硕士论文.
[27]. 童宜慧,张基成(1996),"网路化学习历程档案系统",第八届ICCAI国
际电脑辅助教学研讨会,台中,逢甲大学.
[28]. 童宜慧,张基成(2000),"网路化学习历程档案系统之建构与评鉴-一个
电子化的真实性学习评量工具",远距教育,第13/14期合刊,页78-90.
[29]. 钟斌贤,吴育龙,郑立川,孙荻雯,高苑芳(2000),"虚拟学校学习环
境设计与建置",第八届台湾区网际网路研讨会,台南,国立成功大学,
页368-372.
[30]. 刘惠如(1999),整合式网路教学之教学设计与评量,国立中山大学资讯
管理研究所硕士论文.
[31]. 刘晨钟(2000),网路学习历程之知识探索:学习效能评鉴之工具,国立
中央大学资讯工程研究所博士论文.
[32]. 刘晨钟(2003),"SCORM之学习历程跨平台应用",第三届网路教学系
统平台与内容标准化研讨会,高雄,国立高雄师范大学.
[33]. 蔡旻芳(2001),网路学习之学习历程分析系统,国立中山大学资讯管理
研究所硕士论文.
[34]. 萧嘉琳(2001),互动式概念关系建立辅助系统在学习诊断之应用,暨南
国际大学资讯管理研究所硕士论文.
71
英文参考文献
[1]. Bark, C.C., Geoffrey, I. Webb (1999), Dual-Model: An Architecture for
Utilizing Temporal Information in Student Modeling, "7th International
Conference on Computers in Education", pp. 111-118.
[2]. Bloom, B.S., (1976), Human characteristics and school learning,
McGrawHill.
[3]. Brusilovsky, P., Bra, P.D., Eklund, J., Hall, W., and Kobsa, A. (1999),
"Adaptive hypermedia (panel): purpose, methods, and techniques", the
tenth ACM Conference on Hypertext and hypermedia: returning to our
diverse roots, pp. 199-200.
[4]. Carroll, J. A., Potthoff, D. & Huber, T. (1996), "Learning from three years
of portfolio use in teacher education", Journal of Teacher Education, pp.
253-262.
[5]. Chang, C.K., Chen, G.D., and Ou, K.L. (1998), "Student portfolio analysis
for decision support of Web based classroom teacher by data cube
technology", Journal of Educational Computing Research, vol. 19, no. 3, pp.
307-328.
[6]. Chen, G.D., Liu, C.C., Ou, K.L., and Liu, B.J. (2000), "Discovering
decision knowledge from web log portfolio for managing classroom
processes by applying decision tree and data cube technology", Journal of
Educational Computing Research, vol. 23, no. 3, pp. 305-332.
[7]. Fayyad, G., Piatetsky, S., Smyth, P. and Uthurusamy, R. (1996). Advances in
Knowledge Discovery in Databases, Cambridge, MA: MIT Press.
[8]. Feng, T. & Fionn, M. (2000), "Towards Knowledge Discovery from WWW
Log Data", Proceedings of the The International Conference on Information
72
Technology: Coding and Computing, pp. 302-307.
[9]. Freitag, D., McCallum, A., Mitchell, T., Nigam, K. and Slattery, S. (1998),
"Learning to extract symbolic knowledge from the world wide web",
Proceedings of American Association for Artificial Intelligence(AAAI).
[10]. Fuller, R. (2002), Data Mining Overview, http://www.datawarehouse.com/ .
[11]. Joachims, T. (1998), "Text Categorization with Support Vector Machines:
Learning with Many Relevant Features, ECML-98", 10th European
Conference on Machine Learning.
[12]. Jim, G., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., Venkatrao,
M., Pellow, F. & Pirahesh, H. (1997), Data cube: A relational aggregation
operator generalizing group-by, cross-tab and sub-totals, Data Mining and
Knowledge Discovery, vol. 1, pp. 29-54.
[13]. Hewitt, G. (1995), A portfolio primer: Teaching, collecting, and assessing
student writing, Portsmouth, NH: Heinemann.
[14]. Han, J. and Kamber, M. (2001), Data Mining: Concepts and Techniques.
Morgan Kaufmann Publishers.
[15]. Joshi, K.P., Joshi, A., Yesha, Y. & Krishnapuram, R. (1999), "Warehousing
and mining Web logs", Proceedings of the second international workshop
on Web information and data management, pp. 63- 68.
[16]. Kubiszyn, T. & Borich, G. (1993), Educational testing and measurement:
Classroom application and practice, New York: HarperCollins College
Publisher, 4th edition.
[17]. Kumar, A. (1999), Learner characteristics and success in Indian distance
education, Open learning, pp. 52-58.
[18]. Wu, K.L., Philips S. Yu, & Ballman, A. (1998), "Speedtracer: A web usage
mining and analysis tool", IBM Systems Journal, vol. 37, no. 1.
73
[19]. Lankes, A.M. (1995), "Electronic Portfolios: A new idea in assessment",
ERIC DigestEDO-IR-95-9.
[20]. Moore, M. G., and Kearsley, G. (1996), Distance Education: a system view,
Belmont, CA: Wadsworth Publishing Company.
[21]. Quinlan, J.R. (1993), C4.5 Programs for machine learning, Morgan
Kaufmann Publishers, San Mateo, California.
[22]. Romiszowski, A.J. (1981), Designing Instructional Systems: Decision
Making in Course Planing and Curriculum Design, New York: Nichols
Publishing Company.
[23]. Sharp, J.E. (1997), "Using portfolio in classroom", 27th Frontiers in
Education Conference, vol. 1, pp.272-279.
[24]. Smith, K. & Tillema, H. (1998), "Evaluating portfolio use as a learning tool
for professionals", Scandinavian journal of educational research, vol. 42,
no. 2, pp. 193-205.
[25]. Tao, F., Fionn, M. (2000), Information Self-Organization For Knowledge
Discovery, DEXA Workshop.
[26]. WebCT: World Wide Web Course Tools at http://www.webct.com .
[27]. Zaiane, O.R., Xin, M. & Han, J. (1998), "Discovering Web Access Patterns
and Trends by Applying OLAP and Data Mining Technology on Web Logs",
Advances in Digital Libraries Conf., Santa Barbara, CA, pp. 19-29.
硕士论文
从学习历程档案建构决策树以支援网路教学
Constructing Decision Tree Using Learners' Portfolio
for Supporting e-Learning
研究生:廖圣杰 撰
指导教授:陈年兴 博士
中华民国 九十二年七月
博硕士论文授权书
(国科会科学技术资料中心版本92.2.17)
本授权书所授权之论文为本人在_ 国 立 中 山__大学(学院) _资讯管理_系所
_ (空白)_ 组__91__学年度第_2_学期取得_硕_士学位之论文.
论文名称:__从学习历程档案建构决策树以支援网路教学___
R同意 □不同意 (政府机关重制上网)
本人具有著作财产权之论文全文资料,授予行政院国家科学委员会科学技
术资料中心,国家图书馆及本人毕业学校图书馆,得不限地域,时间与次
数以微缩,光碟或数位化等各种方式重制后散布发行或上载网路.
本论文为本人向经济部智慧财产局申请专利(未申请者本条款请不予理会)
的附件之一,申请文号为:______,注明文号者请将全文资料延后
半年再公开.
--------------------------------------------------------------------------
R同意 □不同意 (图书馆影印)
本人具有著作财产权之论文全文资料,授予教育部指定送缴之图书馆及本
人毕业学校图书馆,为学术研究之目的以各种方法重制,或为上述目的再
授权他人以各种方法重制,不限地域与时间,惟每人以一份为限.
上述授权内容均无须订立让与及授权契约书.依本授权之发行权为非专属性发行
权利.依本授权所为之收录,重制,发行及学术研发利用均为无偿.上述同意与不同
意之栏位若未钩选,本人同意视同授权.
指导教授姓名: 陈年兴
研究生签名: 学号: 9042615
(亲笔正楷) (务必填写)
日期: 民国 92 年 月 日
1. 本授权书 (得自http://sticnet.stic.gov.tw/sticweb/html/theses/authorize.html 下
载或至http://www.stic.gov.tw首页右下方下载) 请以黑笔撰写并影印装订於书名页之次
页.
2. 授权第一项者,请确认学校是否代收,若无者,请个别再寄论文一本至台北市(106-36)和平
东路二段106号1702室 国科会科学技术资料中心 王淑贞.(本授权书谘询电
话:02-27377746)
3. 本授权书於民国85年4月10日送请内政部著作权委员会(现为经济部智慧财产局)修正定
稿,89.11.21部份修正.
4. 本案依据教育部国家图书馆85.4.19台(85)图编字第712号函办理.
致谢
研究所的日子转眼即逝,这两年生活中的点点滴滴,若不是亲身经历,就不
会有这麼深刻的体会,在研究所生活中,首先要感谢我的指导教授陈年兴老师,
在这两年中老师对於研究认真的态度,并让我能时时掌握自己论文的进度与方
向.同时也要感谢口试委员游宝达教授以及黄武元教授在口试时给予的建议,论
文得以更为完善.
实验室的岳峻学长,盛文学长,以及秀佳学姐,谢谢你们对我的研究方向上
给予相当多的帮忙;一同努力奋战的道辉,佑宏,铮琪,慧成,不论在研究或生
活上都感谢有你们一起分享;还有辛苦的学弟妹们,也谢谢你们口试当天的帮
忙,并感谢同学兼室友,俊凯与启常,以及3024,3024-1的同学们,更让我在
苦闷的课业之外也留下许多欢乐的回忆.
此外,也要感谢我的父母及姊姊,在这段离家求学的日子无悔的给予我生活
上的支持,让我在异乡念书更无后顾之忧;还有我的女友妍希,能在这里求学都
是因为有你的支持与鼓励.在此仅将论文献给我的家人及女友.
廖圣杰 2003年7月
谨志於西子湾中山大学
论文提要
学年度: 91
学期: 2
校院: 国立中山大学
系所: 资讯管理学系研究所
论文名称(中): 从学习历程档案建构决策树以支援网路教学
论文名称(英): Constructing Decision Tree Using Learners' Portfolio for
Supporting e-Learning
学位类别: 硕士
语文别: 中文
学号: 9042615
提要开放使用: 是
页数: 73
研究生(中)姓: 廖
研究生(中)名: 圣杰
研究生(英)姓: Liao
研究生(英)名: Shen-Jai
指导教授(中)姓名: 陈年兴
指导教授(英)姓名: Nian-Shing Chen
关键字(中): 网路教学,学习历程档案,资料探勘,决策树分析
关键字(英): e-Learning, Portfolio, Data Mining, Decision-Tree Analysis
i
中文摘要
网路学习的发展与成熟,透过学习者在教学网站参与各项教学活动过程中所
记录下来的学习历程档案,可以帮助教师有效的掌握学习者的学习状况.为了将
这些储存每个学习者的学习动作之网页日志转换成具教育意义的资讯,以帮助教
师能够即时观察学生的学习状况.并提供整合多个维度的观察方式,让教师可即
时观察学生所有的学习行为及学习状况.本研究提供一个整合性的分析机制,可
以利用现有的学习历程档案,整合多个观察维度分析出学生的学习行为,并用决
策树分析预测出可能发生学习困难的学生,让教学者可以即时的给予适当的教学
辅助.
经由本研究的分析发现,(1)不同的课程与其产生的决策规则将会与该门课
程的课程性质,教师的教学方式以及分数评量重点项目不同而有不同对应属性,
而缴交作业将是教师在评量学生的学习成效上一个很重要的依据,且这些与学生
学习成效相关的属性都一定与学生在网路上学习行为相关.(2)利用时间点的观
念将这些学习行为变项做累计的动作,确实能够在一定的时间点之前就能够提早
预测到学生可能的学习成效;然而以不同时间单位做预测的效果差异性不大,但
个别来看各个时间单位下都能在一定的时间点即达到预测的效果.(3)用不同成
绩等级分类方式针对整体学生来做分析预测时,各种的成绩分类方式对於描述决
策规则的效果都很高,但预测整体学生的学习行为与学习成效间的关系有其困
难.(4)平均而言经由本研究所分析出的决策规则用来预测高分群学生的学习行
为较为不易,但是能够有效的预测出低分群的学习行为.表示经由本研究的方
式,能够在学期中藉由即时的观察学生的学习状况与学习行为,提早预测出可能
落入低分群的学生,教师可以依据此资讯即早给予教学辅助以达到个别化教学的
目标.
关键字:网路教学,学习历程档案,资料探勘,决策树分析
ii
Abstract
In recent years, with the development of electronic media, e-learning has begun
to replace traditional teaching and learning with Internet service. With the availability
of newly developed technology, opportunities have risen for the teacher of e-learning
to using students' learning logs that recorded via Web site to understanding the
learning state of students. This research will address an analytical mechanism that
integrated multidimensional logs to let teachers observe students all learning
behaviors and learning status immediately, and used decision tree analysis to detect
when and what students may have a learning bottleneck. Finally, teachers can use
those results to give the right student with the right remedial instruction at the right
time.
Summary, we have four conclusions: (1) the decision rules are different from
course to course, for example instruction method and assessment method, assignment is a
basis to assess student's learning effectiveness, as well those attributes cooperate with
learning effectiveness are related to student's learning behaviors. (2) To accumulate
those learning behavior attributes with the time point actually detect learners probably
learning effectiveness early. The variation of effectiveness with different time interval
is not clearly, but all time intervals can detect learning effectiveness early. (3) To
detect students' learning effectiveness with different grade level classifications, every
grade level classifications can describe decision rules very well, but not to detect all
students' learning effectiveness. (4) Although to detect high-grade students' learning
effectiveness are very difficult, but we can detect lower-grade students' learning
effectiveness. Finally, this research can really observe student's leaning states
immediately, and early detect students' learning effectiveness. Therefore, teachers can
make decisions to manage learning activities to promote learning effect.
Keywords: e-Learning, learning portfolio, data mining, decision tree analysis
iii
目 录
第1章 绪论..................................................................................................................1
1.1 研究背景.........................................................................................................1
1.2 研究动机.........................................................................................................2
1.3 研究目的.........................................................................................................4
1.4 论文架构与研究流程.....................................................................................5
第2章 文献探讨..........................................................................................................7
2.1 学习历程记录与相关研究.............................................................................7
2.2 学习活动,学习时间与学习成效之关系.....................................................9
2.3 资料探勘相关理论.......................................................................................11
2.4 决策树相关理论与应用...............................................................................14
第3章 研究架构与方法............................................................................................20
3.1 研究架构.......................................................................................................20
3.2 研究对象.......................................................................................................22
3.3 分析变数.......................................................................................................23
3.4 研究步骤.......................................................................................................24
3.5 研究方法与工具...........................................................................................31
第4章 资料分析结果与讨论....................................................................................32
4.1 不同课程下课程属性与决策规则之关系...................................................33
4.2 不同时间单位下各时间点与决策规则之关系...........................................39
4.3 不同成绩等级分类方式与决策规则之关系...............................................46
4.4 不同时间单位下各时间点与高分及低分预测效果之关系.......................48
4.5 不同成绩等级分类方式与高分及低分预测效果之关系...........................58
第5章 结论与建议....................................................................................................63
参考文献......................................................................................................................68
中文参考文献......................................................................................................68
英文参考文献......................................................................................................71
iv
图 目 录
图1- 1 研究流程图......................................................................................................6
图3- 1 研究架构图....................................................................................................21
图3- 2 研究流程图....................................................................................................25
图4- 1 第五期计算机网路与网际网路专题的决策规则........................................33
图4- 2 第五期管理资讯系统专题的决策规则........................................................35
图4- 3 第六期电子商务专题的决策规则................................................................37
图4- 4 第七期计算机网路与网际网路专题的决策规则........................................38
图4- 5 以时间单位之整体训练错误率....................................................................45
图4- 6 以时间单位之整体预测错误率....................................................................46
图4- 7 不同成绩分类方式之整体训练错误率........................................................47
图4- 9 不同时间单位之高分训练错误率................................................................52
图4- 10 不同时间单位之高分预测错误率..............................................................53
图4-11 不同时间单位之低分训练错误率...............................................................57
图4-12 不同时间单位之低分预测错误率...............................................................57
图4-13 不同成绩分类方式之高分训练错误率.......................................................59
图4-14 不同成绩分类方式之高分预测错误率.......................................................60
图4-15 不同成绩分类方式之低分训练错误率.......................................................61
图4-16 不同成绩分类方式之低分预测错误率.......................................................62
v
表 目 录
表2- 1 学生学习行为与学习型态之相关研究 (本研究整理)................................10
表2- 2 条件X属於分类C的对应表.......................................................................18
表3- 1 资管系网路硕士学分各学期开授课程........................................................22
表4- 1 以七天为时间单位下各个时间点之训练错误率........................................40
表4- 2 以七天为时间单位下各个时间点之预测错误率........................................41
表4- 3 以十四天为时间单位下各个时间点之训练错误率....................................42
表4- 4 以十四天为时间单位下各个时间点之预测错误率....................................43
表4- 5 以二十八天为时间单位下各个时间点之训练错误率................................44
表4- 6 以二十八天为时间单位下各个时间点之预测错误率................................44
表4- 7 高分群,不同时间单位下各个时间点之训练错误率................................49
表4- 8 高分群,不同时间单位下各个时间点之预测错误率................................51
表4- 9 低分群,不同时间单位下各个时间点之训练错误率................................54
表4-10 低分群,不同时间单位下各个时间点之预测错误率...............................55
1
第1章 绪论
1.1 研究背景
随著网际网路的普及与资讯科技的进步,以资讯数位化的方式来进行知识的
传授与共享已经成为必然的趋势,其中利用网路教学的方式也是主要的应用之
一,而目前也有许多的网路教学系统提供教师在网路上进行教授课程以及让学生
在网路上进行学习.
网路教学打破了时空的限制,让教师与学生可以在网路上进行与传统教学相
近的教与学活动.其最大的好处是可以在不影响学生进行学习的情况下,方便的
记录所有与学生相关的学习行为资讯.对教师而言,这些学习资讯除了可以用来
检视学生的课程表现及学习情况外,亦可做为教师在教材编排,教学策略制定及
教学活动设计之参考(刘惠如,1999).但是这些学习记录无法直接给予教师与学
生有意义的资讯,必须经由繁复的步骤来转换这些大量的网页日志(Web Log)才
能够找出具有教学意义的学习资讯(蔡旻芳,2001).许多关於网路教学的研究显
示记录学生的学习路径及学习表现,可以提供教师作为评估学习成效及诊断学习
困难的依据,这些都是非常有用且较真实的评量资料(童宜慧,张基成,1996,
2000;蔡孟勋,2000).然而一个整合性的分析机制,且可以提供教师以多种维
度来观察学生在课程进行过程中的学习历程资讯,并提供整体性的学习资讯让教
师做为辅助教学策略时的依据之相关研究就显的非常的重要(刘晨钟,2003).
因此,本研究提出了一个整合性的分析机制,透过对这些异质且大量的学习
记录与网页日志的处理,并整合多个观察维度来分析这些学习历程资讯,以找出
学生的学习行为,以便於能够根据学生目前的学习情况主动预测出学生可能的学
习成效,让教师可以根据这些预测资讯对可能发生学习困难的学生进行辅助之教
学策略.
2
1.2 研究动机
随著网路学习的发展与成熟,网路上累积的学习资源与教学系统日趋丰富,
目前有许多的网路教学系统,如Web CT,Learning Space,Top Class,中山网路
大学等,这些网路教学系统都提供教师在网路上进行教授课程以及让学生在网路
上进行学习.由於在网路上进行教与学的活动时可以达到与在传统教学环境相同
的教学方式,也就是说教师可以在网路上进行同步或是非同步的课程内容的讲
授,也可以在网路教学系统提供教材与相关资源供学生线上阅读;学生针对上课
内容所产生的问题也可以在网站上提问问题与进行讨论,教师也可以请学生进行
分组讨论,小组专案合作等等(陈年兴,石岳峻,2000).
除了能够达到与传统教学环境具有相同的教学活动之外,许多研究也指出,
在网路上进行学习与一般传统教学最大的不同之处为网路学习并不会受限於传
统教学环境中的学习模式,除了网路上学习资源相当多使得教材资源的取得更为
方便与弹性之外,在教学活动上教师不须亲自与学生面对面的教授课程,而学生
也无需在固定时地上课,让学习者可以依据各自的需求进行学习,也在时地上更
加的具有弹性(童宜慧,张基成,1996;林奇贤,1997;林清贺,1998;陈年兴,
石岳峻,1999;吴信贤,2000;陈年兴,林甘敏,2001).
在网路上进行学习活动的优点除了不受地理时空的限制之外,最大好处在於
所有学习者在教学网站上的学习动作,都会经由系统主机自动记录下来,并将这
些记录存在网页日志内.从另一方面来看,这些网页日志就是目前网站上学生进
行学习的历史性资讯,完整的记录了学生的网路学习行为,对於教师来说这些学
习资讯可以了解学生的课程表现及学习情况(蔡旻芳,2001).
在传统的教学里,测验与评量是用来评估学生学习状况的主要方式.评量不
但可以表现出学生目前的学习情形,并针对学习成效的实际表现可以找出该学生
学习时发生学习障碍的盲点为何,教师也可以针对这些可能的学习盲点进行特别
的辅助教学或是个别教学.然而传统的测验分数,并无法完全反映出学生的学习
3
成效以及学习障碍点,因而无法给予即时的补救与辅助.可见必须解决此问题才
能让教师协助学生找学习盲点出并克服学习盲点,以提高学习成效(萧嘉琳,
2001).
此外,传统的教学环境里,学生的学习历程档案多为课堂心得,作业及作品
集等纸本的形式,这些学习历程档案,不论对於学生或是教师的收集都是相当大
的负担;而在网路教学的环境里,除了可以直接的记录学生的学习动作之外,在
课程中的各个学习活动的记录包括各项的作业,笔记,讨论文章等等都能由主机
直接的记录,对於学习历程档案也可以依照个别学生以及课程的方式有系统的记
录下来,这对於教师要收集,检视课程里所有学生的学习历程,或是学生要检视
自己的学习历程档案来说都具有非常大的便利性.
然而对於教师而言,这些网页日志资讯虽然完整记录了学生所有的学习行
为,也能确实的反映出学生在课程中所有的表现及学习情形,但是这些网站日志
并不是针对教育用途而设计,教师并不易从这些记录中了解学生各种学习行为与
教学策略的关系,所以教师很难从学习历程中推导学生的学习活动效能进而制定
有效的教学活动及教学策略.换而言之,教师在进行网路教学时并无法直接根据
学生目前即时的学习状况侦测出学习是否有效(刘晨钟,2000).这种教学上的决
策资讯除了可以反映出学生的学习情形与学习成效的关系之外,也可以了解教师
的教学特色以及班级经营的方式.因此若能从这些资料中找出对於教师有帮助的
决策资讯,将更能协助教师掌握学生在修课过程中的学习情形,以及针对学生不
同的学习状况进行个别化的教学.所以如何将这些储存著各个学习动作的网页日
志转换成具教育意义的资讯,以帮助教师能够即时观察学生的学习状况,便是相
当重要的研究议题(陈国栋,2003;刘晨钟,2003).
目前针对教学网站学生学习行为的相关研究,大多针对单一的观察指标来观
察与学习成效之间的关系程度(这些观察指标可以是频率值,例如上课次数,或
是学习时间维度,或是社会人口变项等观察维度),但是以单一维度并无法完整
的观察学生的整体学习情形,而且也没有办法给予教师立即性与直接性的资讯来
4
观察学生所有的学习行为.因此,提供以多个维度的观察方式,可以让教师了解
整体学习情形的研究,便成了相当重要的研究方向.
另一方面,许多研究也提到可以将这些学习历程的记录,经过资料的处理产
生适当学习行为的相关资料,并视此相关资料为资料探勘中决策树分析的输入变
项,再加上以学生成绩作为学习成效的指标的分类方式,进而找出学习行为与学
习成效间的关系,并进一步作分析及预测(林清贺,1998;吕静芳,1999;倪家
祥,2000;刘晨钟,2000).然而此类的研究往往只以单一维度的学习行为作学
习行为与学习成效的预测,因此对於学生学习行为的描述并不具有完整性的描
述,因此提供一个多个观察维度的分析机制,分析出学生的学习行为并作出预
测,以达到可以即时的观察与侦测可能有学习困难的学生,将是相当重要研究议
题. 因此,本论文的研究议题便是如何将这些储存著各个学习动作的网页日志转
换成具教育意义的资讯,以帮助教师能够即时观察学生的学习状况.并提供教师
立即性与直接性的以多个维度的观察学生所有的学习行为.针对这些问题,本研
究将提供一个整合性的分析机制可以利用现有的学习历程记录,以多个观察维度
分析出学生的学习行为,并预测出可能发生学习困难的学生以即时的给予适当的
教学辅助.
1.3 研究目的
本研究目的在提供一个整合性的分析机制,提供给教师决策规则作为教学的
辅助资讯,以辅助教师在教学时能够即时知道学生的学习状况,并针对不同学习
行为的学生给予不同的教学或辅助.因此本研究的目的可以分为以下三个:
(1) 探讨目前应用学习历程记录的应用以及影响学习者学习成效的因素,并
分析以归纳出利用学习历程分析所具备的因素有哪些.
(2) 探讨不同课程学生的学习行为与学习成效的关系
5
(3) 这些学习行为与学习成效间的决策规则是否可以用来作为预测学生学
习状况的依据.
1.4 论文架构与研究流程
本论文共分为五章,各章的内容重点简述如下:
第一章 绪论
说明本研究的研究背景,研究动机,研究目的以及论文架构与研究流程.
第二章 文献探讨
本章里面首先探讨目前对於学习历程记录之相关研究,以了解如何应用学生
学习历程记录於网路教学平台的相关研究.第二节是有关影响学习者的学习
型态与学习成效之关系的相关探讨与归纳,藉以了解目前影响学习者不同的
学习型态与学习成效的关系.第三节是针对学生学习活动,学习时间与学习
成效之关系做一说明,藉此了解学习者在网路学习环境中的个人学习状况.
第四节则是对本研究使用的资料分析方法之相关理论与应用进行说明.
第三章 研究架构与方法
说明本研究之研究架构与研究变数,研究对象与研究方法与研究步骤,以及
所使用的研究工具及分析软体.
第四章 资料分析结果与讨论
本章根据分析软体产生的结果进行整理,分析与讨论,并针对资料分析结果
进行讨论.
第五章 结论与建议
归纳本研究的研究发现与结论,说明本研究之限制并提出后续研究之建议.
6
图1- 1 研究流程图
形成研究动机与目的
探讨相关文献与理论
确认研究主题与范围
确立研究架构及方法
整理相关文献资料 资料收集与汇整
资料分析与讨论
归纳结论与建议
7
第2章 文献探讨
本研究的主要目的在於提供教师辅助决策资讯,以辅助教师在教学时能够即
时知道学生的学习状况,并针对不同学习行为的学生给予不同的教学或辅助.在
本章里面首先探讨目前对於学习历程记录与相关的研究,以了解如何应用学生学
习历程记录於网路教学平台的相关研究.第二节探讨有关影响学习者的学习型态
与学习成效之关系的相关研究与归纳,藉以了解目前影响学习者不同的学习型态
与学习成效的关系;并针对学生学习活动,学习时间与学习成效之关系也做说
明,藉此了解学习者在网路学习环境中的个人学习状况.接著第三节及第四节则
是对本研究使用的资料分析方法之相关理论与应用进行说明,包括了资料探勘的
相关理论以及决策树分析的基本原理和延伸的演算法理论,做为本研究在进行资
料分析时的依据.
2.1学习历程记录与相关研究
2.1.1 学习历程记录
学习历程记录,其应用已成为近年来教育上新兴的发展趋势之一,它以特定
的目的或用途来收集学习者学习过程中各面向的资料,以反应或显现学习者的真
实表现及进步或改变的情形(童宜慧,张基成,1996).在传统教学里学习历程记
录所遭遇的主要困难在於资料的储存,搜寻及管理不易.然而透过网路并结合资
料库的方式就可以有系统的记录学习历程.因此,本研究中即是藉由网站主机自
动的记录,并产生每一位学习者的学习历程记录,以完成收集学习者完整学习历
程记录.
8
2.1.2 网路学习历程记录相关研究
过去有关网路学习历程记录的研究,多是分析网站所记录的网页日志资料以
获取决策性资讯的研究,例如WebWatcher可以记录与分析使用者的网页日志的
资料,藉由对过去系统使用者留下的记录进行资料分析与运算,以决定哪些网页
是使用者最常去,或是根据使用者的使用模式,找出下一个最可能连结的网页推
荐给使用者(Joachims, T., 1998,Freitag, D., Mitchell, T. etc., 1998).另外Fuller, R.
(2002)提出可以藉由统计验证使用者花在网页上的时间来评估使用者对网页的
兴趣,来改善网站的网页架构,而使用者花在网页上的时间是透过计算系统里日
志所登录的时间而得.WebLogMiner则是一套针对网页日志伺服器上的登录档
案进行资料探勘的工具.此外也可以利用网路的流量分析(例如用MRTG,The
Multi Router Traffic Grapher),或是教学网站中如果有提供已经整理过的资讯(例
如同班同学资讯,各项学习指标的排名等方式)呈现整体班级的学习情形.诸如
此类的研究,都是藉由分析网页日志 记录,得到系统运作情形或使用者活动趋
向等资料.但是上述研究多仅能呈现学习情形,并无法针对这些学习情形即时的
给予老师对於学生有一些直接且易读的教学资讯,因此必须要运用其他资料分析
方法来针对这些资料做分析.
另外也有些研究提出运用即时多维度分析处理(OLAP)和资料探勘技术分析
网页日志资料,将分析步骤分成清除整理资料,将资料建成Data Cube,利用资
料探勘进行分析等三部分(Zaiane, O.R., 1998),其中Data Cube 的观念是由Jim,
G.(1997)等人提出的,并针对Data Cube 的观念,运作和原理都做了详尽的描述.
此外过去也有许多的研究利用资料探勘的技术来获取资讯,从大量资料中尝试探
勘出一些决策性的规则,例如:Han, J. 将资料仓储(Data Warehouse)或是以OLAP
当作资料来源,以各种资料探勘的方式进行资料分析.资料探勘几乎可处理所有
的资料型态,可处理的资料范围广阔,而统计的理论存在已久,其验证能力更是
受到肯定,利用两者进行分析,相信可以得到更具意义的资料.
9
在本研究中,就是将教学网站里所留下的网页日志中的学习记录做前置处
理,以方便未来能够直接有用的取得这些学习资讯,并采用资料探勘的方式找出
这些学习记录下隐含的资讯以及关联程度,进而找到学生在网路上进行学习时各
种的学习行为与学习成效的规则,以期这些资讯能够给予老师在进行网路教学
时,能即时的了解目前学生的学习情形并适时的给予辅助.
2.2 学习活动,学习时间与学习成效之关系
2.2.1 学习者学习行为与学习型态
关於学习者学习型态(Learning Style),以往的研究发现过去的成绩对於学生
考试成绩有显著之影响(杨奕农,柴蕙质,2000).此外,Kumar(1999)曾研究学
生本身的学业自我概念(academic self-concept),研读的习惯及对远距教学的态度
与学习成效的关连,发现上述三者皆与学习成效成显著正相关,而其中学业自我
概念与学习成效有较高的相关性,且发现学习者的个别资料中的主修科系,婚姻
状况,工作与否与使用远距教学的经验都会间接影响学习成效(Kumar, 1999).而
上述的研究多是探讨社会人口变项与学习成效之间的关系.
近几年的研究多是以学生在网路上的学习行为来探讨与学习成绩之间的关
系,其中有研究是以在网路上的互动方式以及线上阅读时间两个维度来分析学生
的学习类型(陈年兴,林甘敏,2001),例如在网路学习行为上,学生在学习面的
特质有「连续学习型」与「间断学习型」以及「网路积极主动型」与「网路消极
沈默型」;在互动行为上,学生可分「积极互动型」与「不互动型」以及「纯问
型」,「纯答型」,「不问不答型」以及「既问且答型」.另外也有研究是以学生每
次上站学习的持续时间(duration)与上站间隔时间(inter-arrival)两种时间计算方式
(王锦裕,2001,许荣隆,2000,杨岱霖,2000),这两种时间计算方式所构成之
线上阅读时间分布图的类型(pattern),可分为四种学习行为:(1)鲜少投入型,(2)
10
临时抱佛脚型,(3)后继乏力型,(4)时间归划型,并以学生在网站里的发表的文
章内容对应不同的学习型态.学生学习行为与学习型态的相关研究整理如表2-1.
表2- 1 学生学习行为与学习型态之相关研究 (本研究整理)
分类方式 学习型态
学习面的特质 连续学习型与间断学习型;
网路积极主动型与网路消极沈默型
互动面的特质 积极互动型与不互动型;
纯问型,纯答型,不问不答型,既问且答型
学习的持续时间与
上站间隔时间
鲜少投入型,临时抱佛脚型,后继乏力型,时间规划型
2.2.2 学习成效评量
有关学习成效评量方面,一般而言可将学习成效的评量方式概分为两种:形
成性评量与总结性评量(Bloom,1976).形成性评量应用在教学过程中,提供教
师及学生立即性回馈及学生学习进步的详细讯息.而且形成性评量的范围较小,
测验内容限於教学的特定内容,可能是一个概念或原则,或某一单元内容.透过
形成性评量,如发现多数学生在某一题目答错,则对全体学生进行再教学;如仅
少数学生答错,则实施个别辅导.总结性评量则在教学后,用来评定学生的学习
状况.包含学校定期举行的月考和期考,都可视为此种评量.其目的比较偏重在
评定学生的成绩等级,与认定学生的精熟程度,不在於发现学习困难和改进教学.
由於评量是衡量学习成效的具体指标,因此教育部在「国民中学小学九年一
贯课程纲要」即提出评量方法应采多元化方法实施,兼重形成性和总结性评量.
然而现今多数传统学校大多以总结性评量为主,重视段考或单元评量,若有形成
性评量,也只是采用市面上所贩售的纸笔测验,教师很少自行编写适用於班级学
11
生学习状况的形成性评量.由於网路大学有别於传统教学方式,网路大学系统平
台除了能够完整记录各式各样的学习资料,包括学员上网次数,学期成绩,也能
够提供给教师们学员学期参与,群组讨论的内容,与学员的心得等资料.虽然网
路大学学习成效评量,也是以传统「纸笔测验」为主的情况之下,但教师在评量
一个学生的学习成效时,也能够兼顾学生的形成性评量,并不会忽略学生其他能
力,而给出一个不客观的学习成绩.
而本研究基於在网路学习上除了以传统纸笔测验形式进行成效评量之外,也
兼顾到能够利用各种的学习资料与学习行为记录进行形成性评量的观念,将针对
这些学习行为记录进一步萃取出学生的学习历程,以提供给教师作为成效评量的
参考资讯.
2.3 资料探勘相关理论
近几年来,各种和资讯相关的产业累积大量的资料.这些资料里面,包含著
许多有用的知识,以原始资料的方式散布在其中.而这些资料对於商业上的管
理,产品的研发,行销设计等等,都是非常有用的资料,所以开始引起大家的注
意,想要从里面挖掘出里面所拥有的资讯.从原始的资料(Raw Data)转换出我们
所需要资讯(或称知识)的过程中,对於资料探勘有著不一样的观点与定位.而也
有研究认为资料探勘是知识转换过程中的一个阶段,其中应该包含了资料前置处
理的步骤,以及之后知识的过滤与呈现等后续步骤;不过也有学者认为资料探勘
所代表的是整个知识探索的过程;而因为分析的是过去的历史资料,所以也可说
资料探勘是找出过去决策行为与之后所产生的结果之间的关联.总而言之,资料
探勘的意义就是从大量资料中探索出资讯或是知识,也就KDD(Knowledge
Discovery in Database)的一种方式(Fayyad,Piatetsky-Shapiro etc,1996;Han,
Kamber,2001).
12
基本上,包含了下面的几个步骤:
(1) 资料清除:资料杂讯的处理.
(2) 资料整合:多方资料的汇整.
(3) 资料选取:选取所要探勘部分相关的资料.
(4) 资料转换:转换资料成所需要的形式.
(5) 资料探勘:使用智慧的方法来找寻所需要的样式.
(6) 样式的评估:筛选找出的资料样式.
(7) 知识的呈现:将找出的知识以适当的方式呈现给使用者.
经由学习平台所记录的学习历程档案,包含了众多学习者在网路教学平台上
的学习资讯,相对的也占据了庞大的储存空间.因此有必要提供一个转换的机
制,将原始且庞大的学习历程资料做资料的转换,成为可让教师弹性的观看学习
者的学习历程档案资讯.本研究即是建置一个学习历程档案资料库,从以课程和
学生两个种维度来观察学生的学习情形,并希望能够从此资料库中提供教师或学
生快速的查询即时的学习状况,并进一步从储存於资料库的各项学习行为指标
值,利用资料探勘中分类分析方式来找出与学生有关的决策资讯,使得教师能够
藉由这些决策资讯来找出可能有学习困难的学生并给予适当的辅助.因此以下将
针对建置学习历程资料库中重要的步骤进行说明.
2.3.1 学习历程记录的前置处理
学习平台在回应学习者请求教材时,会针对教材内所包含的资讯,如:图片,
音乐档,网页框架及任何失败的查询,都会自动记录成一笔记录档,太多重覆的
记录档会对有用记录造成分析上的杂讯,所以在进行分析储存之前必须先进行过
滤杂讯的动作,有相当多有关针对网页日志处理的研究即说明如何针对记录档进
行过滤的动作,以更取得有用的资料(Feng , Fionn, 2000;Zaiane, 1998).
13
2.3.2 群集分析与分类分析
由於本研究是利用分类分析的方式,从学习历程记录中以不同的分类方式对
学生的学习成效(此即为学生的学期成绩)做分类,然而分类分析(Classification)
是群集分析(Cluster)的特例,因此以下将先介绍群集分析.
群集分析是根据观察值的相似或相异性,将同值性较高或相异性较低的观察
值集成一群,在分析前不知道观察值所对应的组别为何,经由群集之后,组别内
容才会成形.群集依分类方法不同分为阶层式与非阶层式两种.阶层式又分为融
核式与分裂式,阶层融核式的群集在刚开始时是将N 个观察值划分为N 集群,
然后根据彼此间的相似程度,将最相似的集群加以合并,最后合并成为一个大集
群.而阶层分裂式则刚好相反.至於非阶层式的群集,最常用的就是K平均数
法(K-mean),K-mean 一开始藉由选出种子就固定了分群 的个数,再按照计算质
心和点与点间的距离逐渐调整集群内所含的观察值,一直到这些观察值几乎没有
再变动才停止.
分类分析是群集的特例,需要事先知道每一个观察值所属组别,再依据已知
组别的观察值资料进行分类计算,决定最好的分类方式,将所有分类的条件依阶
层排列会呈树状,称之为决策树.决策树的每一分支,代表一种规则,树的末端
即代表所属组别,我们可以利用决策树来预测其他符合分支特徵的观察值所属的
组别为何.
本研究即是利用分类分析的方式,从学习历程记录中以不同的分类方式对学
生的学习成效(此即为学生的学期成绩)做分类,并用学生过去在网站上的学习历
程与学习成绩等资料进行分类分析法来分析资料.教师可决定哪些决策规则可以
再利用,并回馈至系统中.而本研究也将用上述的分析步骤进行资料分析,当然
也会有相当多的时间在做资料的前置处理工作.本研究将会用到分类分析法中的
决策树分析(Decision Tree)进行资料分析.以下针对决策树相关的基本概念,延
伸理论,以及相关的应用做一说明,并说明本研究所采用的工具.
14
2.4 决策树相关理论与应用
2.4.1 决策树分析
决策树是一棵语意树(Semantic Tree),他与一般的资料结构中的树一样有节
点与树叶,每一个节点都被安排一个适当的测试,然后利用该测试结果决定资料
将再利用此一节点的哪一棵子树作为分类的条件继续做决策,最后拓过节点中的
测试达到问题分析的目的(邱美珍,1996).本研究所采用的决策树演算法是由
Quinlan 於1993 年所提出的C4.5 学习法(Quinlan,1993),它的基本理论是改良
自他於1986 年所提出的ID3 学习系统.近年来新发展的归纳学习方法,大多改
良自C4.5 学习方式或与其比较学习效能,它几乎已变成目前归纳学习法中的标
准学习法.C4.5 的学习方法是利用消息理论(Information Theory),而以归纳学习
的方法建构决策树的一种过程.其中包括下列三种步骤:1. 由训练资料建构决
策树,2. 决策树的修剪(Prune),3. 从决策树中产生学习规则.以下将对此三种
步骤作一详细说明.
(1) 建构决策树
C4.5 学习方法的首先就是从训练资料中建构决策树,其基本概念可以追溯
至1950 年代末期的Hoveland 及Hunt 二位学者属提出的理论.简单说明如下:
假设一组训练资料所组成的集合S 中有K种类别(Class),及
},...,,{321kCCCCS=,在建构决策树时有三种情形可能发生:
I. 当S 中的所有训练资料都属於同一种类别Cj时,所建构的决策树只包
括一片树叶,此片树叶Cj的所有资料.
II. 当S 中没有任何训练资料时,所建构的决策树依然只包含一片树叶,此
片树叶代表的类别则由集合T 以外的训练资料决定.
15
III. 当S 中包含多种类别的训练资料时,则将集合T 根据某种属性分割成
多种子集合nSSSS,...,,321,每个子集合尽可能包含一种类别的的资料.S
所建构的决策树包含一个判断节点及n 个分枝,每一个子集合的训练资
料分别对应T 的一个分枝.
一般我们在给定训练资料时,会有多种决策树可以正确的将资料分类,因此
如何找出一最小而能正确的分类的决策树便在於分类属性的考量.而本研究所采
用的C4.5 是由其前身ID3 学习法改进而来.在ID3 中分类属性的选择标准称
为gain,其基本作法是根据消息理论为基础,它是以测量资讯量多寡来计算各个
类别的资讯量,并进而计算出该训练集合的平均资讯量,也就是所谓的乱度
(Entropy)来表达该集合中资料的复杂度.
假设训练资料形成得集合S 中有n 种类别niCi...3,2,1,=,每个类别的
资料个数以),(SCfreqi=表示,||S代表S 中所有资料的个数,因此各个类别其
资料出现机率可表示为||
),(
S
SCifreq
,因此根据消息理论,各个类别的资讯为
)
||
),(
(log2
S
SCifreq
-
,训练集合中包含各个类别的训练资料,由各类别的资讯量可
以计算出训练集合的平均资讯量(即乱度),为所有各个类别的资讯量乘上各个类
别的资讯量乘上各个类别资料的出线机率总和为:
=
-=
n
i
ii
S
SCfreq
S
SCfreq
S
1
2)
||
),(
(log
||
),(
)info(
根据)info(S的计算方式,当集合S 根据某个属性A 分割成多个子集合
mSSSS,...,,321时,其分割后所占的资讯量等於各个子集合的资讯量乘上各个子集
合所占的比例的总和:
=
×-=
n
i
i
i
AS
S
S
S
1
)info(
||
||
)(info
.
16
因此集合S 经由属性A 分割后所获得的资讯量则为分割前的资讯量减去分
割后的资讯量,表示为:)(inf)(inf)(SoSoAgainA-=
而ID3 学习系统选择分类属性的方法即计算所有属性的gain值,并选择其
中gain 值最大的做为分类属性.决策树以此属性的属性质分割成多个训练子集
合,形成多个数.各个子树重复上述步骤藂尚未被选为分类的属性中在找出gain
值最大的作为分类属性,在分割成多个子树直到不能再分为止.
ID3 选择分类属性的方法对於一般学习问题已经有不错的结果,但是当分类
条件较偏向分出的子集合较多的属性,其中最特殊的便是当集合S 分割后的子
集合都只有一个资料时,其分割后的资讯量为零,因此所或的的资讯量最大.然
而此种分割并没有太大的意义.为了弥补这种缺点,Quinlan 在C4.5 中提出将
gain 正规划的方法以缓和分成过多子集合的效应.正规划的方法是利用将原有
的gain 值除以split info(A)的值,即
)(inf/)()(AosplitAgainAgainratio=,
其中split info(A)
=
×=
n
i
ii
S
S
S
S
1
2)
||
||
(log
||
||
可代表集合透过属性A 分割的子集合
个数指标,分割后的子集合个数越多split info 的值就会越大,相对的gain ratio
的值就偏小.因此利用split info 使得C4.5 学习系统改善了ID 分类偏向多子集
合的缺点.
(2) 修剪决策树
在建构决策树的程序中,有二个停止的条件:一个是分割后的每个子集合中
的资料都属於同一种类别.第二个则是子集合中已经没有任何资料可以改进.因
此当资料不完整,过於稀疏或是含有杂讯时,利用此种方式所建构的决策树通常
过於配合资料(Over-fits the Data),以致於所产生的决策树太过於复杂,因此在利
用C4.5建构决策树后还需要做适当的修剪.
17
C4.5 修剪过程的标准是根据预估错误率(Predicted Error Rate)的值作为判断
条件.它的方法是从树的底部(树叶)往上测试每一个节点所形成的子树,若是将
子数以一个树叶代替后所得到的错误预估率较低,则将子树修剪成为树叶,否则
将保留原来的子数.所谓错误预估率是指由现有训练资料的错误比率来评估其他
非训练资料的错误比率.更明确的说,假设被分类於某一子树的所有训练资料个
数为N,其中有E 个训练资料分类错误,而错误预估率就是由NE/来评估当有
新的资料被测试时利用此一条件判断结果为不正确的机率值.计算错误预估率的
方法有数种,C4.5 学习系统的预估错误率是采用E)(N,二项式分配(Binominal
Distribution)的机率值,其作法是给定一个可信度(Confidence Level,CF),简单
的以其二项式分配机率的上限值来作为预估错误率的值,写为N)(E,UCF.其中N
是所有训练资料中属於此子树的个数,而E 则是N 中分配错误的资料个数.因
此预测错误的资料个数则为N)(E,UCF×N.
(3) 由决策树中产生规则
在建立决策树的分类模型后,我们的直觉是要达到正确的预测,但是除此之
外我们还会希望进一步建立类似人类智慧的分类模型.换句话说,分类模型除了
要具有高正确率之外最好也能够拥有简单易懂的规则.C4.5 学习方法在建立了
决策树之后又将决策树转换成更简单的规则以降低判断资料类别的复杂度.
由决策树产生规则最简单的方式便是将决策树中的每一个树叶根据其路径
建立一条规则,然而此种方法所产生规则的复杂程度与原来的决策树一样,并没
有做任何的改进.而C4.5 利用产生规则的过程中做了一次简化的步骤,以仔细
评估每一个条件在规则中的必要性,让建立规则所使用的条件最精简,但又不会
造成错误率过高.
C4.5 评估规则的方法所使用的评估标准与修剪决策树的标准一样是根据错
18
误预估率的原则,它的基本作法如下:
假设有一条规则为
R:If Condition =AThen Class=C
而另一个比R更一般化的规则-R为:
-R:If Condition=-A Then Class-C
条件集合-A为条件集合A去除某一条件X 的结果,写为XAA-=-.而满
足或不满足条件X 在类别C与不在类别C的资料个数可以表2-2表示:
表2- 2 条件X属於分类C的对应表
类别C 其他类别
满足条件X 1Y 1E
不满足条件X 2Y 2E
因此根据规则R,会有11EY+ 个资料被设定为类别C,但其中有1E 个资料
属於其他类别是属於分类错误,因此规则R的错误预估率为),(U111CFEYE+.同
理,根据规则-R,由於少了条件X 的判断,因此会有2121EEYY+++个资料被
设定为类别C,但其中有21EE+个资料属於其他类别是错误的分类,因此规则-R
的错误预估率为),(U212121CFEEYYEE++++.如果的-R错误预估率比R的错误
预估率低,则表示条件X 不会影响预测错误率因此可以被删除.利用这个观念,
C4.5 的学习系统为求计算方便,改於在每个规则中删除最没有贡献的条件.
19
2.4.2 有关决策树分析理论与本研究的相关性
决策树(Decision Tree)是一个可以建构树状结构方法,用来帮助我们将资料
分类.其演算的方法很简单好用,说明如后.首先,将每一笔资料都当成是同一
群.接著再从这群里,从所有属性中用乱度的概念,也就是计算资讯量
(Information Gain)的方式,挑出一个属性可以将资料种类分别的最好的,然后就
把这群资料依照这群中有的种类切开,各自变成一群,然后每一群都变成当初挑
出来那个属性的叶子(leaf).将这个步骤重复的用在每一群里,除非发生以下几
种情形,否则就停止再往下衍生.
1. 该群中的每一笔资料都归类在同一种类的.
2. 该群中的资料,已经没有办法再找到属性来切割了.
3. 该群中已经没有资料了.
依照这个方法,然后就可以渐渐地建出一个树,这就是决策树(Decision
Tree).在里面我们可以找到许多规则(Rule),部分特殊资料中的现象,也因此可
以容易的观察出来,不会因为考量整体的资料,而把部分现象过滤掉了.这对我
们算是很有用的分析结果,经过善加利用,可以发挥在预测或是其他的方面.而
我们使用的是J. Ross Quinlan 所发展的软体C5.0( http://www.rulequest.com/).它
能找出决策树中的规则(Rules),帮助我们在分类方面的工具.
因为在本研究所要分析变项中有关学习行为的所有属性值为连续型的资料
属性,而且有关学习行为的属性个数非常多,因此本研究即是以决策树演算法以
用来找寻影响学生在进行网路学习时影响学习成效的变项有哪些.
20
第3章 研究架构与方法
藉由文献探讨,我们可以了解在网路上进行教学,不但学生的上课方式比传
统教学较具弹性,更可以利用网站主机自动且完整的记录学生在网站上的学习活
动.当学生在网站上进行学习活动时,所有的学习动作都会被完整的记录在网路
教学平台的网页日志里.虽然网页日志已将使用者的学习动作依照时间先后顺序
一笔一笔完整记录,然而,网页日志里的学习记录若未经分析及整理,仍然只是
一些大量而且没有意义的资料,无法转为有用的资讯,因此本研究将从网页日志
里萃取出与学习记录有关的部份资料,再利用资料探勘技术对这些资料进行分类
与分析,以提供教师关於学生学习行为与学习成效间的关系与相关程度,并让教
师能从学生过去的学习行为中,进一步即时的预测目前及未来学生可能的各种学
习情形,并适时的给予学习辅助或调整教学策略.
3.1 研究架构
本研究分析资料的方式,是从已经前置处理过的学习历程档案资料库中,以
学生的基本资料,以及学生在网站上的学习记录之各个属性做为本研究的分析变
项,这些属性值包括名目尺度(性别,学历等等)与等距尺度(上课次数,线上讨论
次数等等).首先,透过资料探勘中分类分析的方式找出这些分析变项对於不同
的课程,不同学习成效的学生所产生的各种意义,以及各个分析变项之间可能的
关系.接著,利用决策树软体进一步从学习历程记录中找出学生的各种学习行为
属性与学习成效之间的决策规则,并透过与过去历史资料及现有资料来验证这些
决策规则是否可适用不同的学期.最后,由教师验证这些决策规则是否的确能反
应教师对於该门课的授课方式,以评估这些决策规则是否有用,以做为教师在进
行网路教学时教学策略与课程设计的辅助资讯.
21
图3-1说明了教师如何在网路教学系统上利用学习历程档案来分析与观察学
习行为.学生在教学网站上进行学习的动作,包括登入网站,浏览教材,参与线
上讨论,点选并阅读文章,张贴及回覆文章等等,均被系统记录於网站的日志档.
由於日志档的记录过於零散,因此,对於教师或是学生来说不具备实质的意义与
帮助,必须再结合学生的基本资料档及课程资讯与学生关系的课程资料库的资
料,经过前置的处理以及资料汇整处理后,才能进一步建立描述每门课程中每个
学生学习行为的学习历程资料库,以做为往后快速查询各门课程中学生即时学习
情形的参考依据.
图3- 1 研究架构图
22
为了能够系统化的描述这些学习行为,此一分析机制提供了可用单一观察维
度,多个观察维度,或是结合不同的观察维度等方式以将学生的学习类型进行分
析,观察维度可以是时间维度(持续时间,间隔时间等等),频率维度(上课次数,
讨论次数,张贴文章篇数,文章被点选次数等等),或是同时以观察多个维度,
并且建立各个对应的学习类型资料库.
为了找出这些不同学习类型的学生与其学习成效之间的关系,本研究利用资
料探勘中的分类分析法,以及决策树与决策规则的方式来呈现上述的关系,以求
分析的结果能够具有系统性与易读性.同时,这些决策规则亦会存入学习模式
库.让教师可以从学习模式库中得知过去相同课程的学生学习行为与学习成效之
间的关联为何 哪些学习行为会影响学习成效 甚至是哪些学习行为会直接影
响到学生最终的学习成效不佳 教师以这些决策资讯来评估过去的教学活动,并
且评估这些决策资讯的正确性,而这些决策规则经过验证之后直接内建至教学系
统,系统除了即时的观察目前修习该门课程的学生的学习情形,也可以依据这些
决策规则系统自动侦测并适时的提供讯息给教师及学生.
3.2 研究对象
本研究利用中山大学资管系网路硕士学分班第五期,第六期,以及第七期资
料共十八门课程做为本研究的资料来源(列於表3-1),并以学期与课程为单位做
为分析对象.
表3- 1 资管系网路硕士学分各学期开授课程
学期 时间 课程
管理资讯系统
顾客关系管理
第五期 2001/09~2002/01
系统分析与设计
23
科技创业模式与科技行销
计算机网路与网际网路
企业资源规划
企业流程再造
资料库系统专题
电子商务
知识管理与资料探勘
网路安全
第六期 2002/02~2002/06
e-Learning理论与实务
管理资讯系统
计算机网路与网际网路
系统分析与设计
企业资源规划
顾客关系管理
第七期 2002/09~2003/01
e-Learning理论与实务
3.3 分析变数
本研究所分析的变数共有十二个属性,可分为两个部份,一个是学生的社会
人口变项,另一个是学生在网站上的学习行为变项.并分别说明如下:
3.3.1 社会人口变项
本研究所探讨的社会人口变项包括了学生的性别,年龄,学历以及居住地区
等,兹分述如下:
(1) 性别:分为男,女两种属性值.
(2) 年龄:此一属性值为连续型资料.
24
(3) 学历:分为专科技术学院,大学,研究所三种属性值.
(4) 居住地区:分为北部,中部,南部,东部以及外岛地区五种属性值.
3.3.2 学习行为变项
本研究所探讨的学习行为主要分为三个部分,分述如下:
(1) 课程学习行为:学生在课程中的学习行为,包括了『上课次数』,『参与
线上讨论次数』及『未缴作业次数』三个属性.此为数值型资料.
(2) 学生发表文章的篇数:学生如果在进行网路上课时,如果对於上课教材
内容有疑惑的地方,或是在课程的讨论区中(课程内容的讨论,课程议
题的讨论)张贴文章与教师,其他同学的互动,都可以藉由网站中学生
发表文章的学习行为观察得知,在本研究中是以文章发表篇数做为衡量
此一学习行为的变项.可分为两个属性,分别是『提问文章的篇数』以
及『回覆别人文章的篇数』.属性值皆为数值型资料.
(3) 学生发表文章后被点选的频率:被点选次数越高的文章对於课程内容或
是该讨论主题应具有较高的参考价值,为了衡量此一学习行为变项,本
研究将发表文章被点选频率分为两个部份:提问文章被点选次数以及回
覆文章被点选次数,而本研究为了提升分析此部份变项的严谨性,除了
以该生所有张贴过文章被点选的总次数为分析的属性外,同时,也将单
一学生张贴文章的类型分为提问文章或是回覆文章两个属性.因此该部
份可分为三个属性,分别是『发表文章被点选总次数』,『提问文章被点
选次数』,以及『回覆文章被点选次数』.属性值皆为数值型资料.
3.4 研究步骤
图3-2说明了本研究的研究流程.本研究首先先取得中山网路大学学生基本
25 资料,成绩资料与课程属性资料,并取得中山网路大学的网站记录档,这些不同
来源的资料经由资料的汇整以及前置的处理后,分别取出与本研究相关的资管系
网路硕士学分班第五期至第七期的网站记录档,再转换成课程为单位的学生学习
资料,并建置相关的资料库.接著,利用决策树分析方法产生各门课程的决策规
则与决策树结果,并利用其中第六期与第七期的elearning理论与实务课程,用
不同时间单位,不同成绩等级及决策规则的预测正确率,来验证本研究所找出的
决策规则是否具有预测效果.研究流程的各个步骤分别详述如下.
图3- 2 研究流程图
26
3.4.1 资料收集,汇整,分析变项的选择与前置处理
本阶段主要的目的为建立以课程及学生等不同观察维度的学习历程资料
库,以便在资料分析阶段可以快速的探查到各门课程中学生的即时学习情形,而
且也可以用不同的维度来分析学生学习行为与学习类型,并进而使用决策树分析
来分析学习行为与学习成效的关系.在处理程序中,首先需确认资料来源及欲分
析的学习行为变项,以确保可以正确取得资料处理时所需的所有资料.本研究的
资料来源结合了三个部份:分别是从资管系取得学生的基本资料及成绩档,从网
站记录中取得所有的学习动作记录档,以及与课程相关资讯的资料档,说明如下:
(1) 学生基本资料档与成绩:记录修习各门课程的学生基本人口统计资料
(包括了姓名,性别,生日,目前职业,毕业学校与科系,地址,联络
电话,修习课程)与最终的学期成绩.
(2) 网站记录档:由Apache主机所自动储存的网站日志档,此一网站日志
档主要记录档案,点选者,点选时间三种资料,而该系统已自动的萃取
出较具可读性的资料档,此资料档记录了学生在网大中所有的学习动作
(包括登入网站,点选教材及点选的时间,浏览教材的时间,参与线上
讨论,点阅文章的时间,张贴及回覆文章等等),而本研究主要就是针
对此记录档做相关的资料处理.
(3) 课程资料库:主要分为两部份,第一部份记录各门课程本身的资讯,包
括有那些课程大纲,课程安排,课程属性,课程开放的议题讨论主题,
议题讨论记录,作业主题及作业缴交记录等资讯,另一部份则记录该课
程与学生之间的对应关系及其他相关的资讯.
在取得这部份的资料之后,由於本研究欲分析的部份变数无法从资料来源中
直接取得,而且上述三个资料来源的资料格式并不一致,因此必须进一步汇整这
些异质资料库.而本研究是以MySQL做为资料库,并用{课程名称,学期,学
生名称,学习动作,学习时间}的资料库纲要来建置学习历程资料库中学生的学
27
习行为记录,同时辅以课程资料库中的课程资讯(课程名称,课程属性,课程与
议题讨论关系,课程与作业关系),使得学习行为记录可以以不同课程,不同学
生为最基本的观察点.而将学习行为记录课程化将可提升往后以课程为分析单位
处理时的方便性.
有关资料前置处理的部份,由於欲分析的部份学习行为属性属於文字性叙述
(Text Type),例如学生的居住地址与联络电话,毕业学校与科系,这些资料对於
分析者并没有意义,且决策树分析阶段所需的资料属性也以类别资料为主,因此
本研究透过程式的处理将这些资料转成有意义的类别,包括将学历分为专科及技
术学院,大学,研究所等三类,以及将居住地区分为北,中,南,东,外岛及其
他地区等五类.
而在学习行为变项中本研究欲分析的属性包括上课次数,线上讨论次数,提
问文章篇数,回覆文章篇数,发表文章被点选的总次数,提问文章被点选次数,
以及回覆文章被点选次数等七个属性,这些都必须从已经建好的学习行为记录中
依照时间点个别的取得,其中主要处理的部分为学习行为记录,此记录的格式为
{讨论的文章主题,张贴者,张贴时间},这部份必须先用程式以讨论标题为处理
对象,将讨论文章分成主动提问问题的文章与回覆别人问题的文章,并以学生为
单位分别计算出学生的文章张贴数(提问文章与回覆文章);在网站中也记录了该
文章被点选的次数,对於分析者而言,当该篇文章被点选次数大於某个值表示该
篇文章对於文章主题具有相当程度的意义才会被点选,因此这个属性也会当做本
研究的分析变项之一,并也依照上述的文章分类分别的计算出(张贴文章被点选
总次数,提问问题文章被点选次数,回覆文章被点选次数).
3.4.2 分类的处理与多重时间周期的处理
经过前一阶段将不同的资料来源经由资料汇整以及依照分析角度处理部份
的栏位之后,即完成以各课程的学生学习历程资料库之建置.然而由於本研究的
28
分析变项中大部份的属性值都是数值性资料(例如:上课次数,线上讨论次数等
等),尚未进行分类,若采用原始分类分析方法进行分析并无法直接处理这些连
续型属性的变项.此外,相同学生的学习成绩也并未分类,由於上述有关属性值
的限制,在进行分类分析时会有如何决定分类类别的困难,而藉由文献探讨中可
以得知在处理有关连续型属性的资料的方法,已经可以用CART演算法等改进演
算法或是现有的部份分析软体,可以直接解决这类问题,因此本研究采用目前现
有的决策树分析软体 - See5/C5.0这个决策树分析软体来直接处理连续型数值资
料.然而学生的学习成绩等级分类并没有相关的研究或是演算法来改善这个问
题,因此本研究拟采用不同的成绩分类方式,以找出最适合的等级分类方式.本
研究主要将成绩的分类方式分成两种方式:
(1) 固定区间:本研究采用10分,20分,25分,33分做为成绩类别切割点.
(2) 标准差,亦即用均值±固定的标准差做为成绩类别切割点:本研究采用
0.5个标准差,1个标准差,0.5与1个标准差三种方式.
此外,本研究根据过去多数研究采用的时间变项来做为学习类型分析的观察
维度.主要是以不同时间点下各个学习行为属性值的累积量,亦即从开学日起至
该各个时间点计算各项频率的累计值,并藉由观察不同时间点学习行为变项之累
计量的变化与学习成效的关系,以提供未来进行决策树分析时,藉著观察各属性
与决策规则的关系,是否也会随著不同的时间点而有不同的属性影响,换言之,
各个时间点下决策规则中的属性是否皆相同;以及,是否能在学期结束前就提早
预测出哪些学生可能落入低分群,发生学习成效不佳的问题,并给予补救教学或
相关的教学策略.学习成效是以学生最终该门课的学期成绩做为衡量的标准.
基於上述目的,本研究对时间维度的资料所进行的处理方式是将时间单位以
不同的方式进行切割处理,从开学日为时间起点,分别以七天为一个单位(单
周),十四天为一个单位(双周),二十八天为一个单位(单月)等方式,将这些学习
行为变项(上课次数,线上讨论次数,提问文章篇数,回覆文章篇数,发表文章
被点选总次数,提问文章被点选次数,回覆文章被点选次数)的属性值,用累计
29
的方式来计算这些属性值,藉由观察这些属性在时间累积下的变化量与决策规则
之间的关系,以尽可能以较早的时间点就能描述该门课学生的学习行为,并针对
当时学生的学习行为做出可能学习成效的预测.
3.4.3 决策树分类的产生,分析与整理
经过上述的资料前置处理,以及连续性与时间性的处理之后,采用现有的决
策树软体对第五期,第六期与第七期各门课程进行分类分析,并产生出决策树与
决策规则..
虽然本研究的分析变项中大部份的属性值均未事先分类,可能发生如何有效
分类的困难,但此问题已经有相当多的研究(邱美珍,1996)提出解决之道(例如:
CART演算法),因此本研究采用目前现有的决策树分析软体 - See5(C5.0),藉由
此软体能直接处理连续型资料的功能来解决本研究大部份属性值未分类的问
题.而另一方面,由於学生的学习成绩亦并非事先分类,且亦没有相关的研究或
是演算法可以改善学生学习成绩等级分类的问题,因此本研究拟采用不同的成绩
分类方式,以找出最适合的等级分类方式.
由於本研究所欲分析的变项之属性值不是数值性就是名目性的资料,因此采
用See5/C5.0 (http://www.rulequest.com/).See5/C5.0可用来处理数值性(numeric)
或是名目性(nominal)栏位的资料,而且为了清楚的表示分析结果,可用决策树
(decision trees)或是若-则(if-then rules)的关系呈现,因此也比类神经网路(neural
networks)容易理解,并在网路上有原始码提供下载.从文献得知C4.5是改进原
始的决策树分析演算法(ID3),而C5.0与C4.5不同之处在於C5.0可以处理几种
资料型态(data types),包括了日期(date),时间(times),时间戳记(timestamps),序
列性的离散型资料(ordered discrete attributes)等等.除了处理部份缺值(missing
value)的问题,C5.0还可以将部份属性标记为不适合,以使得做分析时仍能保有
资料的完整性.
30
本研究将不同学期的不同课程,利用上述的决策树分析软体产生出决策规则
以及决策树,产生出的决策规则描述修习该门课程的学生整体的学习行为与学习
成效之间的关联与若-则(if-then)的关系,对於教师而言将可以知道整体学生对於
该门课具有哪些学习模式,进一步可以反推高分群或低分群的学生可能具有哪些
学习模式,而这一辅助的决策资讯可做为教师未来进行教学时如何施行教学策略
及辅助教学的参考.
3.4.4 决策规则的验证
经过决策树分析产生出的决策规则是针对各门课程,而且由於分析的资料大
多是整个学期的历史性资料,对於教师而言,这些决策规则对现在正教授中的课
程并没有直接性帮助,而且这些决策规则是基於整个学期的资料,这些决策规则
是否能套用在不同学期之相同的课程中,以验证这些决策规则对於课程之预测的
准确率确实有其必要性.但是由於已取得资料来源并不完整,因此本研究将针对
其中单一课程(elearning理论与实务)不同期的资料(第六期及第七期)做为本研究
的验证对象;先用第六期资料做为训练资料找出决策规则,再用第七期资料做为
测试对象以验证找到的决策规则是否有效以及有效程度为何,并用相同的决策树
软体进行验证.
训练资料(Training Data)指的是在产生决策规则的过程中,用来训练这些决
策规则的资料,而训练错误率(Training Error Rates)指的是在决策规则产生之后,
将这些训练资料放进决策规则而发生错误的比率(亦即符合相同的决策规则,但
是实际资料的分类却与决策规则的分类不同);测试资料(Testing data)指的是已经
产生了决策规则之后,其他用来测试这些决策规则的资料(不属於原本的训练资
料),相同的测试错误率(Test Error Rates)指的是测试资料放进决策规则而发生错
误的比率.这两种错误率将会在决策规则验证时做为各种不同分析的比较指标.
31
3.5 研究方法与工具
本研究采用的分析方式是资料挖掘中的分类分析法,并且使用决策树分析方
式来呈现这些规则,而采用的工具是See5.0/C5.0.
本研究提出了一个如何利用现有各种有关学习历程的原始记录,进行资料的
前置处理与汇整的动作,并建置了学习历程档案资料库,此资料库可以提供各种
维度来观察学生的学习情形.论文中采用时间维度来观察学生学习情形,并试图
找出不同时间点下学生的学习行为,最后并以分类分析技术来找出学习行为与学
习成效的关系.此一分析机制并可以将这些已经找到的决策资讯用来预测目前学
生的学习情形与学习成效,教师可以用此分析机制用以诊断目前可能发生学习困
难的学生,并在适当时机给予合适的辅助教学.
32
第4章 资料分析结果与讨论
本研究分析资料的流程,是从已建置好的学习历程档案资料库中,以学生的
基本资料,以及学生在网站上的学习记录之各个属性做为本研究的分析变项.藉
由观察各个分析变项所包含的属性值,以资料探勘中分类分析的方式找出这些分
析变项对於不同的课程,不同学习成效的学生所产生的各种意义,以及各个分析
变项之间可能的关系.本研究的分析变项里共有十二个属性,包括了性别,年龄,
居住地区,学历,上课次数,参与线上讨论的次数,未缴作业次数,提问文章篇
数,回覆文章篇数,发表文章被点选总次数,提问文章被点选次数,回覆文章被
点选次数.针对上述十二个属性以及相对应的成绩等级做为决策树分析软体的输
入,利用决策树软体找出学生的各种学习行为属性与学习成效之间的决策规则,
再透过与同一课程不同学期的资料做验证之后,即可做为教师在进行网路教学时
教学策略与课程设计的辅助资讯.
根据上述的研究方法,首先针对第五期及第六期不同课程的学习历程档案,
利用C5.0决策树分析软体找出不同课程的决策规则,并说明与课程属性之间的
关系.为了验证本研究所找出的决策规则,接著将针对其中单一课程 (eLearning
理论与实务专题),以第六期的资料做为训练决策规则的资料,并以不同的时间
单位下找出各时间点与决策规则的关系,再以第七期的同一门课程资料做为验证
决策规则的测试资料,亦即以第六期找出的决策规则预测第七期学生的学习行为
与学习成效.除此之外,也用不同成绩等级的分类方式来观察预测的错误率(test
error rate),以验证找到的决策规则是否有效.为了更进一步验证是否能预测不同
学习成效的学生群,也针对高分群学生及低分群的学生,以不同时间单位下各个
时间累积点来看与预测效果之关系;最后并用不同成绩等级的分类方式观察预测
的效果.
以下将观察第五期及第六期不同课程的决策规则与课程属性之间的关系,并
列举几门课程做为说明.
33
4.1 不同课程下课程属性与决策规则之关系
4.1.1 第五期各个课程
l 以下为第五期计算机网路与网际网路专题的决策规则.
此决策规则用87笔资料做为训练资料,12个属性,而依照统计的方式以均
值±半个标准差,将最终将学生的成绩分为高分(A),中等(B),低分(C)三个等级,
而参数设定采用35%的树支修剪门槛值,以及最少需3个资料符合规则做为测试
条件,结果以规则条列的方式(Ruleset)的方式呈现,如图4-1.
图4- 1 第五期计算机网路与网际网路专题的决策规则
34
图4-1共分为两大部份,其中,上半部为最后产生的规则,下半部为对产生
的决策规则的评估结果.由上半部的结果中,可看出总共产生了6条规则,预设
的分类为B.而下半部中,可以看出87笔训练资料中有18笔资料并不符合这些
规则,亦即训练错误率为20.7 % (18/87).此外,亦可看出这些训练资料的分布,
其中Y轴的Class A,Class B,Class C为实际资料的成绩等级,而X轴则是依
决策规则而被分类的成绩等级,举例来说,第一列的意义代表的是实际资料为
Class A (高分群)的42笔资料中,依照产生的决策规则有39笔会被正确的分类为
Class A,而有3笔会被分类为Class B,因此其高分的错误率为3/42.
每一条若-则(if - then)关系的决策规则之后都会有其规则的正确率,以第一
条规则为例:若上课次数小於或等於546次,且未缴作业次数小於或等於0次,
且参与线上讨论次数大於6次,则归类为高分群(Class A),其正确率为0.857.
正确率越高表示此条规则具有较高的预测率.
在此针对训练资料,训练错误率,测试资料,测试错误率这几个相关名词做
一说明.训练资料指的是在产生决策规则的过程中,用来训练这些决策规则的资
料,而训练错误率指的是在决策规则产生之后,将这些训练资料放进决策规则而
发生错误的比率(亦即符合相同的决策规则,但是实际资料的分类却与决策规则
的分类不同);测试资料指的是已经产生了决策规则之后,其他用来测试这些决
策规则的资料(不属於原本的训练资料),相同的测试错误率指的是测试资料放进
决策规则而发生错误的比率.
从找到的决策中可以知道,此课程中学生学习行为中与学习成效直接相关的
属性包括了上课次数,参与线上讨论次数,未缴作业次数,回覆文章被点选次数,
提问文章被点选次数,居住地区等6个属性.其中若上课次数小於或等於546
次,且未缴作业次数小於或等於0次,且参与线上讨论次数大於6次,归类为高
分群的正确率为0.857;未缴作业次数小於或等於1次,回覆文章被点选次数大
於177次,归类为高分群的正确率为0.742,上述可以归纳出在此门课程中成绩
较高的大部份学生在课程学习行为方面上,不但作业几乎都缴交,经常到网大上
35 课,参与线上讨论,而且在课程互动上对於别人提问问题都会主动的回答,而且
回答的文章也被别人点阅.相对的以低分群的学习行为来看(第五条及第六条规
则),在课程学习行为方面,未缴作业大於1次,或是在课程互动行为,不常参
与线上讨论(小於或等於6次),都可能是教师在观察学生学习时是否发生学习困
难而导致可能学习成效较低的一个警讯.
l 以下为第五期管理资讯系统专题的决策规则.
此决策规则用72笔资料做为训练资料,其他设定皆与第五期计算机网路与
网际网路专题相同,结果以Decision Tree的方式呈现,如图4-2.
图4- 2 第五期管理资讯系统专题的决策规则
36
与之前用rule-set的呈现方式不同之处在於上半段找出的规则改用树状的方
式呈现出属性之间的阶层关系,而这样更可以知道何种学习行为的属性会直接的
影响学习成效.以此门课程(第五期管理资讯系统专题)为例,若未缴作业次数大
於或等於3次,则一定属於低分群(其中19笔资料符合,2笔资料不符合);与使
用rule-set呈现结果的方式相同的地方都会列出评估决策规则的正确率.由结果
可知道与学习成效相关的学习行为属性包括未缴作业次数,居住地区,提问文章
篇数,年龄,上课次数等五个属性.由於其他的属性并无法明确区分区高分群的
学习行为,因此就只看低分群的规则,可见此门课对於是否缴交作业相当的重
视.因此该门课教师或是助教可以藉由观察学生作业是否未缴交的情形来主动提
醒学生以免落入学习成效低分群.
4.1.2 第六期各个课程
l 以下为第六期电子商务专题的决策规则,以图4-3表示.
37
图4- 3 第六期电子商务专题的决策规则
此决策规则用87笔资料做为训练资料,其他的设定皆相同.由结果可知道
相关的属性包括未缴作业次数,提问文章篇数,学历,以及参与线上讨论次数等
四个属性.对於此门课的学生而言,必须经常参与线上讨论,也就是每周的Office
hour(大於30次),也就是积极的参与课程的互动(规则1),或是在课程学习行为
里的作业缴交情形良好(规则2与规则3),将会获得较高的学期成绩;相对的学
习成效较低的学生通常都是没有缴交作业或是缺交次数太多,而且又不主动问
题,这类型的学生也可以让教师或是助教藉由观察未缴作业次数过多或是提问文
章篇数过少这两个指标来提早知道哪些学生可能需要给予辅助.
38
4.1.3第七期各个课程
l 以下为第七期计算机网路与网际网路专题的决策规则,以图4-4表示.
图4- 4 第七期计算机网路与网际网路专题的决策规则
此决策规则用62笔资料做为训练资料,其他的设定皆相同.由结果可知道
相关的属性包括线上讨论次数,年龄,提问文章次数,回覆文章被点选次数,提
问文章被点选次数等五个属性.对於此门课的学生而言,必须经常参与线上讨
论,也就是每周的Office hour(大於23次),而且必须在课程互动上有所表现(提
问问题或是回覆别人的问题)则将会获得较高的学期成绩;相对的学习成效较低
的学生通常就是不主动参与线上讨论且提问问题,而这些指标正可让教师观察哪
些学生可能需要给予辅助的教学措施.
39
4.2 不同时间单位下各时间点与决策规则之关系
分析各门课程学生的学习行为与学习成效间的决策规则,可以帮助教师及助
教了解学生在该门课程表现的何种学习行为,可能会导致最终的学习成绩为高分
或是低分,并在下一次开设相同课程时可以观察这些相关的学习行为之属性值的
变化,来提早给予辅助.然而单纯以整个学期的资料来分析这些学习行为虽具有
解释性的意义,但是这些决策规则仅能描述过去该课程整学期学生的学习行为,
却无法描述不同时间点(例如,课程进行一周,两周,一个月之后)的学习行为,
因为藉由即时的观察这些学习行为,可以主动依据学生目前的学习状况来预测学
生的可能学习成效,并提早给予辅助教学的目的.因此接下来本节的目的将要观
察不同的时间单位下各个时间点与预测错误率的关系.
为了验证各个时间点下与决策规则之间的关系,本研究是以训练错误率与预
测错误率这两种错误率,用在验证决策规则时做为各种分析的比较指标.观察训
练错误率的目的在於训练错误率必须不能过高,在做预测时才会有意义;而预测
错误率指的就是以第六期训练出的决策规则用来将第七期做为测试(预测)的资
料之错误率,可用来验证决策规则是否适用於不同学期的同一课程.
由於资料的关系本研究拟将对象针对eLearning理论与实务这门课程,以第
六期的49笔资料做为训练资料来训练出决策规则,再以第七期的45笔资料做为
预测对象(测试资料).分析方式将会以七天,十四天和二十八天等不同的时间单
位将每个属性的频率值做累计,也用不同的成绩分类方式.并以决策树分析软体
C5.0(See5.0)来进行决策树分类分析.参数的设定是用35%的树支修剪门槛值,
以及测试时需最少符合3笔资料做为条件.
本研究首先观察七天,十四天和二十八天等不同的时间单位下,呈现出各个
时间点下训练错误率与预测错误率的变化与趋势.最后并针对不同的时间单位的
预测效果做一结论.
40
4.2.1 以七天为一个时间单位来看
l 训练错误率
表4-1为以七天为时间单位下各个时间点之训练错误率,以七天为时间单位
来看,各种成绩的分类方式的训练错误率皆能在30%以下,其中以均值±1个标
准差的错误率的平均表现较低(平均错误率为8.06%);而且每一个分类方式都能
随著时间的累积而慢慢的降低错误率,其中均值±固定标准差(0.5,0.5与1.0)
这两种成绩分类方式都能在第八周至第九周的时候训练错误率降至15%以下,表
示在此时间点的学习历程已经能完整的描绘出学生学习行为与学习成效的决策
规则.
表4- 1 以七天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 32.7 16.3 30.6 24.5 16.3 20.4 10.2
2 22.4 6.1 22.4 34.7 14.3 20.4 18.4
3 22.4 6.1 22.4 24.5 14.3 20.4 10.2
4 16.3 8.2 16.3 28.6 14.3 14.3 10.2
5 14.3 4.1 16.3 28.6 12.2 14.3 6.1
6 14.3 4.1 16.3 28.6 12.2 14.3 6.1
7 14.3 10.2 22.4 28.6 12.2 14.3 6.1
8 18.4 8.2 22.4 28.6 18.4 16.3 12.2
9 10.2 8.2 14.3 28.6 18.4 16.3 12.2
10 10.2 8.2 12.2 30.6 18.4 16.3 12.2
11 10.2 8.2 12.2 22.4 10.2 16.3 12.2
12 10.2 8.2 12.2 22.4 18.4 16.3 12.2
13 10.2 8.2 12.2 22.4 18.4 16.3 12.2
14 12.2 8.2 12.2 22.4 18.4 16.3 12.2
15 12.2 8.2 12.2 22.4 18.4 16.3 12.2
16 20.4 8.2 14.3 26.5 16.3 16.3 12.2
41
17 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 15.96 8.06 16.78 26.52 15.73 16.55 11.14
l 预测(测试)错误率
表4-2为以七天为时间单位下各个时间点之预测错误率,以七天为时间单位
来看,各种成绩的分类方式的预测练错误率皆能在50%以下,其中以均值±1个
标准差的错误率的平均表现较低(平均错误率为27.45%);而且均值±1个标准
差,能在第八周至第九周以及第十二周至第十三周时的错误率有明显的降低;而
均值±0.5与1个标准差,能在第七周至第八周以及第十二周至第十三周时的错
误率有明显的降低;20分的成绩区分方式,能在第十周至第十一周时的错误率
有明显的降低,以上的预测错误率都能降低至40%以下.上面的结果表示本研究
利用时间点的观念将这些学习行为变项做累计的动作,确实能够在一定的时间点
之前就能够提早预测到学生可能的学习成效.
表4- 2 以七天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
1 51.1 20 42.2 46.7 33.3 31.1 28.9
2 51.1 22.2 42.2 48.9 35.6 31.1 26.7
3 51.1 26.7 42.2 53.3 35.6 31.1 35.6
4 51.1 22.2 42.2 73.3 35.6 35.6 35.6
5 48.9 26.7 42.2 57.8 37.8 40 33.3
6 51.1 26.7 44.4 55.6 35.6 37.8 33.3
7 51.1 33.3 57.8 53.3 35.6 35.6 33.3
8 53.3 42.2 42.2 64.4 64.4 60 53.3
9 62.2 37.8 53.3 64.4 64.4 60 55.6
10 57.8 35.6 53.3 60 64.4 62.2 48.9
11 57.8 33.3 53.3 48.9 35.6 55.6 48.9
12 55.6 31.1 53.3 48.9 60 53.3 46.7
13 55.6 26.7 37.8 48.9 60 51.1 44.4
42
14 62.2 24.4 53.3 48.9 60 46.7 42.2
15 60 20 53.3 48.9 60 44.4 37.8
16 66.7 20 53.3 66.7 62.2 42.2 35.6
17 68.9 17.8 37.8 64.4 60 40 33.3
平均错误率 56.21 27.45 47.3 56.08 49.42 44.58 39.61
4.2.2 以十四天为一个时间单位来看
l 训练错误率
表4-3 为以十四天为时间单位下各个时间点之训练错误率,以十四天为时间
单位来看,各种成绩的分类方式的训练错误率皆能在35%以下,其中以均值±1
个标准差的错误率的平均表现较低(平均错误率为7.28%);而且每一个分类方式
都能随著时间的累积而慢慢的降低错误率,其中均值±固定标准差(0.5,0.5与
1.0)能够在第三个至第四个周期(第七周至第八周)的错误率降至15%以下,这也
与表4-1所呈现的结果具有相同的趋势.
表4- 3 以十四天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
1 22.4 6.1 22.4 34.7 14.3 20.4 18.4
2 22.4 6.1 22.4 34.7 14.3 20.4 10.2
3 14.3 4.1 16.3 28.6 12.2 14.3 6.1
4 18.4 8.2 22.4 28.6 18.4 16.3 12.2
5 10.2 8.2 12.2 28.6 18.4 16.3 12.2
6 10.2 8.2 12.2 22.4 18.4 16.3 12.2
7 12.2 8.2 12.2 22.4 18.4 16.3 12.2
8 20.4 8.2 12.2 26.5 16.3 16.3 12.2
9 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 16.77 7.28 16.29 28.11 16.33 16.99 11.99
43
l 预测(测试)错误率
表4-4为以十四天为时间单位下各个时间点之预测错误率,以十四天为时间
单位来看,各种成绩的分类方式的预测练错误率皆能在50%以下,其中以均值±1
个标准差的错误率的平均表现较低(平均错误率为27.41%);而且均值±1个标准
差,能在第七周至第八周的错误率降至35%以下.其中若与表4-2比较可以知道,
均值±0.5与1个标准差以及20分为区间这两种方式,在以十四天为时间单位下
的预测效果已经变得较不明显,这表示时间单位若变长,原本用较短时间单位时
错误率较易降低的效果将会变得不明显.
表4- 4 以十四天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(双周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 51.1 22.2 42.2 48.9 35.6 31.1 26.7
2 51.1 26.7 42.2 48.9 37.8 31.1 35.6
3 51.1 26.7 44.4 55.6 35.6 37.8 33.3
4 53.3 42.2 42.2 64.4 64.4 60 53.3
5 57.8 35.6 53.3 62.2 64.4 55.6 48.9
6 55.6 31.1 53.3 48.9 60 55.3 46.7
7 62.2 24.4 53.3 48.9 60 46.7 42.2
8 66.7 20 53.3 66.7 62.2 42.2 35.6
9 66.7 17.8 37.8 64.4 60 40 33.3
平均错误率 57.29 27.41 46.89 56.54 53.33 44.42 39.51
4.2.3 以二十八天为一个时间单位来看
l 训练错误率
表4-5为以二十八天为时间单位下各个时间点之训练错误率,以二十八天为
时间单位来看,各种成绩的分类方式的训练错误率皆能在30%以下,其中以均值
±1个标准差的错误率的平均表现较低(平均错误率为8.2%);而且每一个分类方
44
式的训练错误率都不错.
表4- 5 以二十八天为时间单位下各个时间点之训练错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 16.3 8.2 16.3 28.6 12.2 14.3 10.2
2 18.4 8.2 22.4 28.6 18.4 16.3 12.2
3 10.2 8.2 12.2 22.4 18.4 16.3 12.2
4 20.4 8.2 14.3 26.5 16.3 16.3 12.2
平均错误率 16.33 8.2 16.3 26.53 16.33 15.8 11.7
l 预测(测试)错误率
表4-6为以二十八天为时间单位下各个时间点之训练错误率,以二十八天为
时间单位来看,以均值±1个标准差,以及均值±0.5个与1个标准差的错误率的
平均表现较低(皆在40%以下) ,如同前述,随著时间的累积与错误率降低的关
系变得越来越不明显,表示以月为单位的时间预测的方式并不好.
表4- 6 以二十八天为时间单位下各个时间点之预测错误率
成绩分类
时间累积(周)
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与
1标准差
10分 20分 25分 33分
1 51.1 22.2 42.2 73.3 35.6 35.6 35.6
2 53.3 42.2 42.2 64.4 64.4 60 53.3
3 55.6 31.1 53.3 48.9 60 53.3 46.7
4 66.7 17.8 37.8 64.4 60 40 33.3
平均错误率 56.68 28.33 43.88 62.75 55 47.23 42.23
45
4.2.4 本节综合说明
图4-5为以时间单位之整体训练错误率,而图4-6为以时间单位之整体预测
错误率,藉由观察这两张图可以看出以时间单位下,不同的时间单位之决策规则
对於整体学生的学习行为与学习成效间的关系的描述能力与预测能力.由图4-5
与图4-6可以明显得知,以不同时间单位做预测的效果差异性不大,但个别来看
各个时间单位下都能在一定的时间点即达到预测的效果;另外也由观察中也可以
知道各个成绩分类的训练错误率与测试错误率在不同的时间单位之间都相当的
类似,因此可以得知不同的成绩分类方式对於预测的效果也具有一定的关系,所
以下一节将会以不同成绩等级的分类方式与决策规则的预测效果之关系做进一
步的探讨.
l 整体的训练错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
7天
28天
16.33
8.2
16.3
26.53
16.33
15.8
11.7
16.77
7.28
16.29
28.11
16.3316.99
11.99
15.96
8.06
16.78
26.52
15.7316.55
11.14
051015202530
错误率
成绩分类方式
时间单位
整体训练错误率_以时间来看(平均)7天14天28天
图4- 5 以时间单位之整体训练错误率
46
l 整体的预测(测试)错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以
10
分区分
以20
分区分
以25
分区分
以
33
分区分
7天
28天
56.68
28.33
43.88
62.75
55
47.23
42.23
57.29
27.41
46.89
56.54
53.33
44.42
39.51
56.21
27.45
47.3
56.08
49.42
44.58
39.61
010203040506070
错误率
成绩分类方式
时间单
位
整体预测错误率_时间(平均)7天14天28天
图4- 6 以时间单位之整体预测错误率
4.3 不同成绩等级分类方式与决策规则之关系
本节将继续的观察不同成绩等级分类方式与预测错误率的关系,并且以与
4.2节中相同的分析对象(e-Learning理论与实务第六期及第七期),分析工具与参
数设定(35%的树支修剪门槛值,以及测试时需最少符合3笔资料做为条件)来进
行决策树分类分析.也针对不同的时间单位的预测效果做一结论.此小节将针对
该门课程整体学生探讨以不同成绩等级分类方式与决策规则的预测效果之关系.
图4-7为不同成绩分类方式之整体训练错误率,图4-8为不同成绩分类方式
之整体预测错误率.整体来看,各种成绩等级分类方式的训练错误率都能在30%
以下,这表示各种的成绩分类方式对於决策规则的效果都很高;以预测错误率来
看,其中均值±1个标准差(30%以下),均值±0.5个与1.5个标准差(47%以下),
25分(47%以下),33分(42%以下)这四种分类方式较好,这表示无论用哪一类的
47
成绩分类方式其预测效果至少能在47%以下,亦即不论用何种成绩的分类方式要
预测整体学生的学习行为与学习成效间的关系是有相当的困难.
l 整体训练错误率
7天
14天
28天
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
15.9616.77
16.33
8.06
7.288.2
16.78
16.29
16.3
26.5228.11
26.53
15.7316.33
16.33
16.5516.99
15.8
11.1411.99
11.7
051015202530
错误率
时间单
位
成绩分类方式
整体训练错误率_以成绩来看(平均)
均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4- 7 不同成绩分类方式之整体训练错误率
l 整体预测(测试)错误率
48
7天14天28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准
差
以10分区分
以20分区分
以25分区分
以33分区分
56.21
57.29
56.68
27.45
27.41
28.33
47.3
46.89
43.88
39.61
39.51
42.23
44.58
44.42
47.23
49.42
53.33
55
56.08
56.54
62.75
010203040506070
错误率
时间单位
成绩分类方式
整体预测错误率_成绩(平均)均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4- 8 不同成绩分类方式之整体预测错误率
为了改进上述的问题,本研究将预测对象分为高分群及低分群两类,以测试
在缩小预测对象的范围后,是否能降低预测高分群或低分群的预测错误率.其中
若成绩分类将学生分为{高分群,中等,低分群}三个等级,若等级数目超过四个
以上则是将极端的前两个高分等级归为高分群;最后两个低分等级归为低分群.
4.4 不同时间单位下各时间点与高分及低分预测效果之关系
由4.3节可以了解在不同的时间单位下,各种时间单位以及不同成绩等级之
学习行为与学习成效的决策规则,并可针对修课的所有学生做预测,但是不论用
何种成绩的分类方式,要用这些决策规则来预测整体学生的学习行为与学习成效
间的效果并不是非常好.而从教育的观点来看,如何能够依照学生目前的学习情
形找到可能为学习表现不佳(低分群)的学生,甚至於是中缀生,以及是否找出高
49
分学生的行为模式,的侦测与相关的辅助资讯才较具有实质上的意义.因此以下
将研究对象依照之前陈述的七种成绩等级分类方式将学生学习成效分群,并分别
探讨高分群和低分群与找出的决策规则预测的效果之关系.其中若成绩等级分类
超过四种,将以最前两个高分群与最后两个低分群做合 ,计算出错误率.同样
的也将以不同时间单位和不同的成绩等级分类方式两个维度来探讨高分群与低
分群的预测效果.
此一小节将以不同时间单位下的各个时间点为观察及预测的分析点,首先针
对高分群的训练错误率与预测错误率进行分析;接著,针对低分群分别探讨其训
练错误率与预测错误率,最后针对此小节的分析结果做综合的结论.
4.4.1 高分的预测错误率
l 训练错误率
表4-7为针对高分群的学生,以不同时间单位的各个时间点之训练错误
率.从表4-7来看,整体而言,不论是以七天,十四天,或是二十八天为时间单
位来看,训练的错误率至少都能在18%以下,而且在第七周至第八周都有相当明
显的下降,但是如同之前4.2节中的结果,时间单位越长,原本用较短时间单位
时错误率较易降低的效果将会变得越不明显.
表4- 7 高分群,不同时间单位下各个时间点之训练错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 15.38 0 15.38 3.13 0 0 2.5
2 3.85 0 3.85 0 2.78 0 0
3 3.85 2.44 3.85 3.13 8.33 0 2.5
4 7.69 4.88 7.69 0 5.56 0 2.5
5 7.69 0 7.69 0 5.56 0 0
50
6 7.69 0 7.69 0 5.56 0 0
7 7.69 0 19.23 0 2.78 0 0
8 3.85 0 3.85 0 0 0 0
9 3.85 0 3.85 0 0 0 0
10 3.85 0 3.85 0 0 0 0
11 3.85 0 3.85 0 0 0 0
12 3.85 0 3.85 0 0 0 0
13 3.85 0 3.85 0 0 0 0
14 3.85 0 3.85 0 0 0 0
15 3.85 0 3.85 0 0 0 0
16 7.69 0 3.85 0 0 0 0
17 3.85 0 0 0 0 0 0
平均错误率 5.66 0.43 5.88 0.37 1.8 0 0.44
14天 1 3.85 0 3.85 0 2.78 0 0
2 3.85 2.44 3.85 0 8.33 0 2.5
3 7.69 0 7.69 0 5.56 0 0
4 3.85 0 3.85 0 0 0 0
5 3.85 0 3.85 0 0 0 0
6 3.85 0 3.85 0 0 0 0
7 3.85 0 3.85 0 0 0 0
8 7.69 0 3.85 0 0 0 0
9 7.69 0 0 0 0 0 0
平均错误率 5.13 0.27 3.85 0 1.85 0 0.28
28天 1 7.69 4.88 7.69 0 5.56 0 2.5
2 3.85 0 3.85 0 0 0 0
3 3.85 0 3.85 0 0 0 0
4 7.69 0 0 0 0 0 0
平均错误率 5.77 1.22 3.85 0 1.39 0 0.63
l 预测(测试)错误率
表4-8为针对高分群的学生,以不同时间单位的各个时间点之预测错误率.
从表4-8来看,针对高分群,不同时间单位下各个时间点之预测错误率,发现一
个很有趣的现象,就是以七天为时间单位来看,每种分类方式都是在一开始的错
误率最低,之后逐渐升高,其中均值±1个标准差的成绩分类方式能在第八周之
51
后有明显的降低,而25分与33分都能在第十周至第十二周之后有明显的降低.
其他的预测效果的表现并不明显.而以十四天为时间单位则与七天的效果相同.
至於以二十八天为时间单位的预测,除了以均值±0.5个标准差以外的效果都能
在50%以下.以上的结果可以说明以不同的时间单位下各个时间点来预测高分群
学生的学习行为较为不容易.
表4- 8 高分群,不同时间单位下各个时间点之预测错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 29.17 0 29.17 0 3.45 0 3.03
2 29.17 2.78 29.17 0 0 0 0
3 29.17 8.33 29.17 8.7 0 0 12.12
4 33.33 2.78 33.33 73.91 3.45 6.45 12.12
5 33.33 8.33 33.33 43.48 3.45 12.9 9.09
6 33.33 8.33 33.33 39.13 0 9.68 9.09
7 33.33 38.89 70.83 39.13 0 6.45 9.09
8 58.33 52.78 29.17 39.13 55.17 51.61 51.52
9 75 47.22 50 43.48 58.62 51.61 54.55
10 66.67 44.44 50 30.43 58.62 54.84 45.45
11 66.67 41.67 50 0 0 45.16 45.45
12 66.67 38.89 50 0 48.28 41.94 42.42
13 66.67 33.33 12.5 0 48.28 38.71 39.39
14 75 30.56 50 0 48.28 32.26 36.36
15 70.83 25 50 0 48.28 29.03 30.3
16 83.33 25 50 43.48 58.62 25.81 27.27
17 62.5 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 53.68 25.33 38.97 23.53 28.8 25.24 26.56
14天 1 29.17 2.78 29.17 0 0 0 0
2 29.17 8.33 29.17 0 13.79 0 12.12
3 33.33 8.33 33.33 39.13 0 9.68 9.09
4 58.33 52.78 29.17 39.13 55.17 51.61 51.52
5 66.67 44.44 50 34.78 58.62 45.16 45.45
6 66.67 38.89 50 0 48.28 41.94 42.42
52
7 75 30.56 50 0 48.28 32.26 36.36
8 83.33 25 50 43.48 58.62 25.81 27.27
9 79.17 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 57.87 25.93 37.04 21.74 37.55 25.45 27.61
28天 1 33.33 2.78 33.33 73.91 3.45 6.45 12.12
2 58.33 52.78 29.17 39.13 55.17 51.61 51.52
3 66.67 38.89 50 0 48.28 41.94 42.42
4 79.17 22.22 12.5 39.13 55.17 22.58 24.24
平均错误率 59.38 29.17 31.25 38.04 40.52 30.65 32.58
l 小结
图4-9与图4-10分别为不同时间单位之高分训练错误率与预测错误率之折
线图.由图4-9与图4-10可以得知,以不同时间单位做预测的效果差异性不大,
然而不同的成绩分类方式与针对高分群预测的效果之关系较强,而且除了以均值
±0.5个标准差这种成绩等级分类方式之外,其他的预测效果都不错(平均错误率
至少都小於40%以下),可见就平均的预测而言,本研究所分析出的结果的确能
有效预测出高分群.
均值减加
0.5
个标准差
均值减加
1...
均值减加
0.5...
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天14天28天
5.77
1.22
3.85
0
1.39
00.63
5.13
0.27
3.85
0
1.85
00.28
5.66
0.43
5.88
0.37
1.8
00.44
0123456
错误率
成绩分类方式
时间单位
高分训练错误率_时间(平均)7天14天28天
图4- 9 不同时间单位之高分训练错误率
53
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个...
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天
28天
59.38
29.1731.25
38.0440.52
30.6532.58
57.87
25.93
37.04
21.74
37.55
25.4527.61
53.68
25.33
38.97
23.53
28.8
25.2426.56
0102030405060
错误率
成绩分类方式
时间单
位
高分预测错误率_时间7天14天28天
图4- 10 不同时间单位之高分预测错误率
4.4.2 低分的预测错误率
l 训练错误率
由表4-9 针对低分群,不同时间单位下各个时间点之训练错误率.以七天为
时间单位来看,均值±0.5与1个标准差的分类方式则是能够在第八周至第九周
的时候,训练错误率能有明显的降低(10%以下);而10分的分类方式则是能够在
第十周至第十一周的时候,训练错误率能有明显的降低(0%).以十四天以及以二
十八天为时间单位的训练效果与七天相同.
54
表4- 9 低分群,不同时间单位下各个时间点之训练错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 50 100 36.84 0 25 100 16.67
2 30 37.5 31.58 100 0 100 100
3 30 25 31.58 0 0 100 16.67
4 30 25 10.53 33.33 0 100 16.67
5 30 25 10.53 33.33 0 100 0
6 30 25 10.53 33.33 0 100 0
7 30 62.5 10.53 33.33 0 100 0
8 20 50 31.58 33.33 50 50 50
9 20 50 10.53 33.33 50 50 50
10 20 50 5.26 33.33 50 50 50
11 20 50 5.26 0 0 50 50
12 20 50 5.26 0 50 50 50
13 20 50 5.26 0 50 50 50
14 20 50 5.26 0 50 50 50
15 20 50 5.26 0 50 50 50
16 40 50 10.53 0 25 50 50
17 40 50 15.79 0 25 50 50
平均错误率 27.65 47.06 14.24 19.61 25 70.59 38.24
14天 1 30 37.5 31.58 100 0 100 100
2 30 25 31.58 100 0 100 16.67
3 30 25 10.53 33.33 0 100 0
4 20 50 31.58 33.33 50 50 50
5 20 50 5.26 33.33 50 50 50
6 20 50 5.26 0 50 50 50
7 20 50 5.26 0 50 50 50
8 40 50 5.26 0 25 50 50
9 40 50 15.79 0 25 50 50
平均错误率 27.78 43.06 15.79 33.33 27.78 66.67 46.3
28天 1 30 25 10.53 33.33 0 100 16.67
2 20 50 31.58 33.33 50 50 50
3 20 50 5.26 0 50 50 50
4 40 50 15.79 0 25 50 50
平均错误率 27.5 43.75 15.79 16.67 31.25 62.5 41.67
55
l 预测(测试)错误率
从表4-10中可以得知,以七天为时间单位来看,以均值±0.5个标准差的成
绩分类方式能在第八周之后有明显的降低;均值±1个标准差,10分,25分,
33分等成绩分类的方式也具有相同的预测效果.而以十四天与二十八颠为时间
单位则与七天的效果相同.上述的结果可以说明不同的成绩分类方式不管在何种
时间单位下,都能在一定的时间内就预测出低分群的学习行为.
表4-10 低分群,不同时间单位下各个时间点之预测错误率
时间
单位 时间
累积量
均值
±0.5标
准差
均值±1
标准差
均值
±0.5与1
标准差
10分 20分 25分 33分
7天 1 80 100 40 100 100 100 100
2 90 100 40 100 100 100 100
3 90 100 40 100 100 100 100
4 100 100 33.33 100 100 100 100
5 100 100 33.33 100 100 100 100
6 100 100 40 100 100 100 100
7 100 11.11 20 100 100 100 100
8 0 0 40 0 33.33 0 16.67
9 0 0 40 0 33.33 0 16.67
10 0 0 40 0 33.33 0 16.67
11 0 0 40 100 100 0 16.67
12 0 0 40 100 33.33 0 16.67
13 0 0 53.33 100 33.33 0 16.67
14 0 0 40 100 33.33 0 16.67
15 0 0 40 100 33.33 0 16.67
16 0 0 40 0 100 0 16.67
17 0 0 53.33 0 100 0 16.67
平均错误率 38.82 35.95 39.61 70.59 72.55 41.18 50.98
14天 1 90 100 40 100 100 100 100
2 100 100 40 100 100 100 100
56
3 100 100 40 100 100 100 100
4 0 0 40 0 33.33 0 16.67
5 0 0 40 0 33.33 0 16.67
6 0 0 40 100 33.33 0 16.67
7 0 0 40 100 33.33 0 16.67
8 0 0 40 0 100 0 16.67
9 0 0 53.33 0 100 0 16.67
平均错误率 32.22 33.33 41.48 55.56 70.37 33.33 44.45
28天 1 100 100 33.33 100 100 100 100
2 0 0 40 0 33.33 0 16.67
3 0 0 40 100 33.33 0 16.67
4 0 0 53.33 0 100 0 16.67
平均错误率 25 25 41.67 50 66.67 25 37.5
l 小结
由图4-11及图4-12可以得知,以不同时间单位做预测的效果差异性不大,
而不同的成绩分类方式与针对高分群预测的效果之关系较强,且除了10分与20
分这两种成绩等级分类方式之外,其他的成绩分类方式对於预测低分群的效果都
还不错(错误率至少小於40%以下),可见就平均而言经由本研究所分析出的决策
规则的确能有效的预测出低分群的学习行为,而这对於教师来说更具有相当的意
义,因为这表示经由本研究的方式,能够在学期中藉由即时的观察学生的学习状
况与学习行为,可以提早预测出哪些学生可能会落入低分群,藉由此方式侦测出
这些可能为低学习成效的学生,教师或是助教可以即早给予教学辅助,以达到某
种形式的个别化教学.
57
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天14天28天
27.5
43.75
15.7916.67
31.25
62.5
41.67
27.78
43.06
15.79
33.33
27.78
66.67
46.327.65
47.06
14.2419.6125
70.59
38.24
01020304050607080
错误率
成绩分类方式
时间单位
低分群training错误率_时间(平均)7天14天28天
图4-11 不同时间单位之低分训练错误率
均值减加
0.5个标准差
均值减加
1个标准差
均值减加
0.5个与
1个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
7天
14天28天
25
25
41.67
50
66.67
25
37.5
32.2233.33
41.48
55.56
70.37
33.33
44.45
38.82
35.9539.61
70.5972.55
41.18
50.98
01020304050607080
错误率
成绩分类方式
时间单位
低分群预测错误率_时间(平均)7天14天28天
图4-12 不同时间单位之低分预测错误率
58
由於之前的结果可以得知,不同的成绩分类方式与针对高分群与低分群的预
测之关系非常的强,因此以下将以不同成绩等级分类方式来看高分与低分的预测
效果.
4.5 不同成绩等级分类方式与高分及低分预测效果之关系
从前两节可以知道,由於不同的成绩分类方式与针对高分群与低分群的预测
具有相当程度的关系,因此本节将继续观察在不同的成绩等级分类方式下,针对
高分群与低分群之预测错误率,并采用与前两节相同的分析对象,分析工具与参
数设定(35%的树支修剪门槛值,以及测试时需最少符合3笔资料做为条件)来进
行决策树分类分析.也针对不同的成绩等级分类方式的预测效果做一结论.
4.5.1 高分的预测错误率
l 训练错误率
由图4-13可以知道,不论用哪一种成绩分类方式,在描述学习行为与高分
的学习成效的正确率相当的高,其训练错误率至少都在6%以下.
59
7天
14天
28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
0.44
0.28
0.63
000
1.81.85
1.39
0.37
00
5.88
3.853.85
0.43
0.27
1.22
5.66
5.13
5.77
0123456
错误率(%)
时间单位(天)
成绩分类方式
高分群训练错误率(平均)
均值减加0.5个标准
差
均值减加1个标准差
均值减加0.5个与1个
标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-13 不同成绩分类方式之高分训练错误率
l 预测(测试)错误率
由图4-14预测高分群的效果来看,除了以均值±0.5个标准差的预测错误率
较高外(50%左右),其他的成绩等级分类方式的预测效果都能在38%以下,其中
以均值±1个标准差(30%以下),25分(25%以下)这两种方式的平均效果较好.这
表示平均而言,各种成绩分类方式的预测效果都相当好,也表示高分群的决策规
则是能够适用於不同学期所开设的课程,对於教师或是分析者而言,可以进一步
从这些高分群的决策规则中反推出其学习行为,并进而可以利用这些学习行为指
标做为教学时或是班级经营时给予学生一个努力的目标.
60
7天14天
28天
均值减加
0
.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以10
分区分
以20
分区分
以25
分区分
以33
分区分
53.68
57.87
59.38
26.56
27.61
32.58
25.24
25.45
30.65
28.837.55
40.52
23.53
21.74
38.04
38.97
37.04
31.25
25.33
25.93
29.17
0102030405060
错误率时间单位(天)
成绩分类方式
高分预测错误率(平均)均值减加0.5个
标准差
均值减加1个标
准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-14 不同成绩分类方式之高分预测错误率
4.5.2 低分的预测错误率
l 训练错误率
由图4-15可以得知,除了以25分为区间的成绩分类方式之外,其他的成绩
分类方式,在描述学习行为与高分的学习成效的正确率相当的高,其训练错误率
至少都在6%以下.
61
7天28天
均值减加
0.5
个标准差
均值减加
1
个标准差
均值减加
0.5个与
1
个标准差
以
10
分区分
以
20
分区分
以
25
分区分
以
33
分区分
38.2446.3
41.67
70.59
66.67
62.5
25
27.78
31.25
19.61
33.33
16.67
14.24
15.79
15.79
47.06
43.06
43.7527.65
27.78
27.5
01020304050607080
错误率
时间单位
成绩分类方式
低分群训练错误率_成绩(平均)
均值减加0.5个
标准差
均值减加1个标
准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-15 不同成绩分类方式之低分训练错误率
l 预测(测试)错误率
整体来看,各种成绩等级分类方式针对低分群的预测错误率,以固定分数区
间的分类方式(10分,25分以及33分)的预测错误率较高,而以均值±固定标准
差的成绩分类方式(0.5个标准差,1个标准差,0.5与1个标准差)的预测错误率
都能在40%以下.这表示平均而言,各种成绩分类方式的对於低分群预测效果都
相当好,更可以进一步的说以本研究采用的方式能够有效且正确的预测出低分群
学生的学习行为,对於教师而言,预测出学习成效低的学生之学习行为可以即早
的给予教学的辅助.
62
7天
14天
28天
均值减加0.5个标准差
均值减加1个标准差
均值减加0.5个与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
50.98
44.45
37.5
41.18
33.33
25
72.55
70.37
66.67
70.59
55.56
50
39.6141.48
41.67
35.95
33.33
25
38.82
32.22
25
01020304050607080
错误率
时间单位(天)
成绩分类方式
低分群预测错误率_成绩(平均)
均值减加0.5个
标准差
均值减加1个
标准差
均值减加0.5个
与1个标准差
以10分区分
以20分区分
以25分区分
以33分区分
图4-16 不同成绩分类方式之低分预测错误率
63
第5章 结论与建议
本研究目的在提供一个整合性的分析机制,提供给教师决策规则作为教学的
辅助资讯,以辅助教师在教学时能够即时知道学生的学习状况,并针对不同学习
行为的学生给予不同的教学或辅助.此一分析机制分别建立了三个与学习历程分
析相关的资料库:学生学习历程资料库,学生学习类型资料库,教学决策支援资
料库.且经过本研究分析产生出的决策规则结果,并针对这些结果的进行分析,
主要分为三个部分:(1)针对第五期及第六期的各门课程找出学生的各种学习行
为属性与学习成效之间的决策规则,并对产生的决策规则加以说明;(2)为了验
证找出的决策规则,本研究用不同学期的同一课程作为验证的对象,并使用第六
期以及第七期的资料分别作为训练资料与测试资料,以决策数分析中的训练错误
率以及测试错误率做为验证的指标,以试图用不同的时间单位来找出最佳的预测
时间点,也用不同的成绩等级分类方式试图找出最佳的成绩分类方式;(3)将分
析对象区分为整体的学生,高分群的学生以及低分群的学生,并也以第二种分析
方式进行这些族群学生的学习行为分析.最后得到以下的结论.
5.1 研究发现
u 以不同课程的决策规则来看,在第五期计算机网路与网际网路专题中,学生
学习行为中与学习成效直接相关的属性包括了上课次数,参与线上讨论次
数,未缴作业次数,回覆文章被点选次数,提问文章被点选次数,居住地区
等6个属性.此门课程中成绩较高的大部份学生在课程学习行为方面上,不
但作业几乎都缴交,经常到网大上课,参与线上讨论,而且在课程互动上对
於别人提问问题都会主动的回答,而且回答的文章也被别人点阅.相对的以
低分群的学生在课程学习行为方面有过未缴作业的记录,或是在课程互动行
为不常参与线上讨论,这些学习资讯都可以让教师在观察学生是否发生学习
64
困难的一个警讯.
u 以第五期管理资讯系统专题来看,该门课程的学生与学习成效相关的学习行
为属性包括未缴作业次数,居住地区,提问文章篇数,年龄,上课次数等五
个属性.此门课对於是否缴交作业相当的重视.因此该门课教师或是助教可
以藉由观察学生作业是否未缴交的情形来主动提醒学生以免落入学习成效低
分群.
u 以第六期电子商务专题来看,该门课程的学生与学习成效相关的学习行为属
性包括了未缴作业次数,提问文章篇数,学历,以及参与线上讨论次数等四
个属性.对於此门课的学生而言,必须经常参与线上讨论,或是在课程学习
行为里的作业缴交情形良好,将会获得较高的学期成绩;相对的学习成效较
低的学生通常都是没有缴交作业或是缺交次数太多,而且又不主动问问题.
这类型的学生也可以让教师或是助教藉由观察未缴作业次数过多或是提问文
章篇数过少这两个指标来提早知道哪些学生可能需要给予辅助.
u 上述不同的课程与其产生的决策规则将会与该门课程的课程性质,教师的教
学方式以及分数评量重点项目不同而有不同对应属性.具有相同的属性只有
未缴作业次数,表示在网路进行学习时缴交作业将是教师在评量学生的学习
成效的一个很重要的依据;不同课程也会依据各课程的特性以及与教师的授
课方式而有不同的属性,但是这些与学生学习成效相关的属性都一定与学生
在网路上学习行为相关(例如参与线上讨论次数,回覆文章与提问文章被点选
次数,提问文章篇数等等).这也说明在网路上进行网路学习时积极的参与教
与学的活动是与学习成效的相关性非常高,积极的参与课程相关的互动,藉
由提问课程相关问题以及回答别人的问题,才能达到教学相长的目的.
u 以七天为一个时间单位针对整体学生来做分析预测时,在第八周至第九周时
的时间点下的学习历程已经能完整的描绘出学生学习行为与学习成效的决策
规则.而在第八周左右就能够有效的预测出学生的学习行为,表示利用时间
点的观念将这些学习行为变项做累计的动作,确实能够在一定的时间点之前
65
就能够提早预测到学生可能的学习成效.
u 以十四天与二十八天为时间单位针对整体学生来做分析预测时,描述过去学
习行为与学习成效间的效果与以七天为一个单位具有相同的趋势;但预测的
效果都不如七天的好,这也说明合适的时间切割单位以七天较佳.以不同时
间单位做预测的效果差异性不大,但个别来看各个时间单位下都能在一定的
时间点即达到预测的效果.
u 用不同成绩等级分类方式针对整体学生来做分析预测时,各种的成绩分类方
式对於描述决策规则的效果都很高,然而不论用何种成绩的分类方式要预测
整体学生的学习行为与学习成效间的关系是有相当的困难,其中以均值±1
个标准差(30%以下),均值±0.5个与1.5个标准差(47%以下),25分(47%以
下),33分(42%以下)这四种分类方式较好.
u 针对高分群的学生以不同时间单位分析学习行为时,如同以整体学生为对象
的结果,时间单位越长,原本用较短时间单位时错误率较易降低的效果将会
变得越不明显.然而要预测高分群学生的学习行为较为不容易,都是在一开
始的错误率最低,之后逐渐升高,再深入观察不同成绩等级分类方式的预测
效果,其中均值±1个标准差的成绩分类方式能在第八周之后有明显降低的
趋势,而25分与33分都能在第十周至第十二周之后明显的降低,而其他的
分类方式预测效果的表现并不明显.
u 针对低分群的学生以不同时间单位分析,在描述低分群学生的学习行为与其
整体学生以及高分群学生的效果相同;而就预测的效果来看,不论以七天,
十四天或是二十八天为时间单位来看,大部分的成绩等级分类方式都能在第
八周之后明显的降低.
u 就平均而言经由本研究所分析出的决策规则的确能有效的预测出低分群的学
习行为,而这对於教师来说更具有相当的意义,因为这表示经由本研究的方
式,能够在学期中藉由即时的观察学生的学习状况与学习行为,可以提早预
测出哪些学生可能会落入低分群,藉由此方式侦测出这些可能为低学习成效
66
的学生,教师或是助教可以即早给予教学辅助,以达到某种程式的个别化教
学.
5.2 研究贡献
本研究将目前教学网站的历史资料与网页日志档萃取出学生的学习历程,并
建置了以各门课程的学生学习历程档案资料库,透过资料探勘中的分类分析法将
学习历程以时间维度做分析,并产生出个别课程的决策规则以提供教师了解学生
的学习行为与学习成效的可能关系.本研究的主要贡献如下:
u 找出不同课程下课程的属性与决策规则之关系
利用本研究找出的决策规则确实可以反应出该门课程学生的学习行为与学习
成效间的关系.这些决策规则将有助於教师在未来开设相同课程时的一个参
考资讯.
u 找出不同时间单位下与高低分预测效果之关系
对教师来说,如何能够依照学生目前的学习情形找到可能为学习表现不佳(低
分群)的学生,甚至於是可能的中辍生,或是找出高分群学生的学习行为,而
能在一定时间点下即时的侦测出可能为低学习成效的学生,教师在评估之后
可给予适当之辅助教学策略.
u 不同成绩等级分类方式下与高分及低分预测效果之关系
不同成绩等级的分类方式会直接的影响欲观察的对象学习成效的程度,本研
究采用不同成绩方式,皆能够有效且正确的预测出低分群学生的学习行为,
而且预测出学习成效低的学生之学习行为可以即早的给予教学的辅助.而这
些分类方式也可提供给未来欲进行相关研究者.
67
5.3 研究限制
u 分析结果的适用性
本研究的分析对象为中山网路大学资管系网路硕士学分班的第五期至第七期
资料,在分析结果的适用对象及范围将会因分析资料来源的不同而有不同.
而且进行决策规则的验证是采用单一门课程做为验证,其验证的结果并未能
一定适用於其他的课程.
u 分析结果的验证
决策规则的目的是为了辅助教师在教学时的一个辅助资讯,为了能够让这些
找出的决策规则更有效的验证,应将专家的回馈纳入至验证的阶段.
5.4 研究建议及未来研究方向
在研究进行的过程中基於上述研究限制,因此本研究仍有一些不完善的地方
待改进,且在进行研究的过程中也发现有一些议题值得未来继续探讨,因此本研
究提出几项建议以供后续研究者参考.
u 研究范围的延伸
由於时间及资料取得的限制,因此仅适用於第五期至第七期的网路硕士学分
班资料,且由於开设相同课程只有单一门课程,因此在进行研究验证时仅能
挑选该门课程,建议后续研究者可以扩大研究对象的范围及资料收集的时间.
u 专家意见的回馈
本研究提供一整合性的分析机制,产出的决策规则确实能够预测出学生的学
习行为,若能再有教师及专家针对这些决策规则进行验证及意见回馈,将能
使这些资讯成为更一般化的教学辅助资讯.例如,可结合相关的理论(例如电
脑辅助教学CAI)帮助教师更了解这些学习历程资讯.
68
参考文献
中文参考文献
[1]. 王锦裕(2001),线上阅读的学习时间型态与学习互动及学习成就相关性
之研究,国立高雄师范大学资讯教育研究所硕士论文.
[2]. 王文中,吕金燮,吴毓茔(1999),教育测验与评量-教室学习观点,五南
出版有限公司.
[3]. 余民宁(1997),教育测验与评量,心理出版社.
[4]. 吴明隆(2000),班级经营与教学新趋势,五南出版社.
[5]. 吴信贤(2000),非同步网路教学系统之发展及学习历程档案,国立台湾
师范大学资讯教育研究所硕士论文.
[6]. 吕静芳(1999),由网站行为历程以贝式学习建立学习者模式之引导系
统,国立中央大学资讯工程研究所硕士论文.
[7]. 李怡慧(2000),网路教学环境上群组合作学习分组方式之探讨,国立中
山大学资讯管理研究所硕士论文.
[8]. 李建亿,吴孟淞,吴政道(2000),"在全球资讯网学习环境中学习历程
样式发掘法之研究",第八届台湾区网际网路研讨会",台南,国立成功
大学,页448-455.
[9]. 邱美珍(1996),决策树学习法中连续属性之分类研究,中原大学资讯工
程研究所硕士论文.
[10]. 岳修平,王郁青(2000),"电子化学习历程档案实施之态度研究",教育
心理学报,第31卷,第2期,页65-84.
[11]. 林奇贤(1997),"全球资讯网辅助学习系统-网际网路与国小教育",资讯
与电脑杂志,第58期,页14-18.
[12]. 林清贺(1998),网路学习系统上之学习历程评量辅助系统,国立中央大
69
学资讯工程研究所硕士论文.
[13]. 倪家祥(2000),以网站行为的历程建立具时间性学习者模式,国立中央
大学资讯工程研究所硕士论文.
[14]. 庄雅茹,张银益,吴照辉,刘季纶,林淑琼(2000),"传统教室与虚拟
教室学习成效之研究",第十一届全国资讯管理学术研讨会,高雄,国
立中山大学.
[15]. 黄武元,张宸彬(2002),"非同步学习活动与教材特性对於学习时间之
影响",科学教育学刊,第10卷,第2期,页179-191.
[16]. 黄常明(1998),远距教学学习成就及相关因素研究,国立师范大学社会
教育研究所硕士论文.
[17]. 郭俐兰(2000),支援使用者观点之线上分析系统,国立中央大学资讯工
程研究所硕士论文.
[18]. 陈年兴(2000),"网路教学与传统教学之比较分析",远距教育,第15/16
期合刊,页153-163.
[19]. 陈年兴,石岳峻(2000),"建构式网路教学系统设计准则与评量结果",
第十一届全国资讯管理学术研讨会,高雄,国立中山大学.
[20]. 陈年兴,林甘敏(2001),"网路学习之学习行为与学习成效分析",第十
二届国际资讯管理学术研讨会,中坜,国立中央大学.
[21]. 陈国栋(2003),"Discover SCORM portfolio online analysis and
decision-make supporting",第三届网路教学系统平台与内容标准化研讨
会,高雄,国立高雄师范大学.
[22]. 许荣隆(2000),远距教学的学习历程与时间之研究,国立高雄师范大学
资讯教育研究所硕士论文.
[23]. 杨奕农,柴蕙质(2003),"非同步网路学习成效及影响因素之计量分析:
经济学课程个案研究",科学教育学刊,第10卷,第2期,页193-210.
[24]. 蔡孟勋(2000),非同步教学个人化评量机制,国立高雄师范大学工业科
70
技教育研究所硕士论文.
[25]. 杨岱霖(2000),动态适性化学习系统之研究,国立高雄师范大学资讯教
育研究所硕士论文.
[26]. 郭俐兰(2000),支援使用者观点之线上分析系统,国立中央大学资讯工
程研究所硕士论文.
[27]. 童宜慧,张基成(1996),"网路化学习历程档案系统",第八届ICCAI国
际电脑辅助教学研讨会,台中,逢甲大学.
[28]. 童宜慧,张基成(2000),"网路化学习历程档案系统之建构与评鉴-一个
电子化的真实性学习评量工具",远距教育,第13/14期合刊,页78-90.
[29]. 钟斌贤,吴育龙,郑立川,孙荻雯,高苑芳(2000),"虚拟学校学习环
境设计与建置",第八届台湾区网际网路研讨会,台南,国立成功大学,
页368-372.
[30]. 刘惠如(1999),整合式网路教学之教学设计与评量,国立中山大学资讯
管理研究所硕士论文.
[31]. 刘晨钟(2000),网路学习历程之知识探索:学习效能评鉴之工具,国立
中央大学资讯工程研究所博士论文.
[32]. 刘晨钟(2003),"SCORM之学习历程跨平台应用",第三届网路教学系
统平台与内容标准化研讨会,高雄,国立高雄师范大学.
[33]. 蔡旻芳(2001),网路学习之学习历程分析系统,国立中山大学资讯管理
研究所硕士论文.
[34]. 萧嘉琳(2001),互动式概念关系建立辅助系统在学习诊断之应用,暨南
国际大学资讯管理研究所硕士论文.
71
英文参考文献
[1]. Bark, C.C., Geoffrey, I. Webb (1999), Dual-Model: An Architecture for
Utilizing Temporal Information in Student Modeling, "7th International
Conference on Computers in Education", pp. 111-118.
[2]. Bloom, B.S., (1976), Human characteristics and school learning,
McGrawHill.
[3]. Brusilovsky, P., Bra, P.D., Eklund, J., Hall, W., and Kobsa, A. (1999),
"Adaptive hypermedia (panel): purpose, methods, and techniques", the
tenth ACM Conference on Hypertext and hypermedia: returning to our
diverse roots, pp. 199-200.
[4]. Carroll, J. A., Potthoff, D. & Huber, T. (1996), "Learning from three years
of portfolio use in teacher education", Journal of Teacher Education, pp.
253-262.
[5]. Chang, C.K., Chen, G.D., and Ou, K.L. (1998), "Student portfolio analysis
for decision support of Web based classroom teacher by data cube
technology", Journal of Educational Computing Research, vol. 19, no. 3, pp.
307-328.
[6]. Chen, G.D., Liu, C.C., Ou, K.L., and Liu, B.J. (2000), "Discovering
decision knowledge from web log portfolio for managing classroom
processes by applying decision tree and data cube technology", Journal of
Educational Computing Research, vol. 23, no. 3, pp. 305-332.
[7]. Fayyad, G., Piatetsky, S., Smyth, P. and Uthurusamy, R. (1996). Advances in
Knowledge Discovery in Databases, Cambridge, MA: MIT Press.
[8]. Feng, T. & Fionn, M. (2000), "Towards Knowledge Discovery from WWW
Log Data", Proceedings of the The International Conference on Information
72
Technology: Coding and Computing, pp. 302-307.
[9]. Freitag, D., McCallum, A., Mitchell, T., Nigam, K. and Slattery, S. (1998),
"Learning to extract symbolic knowledge from the world wide web",
Proceedings of American Association for Artificial Intelligence(AAAI).
[10]. Fuller, R. (2002), Data Mining Overview, http://www.datawarehouse.com/ .
[11]. Joachims, T. (1998), "Text Categorization with Support Vector Machines:
Learning with Many Relevant Features, ECML-98", 10th European
Conference on Machine Learning.
[12]. Jim, G., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., Venkatrao,
M., Pellow, F. & Pirahesh, H. (1997), Data cube: A relational aggregation
operator generalizing group-by, cross-tab and sub-totals, Data Mining and
Knowledge Discovery, vol. 1, pp. 29-54.
[13]. Hewitt, G. (1995), A portfolio primer: Teaching, collecting, and assessing
student writing, Portsmouth, NH: Heinemann.
[14]. Han, J. and Kamber, M. (2001), Data Mining: Concepts and Techniques.
Morgan Kaufmann Publishers.
[15]. Joshi, K.P., Joshi, A., Yesha, Y. & Krishnapuram, R. (1999), "Warehousing
and mining Web logs", Proceedings of the second international workshop
on Web information and data management, pp. 63- 68.
[16]. Kubiszyn, T. & Borich, G. (1993), Educational testing and measurement:
Classroom application and practice, New York: HarperCollins College
Publisher, 4th edition.
[17]. Kumar, A. (1999), Learner characteristics and success in Indian distance
education, Open learning, pp. 52-58.
[18]. Wu, K.L., Philips S. Yu, & Ballman, A. (1998), "Speedtracer: A web usage
mining and analysis tool", IBM Systems Journal, vol. 37, no. 1.
73
[19]. Lankes, A.M. (1995), "Electronic Portfolios: A new idea in assessment",
ERIC DigestEDO-IR-95-9.
[20]. Moore, M. G., and Kearsley, G. (1996), Distance Education: a system view,
Belmont, CA: Wadsworth Publishing Company.
[21]. Quinlan, J.R. (1993), C4.5 Programs for machine learning, Morgan
Kaufmann Publishers, San Mateo, California.
[22]. Romiszowski, A.J. (1981), Designing Instructional Systems: Decision
Making in Course Planing and Curriculum Design, New York: Nichols
Publishing Company.
[23]. Sharp, J.E. (1997), "Using portfolio in classroom", 27th Frontiers in
Education Conference, vol. 1, pp.272-279.
[24]. Smith, K. & Tillema, H. (1998), "Evaluating portfolio use as a learning tool
for professionals", Scandinavian journal of educational research, vol. 42,
no. 2, pp. 193-205.
[25]. Tao, F., Fionn, M. (2000), Information Self-Organization For Knowledge
Discovery, DEXA Workshop.
[26]. WebCT: World Wide Web Course Tools at http://www.webct.com .
[27]. Zaiane, O.R., Xin, M. & Han, J. (1998), "Discovering Web Access Patterns
and Trends by Applying OLAP and Data Mining Technology on Web Logs",
Advances in Digital Libraries Conf., Santa Barbara, CA, pp. 19-29.
·上一篇:中信证券股份有限公司
·下一篇:中信证券(600030):预计公司!""#年的净

文件类型:PDF/Adobe Acrobat 文件大小:字节