收藏 分享(赏)

基于Open XML和有限自动机的试卷自动生成系统.pdf

上传人:哎呦****中 文档编号:3075097 上传时间:2024-01-19 格式:PDF 页数:6 大小:1.96MB
下载 相关 举报
基于Open XML和有限自动机的试卷自动生成系统.pdf_第1页
第1页 / 共6页
基于Open XML和有限自动机的试卷自动生成系统.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、顺 德 职 业 技 术 学 院 学 报第 21 卷38基于 Open XML 和有限自动机的试卷自动生成系统林晓1,吴为民2*,刘勇峰1(1.福建船政交通职业学院 人事处,福建 福州 350007;2.福建船政交通职业学院 信息与智慧交通学院,福建 福州 350007)摘要:考试出题讲究高保密性和高时效性,不允许将题目事先导入数据库再自动生成试卷,需要现场从大量的 WORD 文档中直接抽取题目并排版生成试卷,这是一项耗时耗力的工作。本研究利用 Open XML 文档的开源性,直接对 DOCX 和 XLSX 文档的内容进行分析读取,并利用有限状态自动机原理对文档的内容进行分类处理,自动生成试卷、

2、答案卷和答题卡文档。实验表明这种方法能够正确按照要求生成试卷,既解决了考试中的保密性要求又提高了工作效率,节省了人力成本。关键词:Open XML 标准;有限自动机;试卷自动生成中图分类号:TP391,G405 文献标志码:A 文章编号:1672-6138(2023)03-0038-06DOI:10.3969/j.issn.1672-6138.2023.03.007 收稿日期:2023-05-24 基金项目:福建省教育厅 2021 年度中青年教师教育科研项目(FZJX21B-039);2022 年校级科教发展基金项目(20220209)。作者简介:林晓(1984),女,福建福州人,助理研究员,

3、硕士,研究方向:教育管理、职业教育。通讯简介:吴为民(1970),男,教授,E-mail:。第 21 卷 第 3 期2023 年 7 月Vol.21 No.3July 2023顺 德 职 业 技 术 学 院 学 报Journal of Shunde Polytechnic考试作为鉴定知识水平的一种方法,已经延续了上千年。命题的全过程包括了几个重要的环节,出题、选题、组题、试卷排版、参考答案、封装。随着信息技术的不断发展,自动试卷生成机制,为命题这一复杂的事项带来了便捷。自动试卷生成机制具有系统、可靠、保密性高、可重复等优势,特别适用于笔试的出题工作。许多笔试对题库保密性要求非常高,有的甚至要求

4、仅在出题的当天,在监督人员的监督下,由出题专家当场解封题库或者现场出题,且出题的环境与外界隔绝联系;除命题专家研究选择考题外,有时还需要工作人员将试题进行电子化转码,以及将电子试题排版、打印、装订、封袋等。在题量大、考生多的情况时,工作人员的人工工作就非常耗时,且容易出错1。1 研究现状大多数试卷生成系统基于服务器架构的设计,利用数据库对试题进行标准化处理,已有多位学者展开研究,贾寒霜等提出运用 ASP.NET 开发,结合SQLSERVER 数据库,利用 WEB 数据库存储技术以实现网络组卷在线考试2;韦忠庆等提出基于 SaaS模式,采用改进遗传算法的智能组卷算法实现公布式在线考试3;韩啸等提

5、出基因表达式编程算法,通过使用适当的遗传算子,采用线性定长的编码方式实现构造智能组卷方法4;焦瑞等采用计算机提供的随机函数结合智能思路确定试题库结构5;秦哲韩等为了降低组卷难度和提高组卷效率,采用PHP 技术,结合 My SQL 数据库、Excel 文件及手动输入组成的试题库开发新的智能组卷系统6;王高平等提出通过遗传算法使试卷生成结合课程以及所要考查的知识点,试卷的难度,不同题型的不同分值和数量,以及总分的限制等要求7。这种传统的试卷生成系统均需使用数据库软件用于存储试题,出题前期工序复杂,需要拟定大量的题库,且事先科技与应用第 3 期39规范好格式并录入到系统中。由于在试题录入过程和数据库

6、管理过程,都存在泄密的风险,而且数据库存储题库的可视化程度不高,如何利用计算机技术在封闭的环境下、无数据库题库软件支持、无法事先获得题目的情况下进行快速出题,既要满足考试考务工作保密性高和时间短的要求,又要克服手工操作带来的速度慢、错误多等问题,成为需要解决的问题。2 基于OXML的WORD文档内容的解析与提取Open XML(Open eXtensible Markup Language)是一种文档的国际化标准,实现文件格式的互操作性。出题人员在现场用于出题的题库资料一般都是以 WORD文档的 DOCX 格式存储,或者可在现场转为 WORD文档 DOCX 格式。OXML(Open eXten

7、sible Markup Language)架构已经成为通用的标准化,被各大软件厂商所支持的文档架构,可以实现跨平台,在不同的应用中打开8。刘伟男对 WORD 的 OXML 格式进行了分析并开发了智能处理桌面系统9;杨英等提出了一种针对复制类作弊的检测方法10。Open XML 标准使得 DOCX 文档、XLSX 文档自动处理成为可能。利用DOCX 格式文档和 XLSX 文档的 Open XML 的架构,可直接对其内容和格式通过应用程序进行应用层的处理,再生成新的 Open XML 文档。这样便可脱离数据库软件,实现题库信息的存储与处理,既满足笔试保密性的要求,又减少笔试出题的人力及时间成本。

8、WORD 的 DOCX 文档以 ZIP 包的形式存储,包的格式遵守 ISO/IEC 29500-2 标准11。ZIP 包里面包含多个 Open XML 格式的文件,文件内容包括了 XML文档之间的关系定义、文档属性、内容数据,内容类型等,如图 1 所示。最基本的 DOCX 文档内容文件为document.xml 文件,其结构内容包括 节点,节点包含子节点 节点,节点又包含多个块级节点元素,如。中包含多个 元素,元素表示连续的文本,节点在元素 中,文档的内容存储在 节点中,本系统主要从 节点提取出文本信息进行处理,如图 2 所示。图 1 一个 word 文档 test.docx 包结构图图 2

9、一个 word 文档 document.xml 样例片段由于初始的 WORD 题库文档是由不同的专家或部门提供的,文档的格式存在不规范、不完全相同的情况,所以系统一开始需要对题库的 WORD 文件进行预处理。预处理的内容包括多个方面,例如将DOC 文档转为 DOCX 文档;对回车换行用 节点替代;将所有段落的列表编号方式改为纯文本方式,以方便处理;将全角的中文都统一为半角的中文;图片是试卷内容的重要部分,为方便处理,事先将 WORD 文档段落包含的图像都预先存储到一个文件夹中,图像的位置用“-image1-”、“-image2-”、“-imagen-”来取替代,以简化处理的流程,在生成试卷的时

10、候,林晓,等:基于 Open XML 和有限自动机的试卷自动生成系统顺 德 职 业 技 术 学 院 学 报第 21 卷40再把“-imagen-”重新替代为图片;通过对题库文件的预处理,规范文档 XML 格式,同时对题库文件格式进行统一,消除文档中有歧义的地方,保证题库的规范性。在预处理完成之后,系统提取出文档包含的文字内容,用正则表达式 RE(Regular Expression)实现对文本内容的分割、提取和匹配。例如,规定以阿拉伯数字开始后面有跟踪分隔符的文本是题干,通过使用正则表达式分离出题号、提取关键特征词等来判断是否是题干,其中分离题号的正则表达式如下:s|t *(d+)、|.|s|

11、.|t .*实现对 WORD 题库文件的程序级别内容提取与分析,将产生的内容提供给下一阶段有限状态机进行处理。在最后生成试卷、答案卷和答题卡的阶段,根据 Open XML 标准对已有的模板生成对应的 DOCX文档,如图 3 所示。对象从一种状态迁移到另外一种状态,并执行不同的动作。本研究使用确定的有限状态自动机(DFA,Deterministic Finite Machine),其定义如下:DFA=(Q,q0,F)(1)其中 Q 是所有状态的集合,是所有输入的集合,q0代表初始状态,F 是接受状态的集合,是状态转移函数 QQ。本研究利用确定性有限状态机对题库的读取过程进行建模。从题库的 WOR

12、D 文档中提取出的段落文字按内容分为三个类别,分别是题干部分、选项部分、答案部分。每次读取 word 一个段落,根据读取的内容使状态机进入不同的状态,进行相应的读写操作。根据有限状态机的定义:表 1 表示输入的动作内容列表。表 2 中 A 代表文字内容检测结果 A,B 代表文字内容检测结果 B,C 代表代表文字内容检测结果 C,D 代表代表文字内容检测结果 D,S0代表 IDLE 状态,S1代表题干状态,S2代表选项状态,S3代表答案状态,S4代表结束状态。本系统的确定性有限状态机模型如图 4 所示,圆形代表状态,同心圆代表接受状态 F。我们默认文档的第一段是题干,非题干的文字内容都略去,所以

13、在空闲状态 S0时候,检测结果 A 才能跳转到接受状态 S1。输入含义正则表达式A检索到数字序号开头,如“1.”“1、”等0-9+.、sB检索文字中包含吧“答案”.*答案.*C检索到以ABCDEF开头ABCDEF.D读到文件尾部表 1 输入动作表Q=S0_IDLE 状态,S1_ 题于状态,S2_ 选项状态,S3_ 答案状态,S4_ 结束状态(2)q0=S0_IDLE 状态(3)=文字内容检测结果 A,文字内容检测结果B,文字内容检测结果 C,文字内容检测结果 D(4)F=S1_ 题干状态,S2_ 选项状态,S3_ 答案状态,S4_ 结束状态(5)现状态S0S0S0S1S1S1S1S2S2S2S

14、2S3S3S3S3输入AB,CDABCDABCDABCD新状态S1S0S4S1S2S3S4S1S2S3S4S1S2S3S4表 2 状态转移函数表图 3 试卷文档预处理流程对文档内容进行OXML 分析与提取DOC 转为DOCX 格式DOCX 的规范化处理WORD 文档预处理3 基于确定性有限状态机的试卷生成设计通常情况下 WORD 题库文件中题目和答案存在于同一个文档中,则需要对其内容进行分析判断和分类处理,再依据组卷策略生成最终需要的试卷。本研究利用有限状态自动机原理对文本的内容进行分类处理。有限状态机(FSM,Finite State Machine)是基于单个对象状态转换序列的计算模型12

15、-13,对象在任意一个时刻只有一种状态,根据输入的不同,使得第 3 期415 系统的实现与测试评估本系统的实现语言为 Python,用 Pyqt 库实现界面编程,通过 python-docx 库,lxml 库的接口对Open XML 文档进行读取与生成。系统的主界面图如图 8 所示。系统支持的试题题型有单选、多选、判断、填空、简答等,题型可以根据需求增加。系统需要对题库的 WORD 题库文件名进行规范,规则如下:将单选题题库文件名定义为 DX_A-Z.docx,例如 DX_A.docx、DX_B.docx;将多选题的题库文件文件名为MX_A-Z.docx,例 如 MX_A.docx、MX_B.

16、docx;将填空题的题库文件定义为 TK_A-Z.docx,例如TK_A.docx、TK_B.docx。组题策略为 excel 文件,例如 A 卷的组题策略为 A.xlsx,B.xlsx 等。组题策略文件包含题型种类、题型分值、题目编号等信息。1)试题文件预处理。首先需要对作为 WORD 题库文档格式与内容进行预处理,预处理的内容包括:对 WORD 文件格式做统一处理,一是清除有歧义的 XML 元素,二是在内容上检查错误,例如删除不必要的空行、检查核对题库中的题号是否连续、题库中的题目是否都已当系统处于不同状态下时,依据对应的组卷策略,执行不同的动作:在提干状态按照模板写入试卷文件、在选项状态

17、下按照格式写入选项、在答案状态下将答案按照预先设定的模板格式写入答案卷、在结束状态下,则保存关闭文件,过程图如图 5 所示。4 系统的总体设计系统总架构图如图6所示。系统的输入是符合Open XML 标准的 DOCX 格式题库文件和 EXCEL 的 XLSX 格式的组卷方案文件。系统对输入的文件进行分析处理,之后按照组卷策略生成后缀名为DOCX的试卷、答题卡和答案卷文件。系统共分为四大功能模块,分别是:试题库预处理模块、配置试卷模块、拼组试卷模块、导出试卷模块。系统功能模块设计图,如图7所示。图 5 基于有限状态机的系统设计关闭文件结束对 DOCX 题库文档内容进行逐段提取分析有限状态机规范格

18、式答题卡规范格式的试卷规范格式答案卷输入检测结果 A输入检测结果 B输入检测结果 C输入检测结果 D生成生成生成图 6 系统总体架构图OpenXML格式试卷、答题卡和答案卷OpenXMLWord格式题库DOCX 文件读取读取OpenXML格式试卷方案XLSX 文件试卷自动生成系统图 7 系统功能模块图试卷自动生成系统试卷库预处理试卷内容配置自动生成试卷导出试卷图 4 试卷内容分类处理的有限状态机模型B,CB,CBDDDDCBAAAS1题干状态S4结束状态S3选项状态S2答案状态S0IDLE空闲状态图 8 程序主界面林晓,等:基于 Open XML 和有限自动机的试卷自动生成系统顺 德 职 业

19、技 术 学 院 学 报第 21 卷42配有参考答案、将题库中所有列表编码的格式改为文本格式等。在预处理的过程中提示预处理发现的错误,以便后续人工介入修改。如图 9 所示。2)生成组卷策略文件组卷策略文件是专家选题的结果,用 XLSX 文件存储。A 卷的策略文件名为 A.xlsx,B 卷的策略文件名为B.xlsx,以此类推。策略文件的样本如图 10 所示。策略文件既可以机器自动生成,也可以手工填写,这样既可以实现机器抽题的随机性,又能实现试题的侧重点。3)配置卷面。对试卷的考试科目、考试时间、试卷类别、试卷纸格式、题型、题号、题量、分值进行配置分配。如图 11 所示。4)自动拼组试卷。完成上述的

20、步骤之后,进行拼组试卷并返回拼组试卷的信息。若存在拼组异常,则在反馈信息中用红色字体表示。如图 12 所示。5)试卷导出。将系统生成的三套试卷,分别是试卷,答题卡和答案结果导出,格式为 DOCX 格式,核对完交付打印。系统测试共组织了单选题、多选、判断、填空、简答五种题型,测试题库数量统计如表 3 所示。测试运行的硬件平台为 CPU 为 12th Gen Intel(R)Core(TM)i5-12400F、2.50 GHz、内存为 16 G,软件平台为 Windows 11、python3.8.10。主要测试试卷通过系统的耗时,结果如表 4 所示。从测试结果可表明,通过系统自动产生的试卷规范,

21、题目被正确地从题库中提取出来,答案卷中答案抽取正确,整个过程符合预期的目的,节省了大量的人工同时避免了人为的错误,对比如表 5 所示。图 9 题库预处理提示信息界面图 10 组卷策略文件图 11 配置试卷界面图图 12 拼组试卷反馈信息界面图题型单选题多选题填空题判断题简答题题库文件数11102104题库题目数79030125188表 3 测试题库数量统计表 4 试卷生成主要阶段耗时Doc 转 docx阶段DOCX 题库内容规范化阶段生成试卷阶段耗时/s43.8717.066.59数据库试卷方式纯手工方式本研究的方法是否要预先导入数据库是否否排版时间无法直接生成WORD 文档,只能在线考试大约

22、 45 h10 min保密性一般高高表 5 各种试卷生成方式的定性比较第 3 期436 结论利用 Open XML 文档的开源结构,直接对文档进行解析,再利用有限状态自动机原理自动生成试卷、答题卡和答案卷,不但实现组卷速度快,而且保障试卷的正确性,还节省了人工成本,同时省去了系统对数据库软件的依赖,有效地解决了笔试出题的保密性、时效性要求的问题。参考文献:1 隋丽萍.云南省公务员考试录用笔试考务风险研究 D .昆明:云南师范大学,2021.2 贾寒霜,黄军峰.基于ASPNET 4.0 的在线考试系统的设计与研究 J.科技风,2019(23):106.3 韦忠庆,袁煜,蔡军.基于 SaaS 模式

23、的分布式在线考试系统设计 J .现代电子技术,2019,42(12):48-51,56.4 韩啸,毕波,唐锦萍.基于基因表达式编程的计算机组卷算法研究 J.计算机技术与发展,2020,30(5):154-159.5 焦瑞,李祥生.试卷自动生成系统的设计与实现 J .山西医科大学学报(基础医学教育版),2005,7(4):446-448.6 秦哲,韩继欢,赵景伟.基于 PHP 的智能组卷系统的设计 J.数字技术与应用,2022,40(10):156-158.7 王高平,孙俊玲,肖贤.金融系统考试试卷自动生成规则算法研究与系统设计 J.财富时代,2019(8):156.8 ECMA INTERNA

24、TIONAL.Office Open XML File Formats.ECMA-376S/OL.20162023-03-22.https:/www.ecma-international.org/publications-and-standards/standards/ecma-376.9 刘伟男.基于 OXML 格式的 Word 文档智能处理研究 D .青岛:中国石油大学,2016.10 杨英,黄啸波.基于 Office Open XML 技术的机考作弊检测方法探究:以全国计算机等级考试为例 J.中国考试,2020,343(11):42-47.11 ISO/IEC.Information t

25、echnology Document description and processing languages Office Open XML File Formats Part 1:Fundamentals and Markup Language Reference.ISO/IEC 29500-1:2016S/OL.20162023-03-22.https:/www.iso.org/standard/71691.html.12 WANG J,TEPFENHART W.Formal Methods in Computer Science M .Boca Raton:CRC Press,2019

26、.13 SPROAT R,SHIH C,GALE W,et al.A Stochastic Finite-State Word-Segmentation Algorithm for ChineseJ.Computational Lingus,1996,22(3):377-404.An Automatic Test Paper Generation System Based on Open XML and Finite AutomataLIN Xiao1,WU Weimin2*,LIU Yongfeng1(1.Department of Human Resource,Fujian Chuanzh

27、eng Communications College,Fuzhou Fujian 350007,China;2.School of Information and Intelligent Transportation,Fujian Chuanzheng Communications College,Fuzhou Fujian 350007,China)Abstract:Setting test paper questions emphasizes high confidentiality and timeliness,and it is not allowed to import the qu

28、estions into the database beforehand and then automatically generate the test papers.So it needs to extract the questions directly from a large number of WORD documents on site and layout them to generate the test papers,which is a time-consuming and labor-intensive task.This study makes use of the

29、open source nature of Open XML documents to analyze and read the contents of DOCX and XLSX documents directly,and adopts the principle of finite state automata to classify the contents of the documents and automatically generate test papers,answer papers and answer card documents.The experiments sho

30、w that this method can generate test papers correctly and meet the requirements,which not only satisfies the demands of confidentiality and high efficiency,but also saves labor costs.Key words:Open XML standard;finite state automata;automatic generation of test paper 责任编辑:余华明林晓,等:基于 Open XML 和有限自动机的试卷自动生成系统

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2