收藏 分享(赏)

人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf

上传人:哎呦****中 文档编号:2740247 上传时间:2023-10-13 格式:PDF 页数:10 大小:1.07MB
下载 相关 举报
人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf_第1页
第1页 / 共10页
人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf_第2页
第2页 / 共10页
人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 40 卷第 3 期 统计研究 Vol.40,No.3 2023 年 3 月 Statistical Research Mar.2023 人口普查中行业和职业编码智能化*国际经验与中国进程 孙望书 孙 旭 内容提要:行业和职业编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节。随着信息技术的快速发展及其在社会管理工作中的广泛应用,人口普查行业和职业编码走上了智能化探索之路。智能化计算机编码极大减少编码工作对人工的依赖,显著降低编码成本,提高数据的时效性,控制编码环节的再生性误差。本文结合国内外相关研究,总结计算机编码的两种基本实现思路,阐述字典编码方法和模型编码方法的原理、技

2、术及其在人口普查编码实践中的应用。我国在前六次人口普查中,行业和职业编码均由人工完成,第七次全国人口普查采用计算机辅助编码技术,初步实现行业和职业编码智能化。未来可以有针对性地借鉴其他国家社会调查编码工作的先进经验,向全面智能化方向迈进,进一步提高计算机编码方式在我国社会精准化管理中的服务水平。关键词:行业和职业编码;人口普查;信息技术;文本检索;机器学习 DOI:10.19343/ki.111302/c.2023.03.012 中图分类号:C812 文献标识码:A 文章编号:10024565(2023)03015110 *基金项目:全国统计科学研究项目“大型社会调查中行、职业编码的智能化及质

3、量控制研究”(2022LZ25);国家社会科学基金一般项目“人工智能驱动的职业流动模拟及2035年劳动力市场技能短缺状况预估研究”(22BTJ032)。Research on Automated Coding of Industries and Occupations in the Population Census:International Experience and the Process in China Sun Wangshu&Sun Xu Abstract:Industry and occupation coding is the necessary stage between

4、data collection and quantitative analysis in the population census.With the rapid development of information technology and its wide application in social management,the industry and occupation coding in the census is developing towards intelligence.The application of automated coding significantly

5、reduces the human input,coding time and costs,and especially the reproducibility error.Combined with relevant domestic and foreign research,this paper summarizes two basic methods of automated coding,and expounds the principles and techniques of dictionary coding method and model coding method with

6、their application in the census coding.In the first six population censuses of China,industry and occupation coding was all completed manually,till the seventh census which initially applied automated and intelligent coding.In the future,it is beneficiary to draw on the advanced experience of social

7、 survey coding in other countries in a targeted manner,move forward in the direction of comprehensive intelligence,and further improve the service level of automated coding in the precise management of Chinas society.Key words:Industry and Occupation Coding;Population Census;Information Technology;T

8、ext Retrieval;Machine Learning 152 统计研究 2023 年 3 月 一、人口普查中行业和职业信息的开放式采集与编码(一)人口普查中的行业和职业开放题 人口普查是国家了解人口结构与人口发展变化的重要途径,为政府制定政治措施提供重要依据。人口普查通过普查表采集信息,普查表中设置的问题从形式上可分为封闭题和开放题:封闭题在提问的同时给出若干答案,要求被调查者根据实际情况从中进行选择;开放题则只提出问题,不设答案,由被调查者根据自身情况自由填报。封闭题备选答案简短明确,便于统计处理和定量分析,是人口普查中大部分项目的信息采集方式;开放题主张采集独立真实、生动丰富的非结

9、构化信息,是人口普查中比重较轻但必要的信息采集方式。行业和职业项目是开放题中的典型代表。行业和职业信息是支持社会精准化管理、服务经济高质量发展的必要统计信息,行业和职业开放题是人口普查的关键项目。人口普查表中设置“单位详细名称”“主要产品或主要业务”“本人从事的具体工作”或措辞类似的开放题。利用开放题采集行业和职业信息主要考虑以下两个因素,第一,行业和职业类别过多。行业和职业是社会劳动分工的产物,人口普查中涉及的行业和职业类型繁多,结构和功能复杂。行业分类体系根据经济活动的同质性将国民经济行业划分为门类、大类、中类和小类4级,职业分类体系根据工作性质的相似性将职业划分为大类、中类、小类、细类4

10、层。人口普查中以多达数百种的中类和小类标准分别采集行业和职业信息,普查表有限的版面不足以一一列举各行业和职业。第二,被调查者对行业和职业项目的了解程度不足。开放题不要求被调查者了解行业和职业分类体系,也不需要被调查者对所处的行业和从事的职业加以归纳总结,被调查者只需具备基本的表达能力,能够使用自然语言独立阐述其行业和职业即可。利用开放题采集行业和职业信息是国际劳工组织倡导的调查方式,也是我国在人口普查的行业和职业项目中采用的方式。(二)行业和职业编码:开放题填报文字的必要整理环节 人口普查表采集的行业和职业填报文字是一种非结构化的文本型数据,为便于量化处理、汇总和分析,必须将其转换成结构化的数

11、值型数据。人口普查中的行业和职业编码就是依照指定的行业和职业分类标准,将行业和职业填报文字转换为对应的数值型行业和职业代码的过程。编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节,实践经验表明职业编码的复杂性略高于行业编码,因此下文关于行业和职业编码问题的讨论中将以职业编码为主要对象,行业编码可以依此类比。开展职业编码有三个基本要素:待编码的职业信息、职业编码表和编码规则(边燕杰等,2006)。待编码的职业信息即为人口普查中职业填报文字,职业编码表和编码规则均来自普查指定的职业分类标准,其规定了全社会职业的分类结构和类别,指定各类职业的名称、代码并说明主要工作内容。其中,职业

12、编码表由职业分类标准中统一规范的职业代码构成,是职业填报文字将被转换成的全部数值型职业代码的集合;编码规则为职业分类标准中职业名称、代码与职业描述的对应关系。各国职业分类标准是多样化的,中国、美国、俄罗斯、日本等许多国家自行制定了符合本国国情、本国管理使用需要的职业分类体系,一些国家还存在两种及以上的职业分类标准。国际劳工组织编制修订的国际标准职业分类(International Standard Classification of Occupation,ISCO)为全球各国制定或修订本国的职业分类标准提供了基础,也为职业量化分析的国际比较创造了基本条件。我国于2020年开展的第七次人口普查规

13、定职业填报文字依据中华人民共和国职业分类大典(GB/T 6565-2015)编码,该标准采用线分类法将全社会职业划分为8个职业大类、75个职业中类和434个职业小类,职业代码为5位数字层次码,第1位代码表示大类,第23位代码表示中类,第45位代码表第 40 卷第 3 期 孙望书 孙 旭:人口普查中行业和职业编码智能化 153 示小类。(三)行业和职业编码的误差来源与质量检验 实际编码工作中,编码员赋予行业和职业填报文字的代码并不总是对应被调查者最恰当的行业和职业类别。因此,编码是人口普查数据再生性误差的来源之一,误差产生的原因复杂多样。以职业编码为例,第一,待编码职业信息不足或表述模糊。众多职

14、业填报文字长度参差不齐,从几个字到几十个字不等,加之被调查者对职业分类原则和标准认识不足,无法在近似职业类别间做出准确的区分和描述。第二,职业分类标准与现实匹配度还有待完善。职业分类标准并非客观存在,而是人为将复杂异构的职业聚合为有限类别。然而现实经济社会中职业的多样性、复杂性和可变性,使得职业分类标准往往难以囊括所有职业,职业类别的边界可能重叠或模糊,还需不断调整和更新以适应经济社会发展。职业填报文字与职业分类标准之间很难实现完全匹配或一一对应。第三,编码结果受编码员的知识、经验和工作态度影响。编码工作依赖编码员对填报文字的理解和对职业分类标准的掌握来完成,对于同一填报文字,缺乏训练的编码员

15、和训练有素的编码员赋码结果可能并不一致。事实上,即便在经验丰富的编码专家之间,赋码结果不一致的现象也时有发生,甚至同一编码员在不同时期的编码结果也可能不一致。为检验编码工作的总体质量,普查机构通常运用抽样和再次编码,对样本赋码结果的可靠性和有效性进行检验。职业的可靠性检验又称信度检验,指职业填报文字经同一编码员或多名编码员多次重复赋码结果的一致程度;职业的有效性检验又称效度检验,指编码员赋码结果与填报文字的“正确”职业类别的吻合程度。样本赋码结果的可靠性和有效性越高,估计总体的编码质量越高,编码环节的数据再生性误差就越小。(四)编码方式的发展:从人工到智能 人口普查工作中,行业和职业填报文字的

16、编码是一项紧张繁重的工作。20世纪80年代之前,编码工作均由人工完成。为保证普查数据的时效性,普查机构需要预先选调大量编码员,并进行行业和职业分类原则、体系和方法等方面的培训。编码工作过程中,编码员依据对行业和职业分类标准的主观理解和掌握,为填报文字手动赋码。整个编码工作投入大量人力和物力,编码过程耗费时间,成本较高。同时,由于参与工作的编码员众多,编码的可靠性和有效性无法保障。事实上,各国的调查项目中编码质量有较大差异,美国1970年和1980年人口普查的行业编码有效性分别为90.9%和93.1%,职业编码有效性分别为86.7%和91.9%;瑞典1975年人口普查的行业和职业编码有效性分别为96.5%和92.2%(Biemer和Lyberg,2003)。Mannetje和Kromhout(2003)报告英国1989年至2003年的4项研究的行业编码可靠性分布在59%98%之间。Elias(1997)报告英国1981年至1990年的6项社会调查的职业编码可靠性在66%78%之间。随着信息技术的快速发展及其在社会调查工作中的应用,从20世纪80年代开始,美国、英国、加拿大等国家的官方普查

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2