人工智能产业政策量化探讨

人工智能产业政策量化探讨

[提要]2018年11月,工业和信息化部《新一代人工智能产业创新重点任务揭榜工作方案》,征集并遴选一批掌握关键核心技术、具备较强创新能力的单位集中攻关,重点突破一批技术先进、性能优秀、应用效果好的人工智能标志性产品、平台和服务。在现阶段,我国人工智能产业加速发展,从基础支撑、核心技术到行业应用的产业链条正在形成,产业集群初步显现,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势。但产业发展也面临核心基础技术薄弱、与实体经济融合不够深入等问题。产业主要集中在北京、上海、广东、浙江等省份,我国在人工智能芯片领域、深度学习软件架构领域、中文自然语言处理领域进展显著。本文基于文本挖掘的人工智能产业政策量化路径进行研究与分析。

关键词:文本挖掘;人工智能;产业政策;量化路径

一、前言

人工智能产业加速发展,正在颠覆性地改变着人们的生产生活方式,甚至人类的未来。作为全球聚焦的新兴领域,人工智能不仅成为BAT等科技巨头大举进军的焦点,也成为许多重要中心城市的产业新战略之一。

二、研究设计

(一)研究方案。在信息化时代,能够深入利用文本挖掘的结果,如智能数据监控系统等,也可以打造出具有针对性的行业文本数据产品,专门服务于不同领域。基于此,对基于文本挖掘的人工智能产业政策量化路径进行研究与分析。首先对我国国内各省市的人工智能全自动规划进行搜集整理。加强NLPIR大数据语义智能分析,并且针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,使得各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows、Linux、An-droid、Maemo5、FreeBSD等不同操作系统平台,可以供Java、Python等各类开发语言使用。通过对全自动人工智能的分析与研究和基于文本挖掘的人工智能产业政策量化路径的研究与分析,一方面可以加速政策的落实;另一方面可以进行实时监测,帮助人工智能产业开发者及时地把握政策制定情况。

(二)数据来源。在现阶段我国人工智能产业加速发展,从基础支撑、核心技术到行业应用的产业链条正在形成,产业集群初步显现,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势。但产业发展也面临核心基础技术薄弱、与实体经济融合不够深入等问题。产业主要集中在北京、上海、广东、浙江等省份,我国在人工智能芯片领域、深度学习软件架构领域、中文自然语言处理领域进展显著。截至2018年6月,上海、北京、广州、江苏等16省市并且积极响应全自动人工智能产业规划。并且在2020年人工智能产业的规模保持平稳增长,产业规模达到了3,031亿元,同比增长15%,增速略高于全球的平均增速。产业主要集中在北京、上海、广东、浙江等省份,并且我国在人工智能芯片领域、深度学习软件架构领域、中文自然语言处理等相关的领域进展较为显著。(表1)

三、人工智能政策主题词分析

(一)主题词提取与统计。政策主题词是一个由特定政策文本所组成的政策,其代表了特殊的政策文献需要表达的核心内容。为了能够完全掌握各省人工智能政策,本研究针对19项人工智能政策文本进行分析,采用ROSTContentMining技术进行共词处理,得到每个政策当中的主要共词表。再通过筛选的方式,进一步对共词表进行分析。由于通过文本分析的词表当中很多词汇都是生僻词,运用次数较少,无法反映出人工智能政策的有效性,比如加强、重点、智能、人工智能等,再采用人工筛选的方式,最终获得23个关键分析词,从而衍生出对16项人工智能政策共词主题表,如表2所示。最后,根据实际分析词,按照一定的规则制作出共词矩阵,在对政策文本实施统计和文本检索过程当中,严格按照同一政策文本,不管共词出现次数有多少,都只能记一次的原则。(表2)

(二)语义网络分析。在信息化时代背景下,采用UCINET6软件绘制能够提高共词语义网络。共词语义网络图能够将人工智能政策好频词汇以网络的形式结合起来,从而形成一个整体,充分地体现出政策文本内容之间的组织结构。每个节点都代表着一个人工智能政策的主题词,其中主题词的强弱和节点大小有密切的联系,节点之间的连线就代表两个主题词同时出现在同一政策当中,线条粗细程度不同,就代表其在不同政策内出现的次数,次数越多,则线条就会越粗。中心性作为网络结构当中的重要环节,是指网络行动者在社会网络当中拥有的地位和权利。从整体网络角度而言,中心性主要是由中间中心性和度数中心性两部分组成。度数中心性代表一个行动者需要连接其他行动者的数量,数量越多就表达此次行动越关键。中间中心性则是对行动者控制他们都行为能力。如果说度数中心性代表节点在网络当中的位置,那么中间中心性则代表节点在网络控制当中的能力和作用。对于政策文献类型的主题词而言,中心性是整个政策文本当中的关键,通过控制中心性能够更好控制主题词的地位。企业度数和服务、应用之间的中心性差距较大,代表这些主题词和其他主题词之间联系非常频繁,以上主题词在不同政策文本当中出现较多次数。换句话说,人工智能方面的政策将目光放在智能化服务领域和公共服务领域方面,以企业作为主体,以产业化作为导向。为进一步分析各主题词的度数中心性和中间中心性,本研究基于UCINET计算得到数值,利用Stata软件对23个主题词的度数中心性和中间中心性绘制散点图、趋势线、均值线,其中主题词处于第一象限意味着其在人工智能政策中十分重要。

四、政策工具的量化分析

(一)政策主体。在人工智能发展方面涉及到的政策主题十分广泛,如市场、科研院、高校、企业等。其中,企业作为整个创新的关键,高校和科研院为其提供大量的技术人才,市场作为整个人工智能的发展途径,政府在其中起到引导的作用。如图1所示,企业在各省计划当中出现的频率最高,约为615次,随着运行人工智能的企业数量越来越多,该地区的人工智能发展水平得到翻天覆地的变化。根据有关调查发现,早在2018年,我国人工智能企业就拥有4,000多家,其中北京人工智能企业就有1,000多家,已经超过全国1/4的数量,其技术含量和能力也逐渐超过其他城市。这些企业的生产类型呈现多样化,如软件技术研发、硬件制造、终端产品应用等,让整个北京市的人工智能远远超过全国发展水平。(图1)

(二)政策布局。通过对现代规划热点词频进行研究,不难发现目前我国对于人工智能技术研究还处于初级阶段,尤其是芯片研发技术,是现阶段最重要的任务之一,同时要将目光放在应用场景和人工智能技术结合上面,最终实现人工智能产业化、应用化,如图2所示。人工智能产业的发展和技术创新有密切联系。虽然近年来我国人工智能方面取得突破性发展,但距离成熟还有很长一段距离,技术永远是整个人工智能产业规划的核心部分。在整个人工智能产业发展过程当中,曾经多次提出人工智技术突破,由此可以看出人工智技术突破的重要性。比如,北京就将突破人工智能芯片和传感器技术等作为人工智能产业发展的最终目的。(图2)

五、总结

随着大数据时代的到来,大数据技术在人们生产活动中得到广泛使用,而且在人们的生活与生产中文本挖掘技术起着越来越重要的作用,文本挖掘的人工智能被广泛地应用于产业政策与其量化路径等方面的研究。现阶段,文本挖掘已经是一项相对成熟的技术。对企业而言,每天都在产生大量不同形式的数据,通过用文本挖掘技术进行归类、整理和分析,不但可以节省大量人力成本,还能帮助企业提升运营效率。

作者:黄鑫 单位:西安财经大学