大众分类法的网络文学标签应用

大众分类法的网络文学标签应用

摘要:以用户自定义标签为主要形式的大众分类法在网络文学领域得到了普遍应用,标签分类对网站原有的标准化分类系统进行了补充和完善。但不同的网络文学网站在标签的数量、类型、词长词性、重合度方面具有较大差异,网络文学标签在规范性上也存在通用程度低、同义词和近义词泛滥、歧义泛意指代模糊等问题,需要借助技术手段和运营手段实现对标签的规范控制。

关键词:网络文学;大众分类法;规范控制

网络文学是一种以网络为载体和媒介实现创作、传播、阅读的过程的文学形式,广义上泛指一切首发于网络平台的原创文学作品,狭义则指专门性文学网站上发表的通俗小说。本文涉及的“网络文学”概念为狭义的网络文学。由于网络文学具有变化快、存量大、信息专业化程度低、无序性强的特点,且兼网络文学的读者阅读需求分散、概括及表达能力参差不齐,传统的自上而下层级式图书分类方法既无法满足网络文学作品分类细化的需求,也不能帮助读者提高信息检索效率,反之,由用户自发定义标签对内容信息进行描述并实现自动分类的平行非层级分类方法,即大众分类法,在网络文学领域得到了普遍应用,“标签”也成为了读者在网络文学网站对作品内容进行检索时的重要依据。

1网络文学网站大众分类法及标签应用机制

1.1大众分类法相关概念

2004年美国学者ThomasVanderWal首次提出大众分类法(Folksonomy)的概念①,表示大众分类法是广大用户根据自己需求和理解为信息自由添加标签(Tag),从而实现信息分类的方法。标签的选择完全取决于用户的习惯和目的,所添加的标签不仅服务于添加者本人,还被广泛共享于整个站点或网络。相比主题词和关键词的使用规范,标签在使用时通常并不要求全面概括或高度提炼信息内涵,而且标签词汇在专业性上没有要求,因此具有突出的自由性、简易性、开放性的特点。此外,标签之间不存在层级关系,不强调唯一性,能很好地实现信息的细化分类,从而以较低的管理成本换取了较高的使用价值。然而,也正是由于自由度高、缺乏规范化管理,用户自定义的标签词汇也存在词量过大、语言混乱等问题。因此,应用大众分类法的网站通常会利用“反长尾理论”会对用户添加的标签进行聚类整理,选择高频标签和标签分类结果呈现在检索界面或推荐界面,以供用户选择,一定程度上实现对标签词量的控制。

1.2网络文学网站标签使用流程

网络文学具备存量大、更新快、题材体裁繁杂、受众需求分散且文化素养偏低等特点,十分适用大众分类法。目前,国内影响力较大的原创文学网站大部分已采取大众分类法对内容资源进行细化分类。在创作阶段,网站会要求注册的作者为作品添加适当数量内容描述性标签,此类标签可以在热点标签中进行选择,也可以自行编辑定义。一般而言,网站对单篇作品标签数量规定的上限为3~4个,除此之外,不对标签词性、字数做要求。在作品发表及阅读阶段,部分网站允许读者用户添加收藏标签或构建书单标签。当同一标签共现次数达到一定标准,系统则会将其提取为热门高频标签,出现在作品检索页面或首页推荐板块,并成为作者创作时的备选标签。当共现次数进一步提高,该标签甚至可能会被网站编辑所关注,经过规范化处理后提炼为基础分类中的固定选项。

1.3自定义标签分类与标准化分类的主要区别

编辑主导的标准化分类是各大文学网站的基础分类体系,该分类与用户主导的标签分类体系体现在5个方面:1)所有类目的标引词均经过编辑的规范整合,具有较高的准确性,并在语法上保持统一;2)通常情况下,基础分类选项具有唯一性,不可多选、复选;3)通常情况下为强制性分类,作品上传前必须加以选择,无法跳过该分类环节;4)基础分类主要依据作品大纲,对作品的主干内容进行分类,一般不涉及小说细节;5)基础分类在结构上更为清晰,具有层级结构。

2网络文学网站高频标签比较分析

本次研究统计了起点中文网、起点女生网、晋江文学城、17k小说网、潇湘书院、纵横中文网在内的6家文学网站、共计7个站点(17k小说网分为主站、女频小说站两个站点)的标签。选择这6家网站作为研究对象的原因是其日均流量、百度指数处于同类网站中的领先地位,并且兼顾男频女频两大小说类型,具有代表性。

2.1标签数量比较

从标签数量上看,共收集标签553个(不排除重复标签),平均每个站点标签数为79个,其中潇湘书院和晋江文学城标签数量最多,分别为183、119,数量最少的站点为纵横中文网,只设定有29个备选标签,各网站之间备选标签数量之间存在较大差距。

2.2标签类型比较

对网络文学网站热门标签依据标签描述对象分类,一般可以分为“角色、情节、风格”3大类。不同网站由于自身读者群体和整体风格不同,在标签类型上存在不同倾向。如晋江文学城119个热门标签中仅3个与角色有关,其他绝大多数为情节类标签,而起点中文网74个热门标签中则有28个为角色类标签,占全部热门标签的30%以上。

2.3标签词长与词性比较

7个站点的热门标签除极少数英文词汇外,其余词长均为2至4个汉字字符,词性方面则比较混乱,包括了名词、形容词和动词。少数网站对筛选出来的热门标签的词长和词性进行了统一,如潇湘书院,全部59个热门标签,词长均为2个字符,词性方面均为名词,相对规范。其余网站,则没有做到完全统一,但具有一定的倾向,如晋江文学城的标签字符数较多,常见为4个字符,且多为文学性较强的成语或词组,如“情有独钟”“花季雨季”“天之骄子”等,相对应的其他站点的近义标签则为较为简单的“专情”“青春”“精英”。

2.4各网站之间标签重合度比较

从标签重合度上看,7个站点间重复标签共有112个,一定程度上体现了网络文学标签共通性,然而,其中出现概率在50%以上(即出现3次以上)的标签仅有16个,此外,核心内涵一致的标签,在不同站点或同一站点内具体表述形式上存在差异,大量词汇在词义上存在层级关系和关联关系,体现了标签设置的随意性和用户标注习惯的差异性。

3网络文学标签存在的规范性问题

在大众分类法倡导由用户自由构建标签,这使得个体差异在标签构造、传播和使用的过程中体现得尤为明显,未经过专业训练的大众,在设置标签时对资源描述的准确性有所欠缺,导致标签规范性问题在所有应用平台上普遍存在。而在网络文学领域,由于内容更新快、热点交替频繁、题材繁杂、读者关注点分散,资源描述的难度进一步增加,规范性问题也随之更为突出,具体表现为以下几个方面。1)各网站之间标签通用程度低。虽然同属网络文学原创网站,但各网站因其受众和风格差异,用户设置及网站提取的标签,在数量、细化程度、描述侧重点、语法结构、词义词性、具体表述形式上都存在不同。同一标签,在不同网站的使用几率不一;同一概念,在不同网站标签的字面表述形式也存在或大或小的差异。例如,在男性向小说网站情感类文章较少,只需“感情”标签即可满足大部分男频言情小说的分类需要,而在女性频道,与“感情”相关标签则需要细化为“虐恋情深”“都市情缘”“西方罗曼”等不同维度;大部分男频网站的标签倾向于简单明了的概念和词汇,相比之下女频网站标签文学气息、浪漫气息更浓,同时也更为复杂。2)大量同义词、近义词和关联词造成冗余。用户在最初对网络文学作品进行标注时采取的规则并不统一,导致出现大量同义词、近义词及关联词词义交叉的问题。主要表现有两类,一类在语义和语法上都近似,只存在微小字面差别,如“洪荒”与“洪荒流”“种田”与“种田文”;一类则是缺少字面联系,但存在密切的内在关联,如“吸血鬼”与“血族”“咸鱼翻身”与“炮灰逆袭”“鉴宝”与“古玩”。后者比前者更为隐蔽,但造成的冗余现象以及在检索时对查全率查准率的影响却不低于前者。3)歧义、泛意化、复合式词汇干扰分类。除同义词、近义词外,歧义、泛意化以及复合式的标签词汇,也对标签分类的使用效率造成了极大的干扰。歧义的出现主要是由于网络文学中的部分概念具有特殊性。例如,网络文学网站中“猎人”标签通常指代某日本动漫作品,一般用以描述以此动漫作品为创作背景的同人小说,但如果主要角色类型为“打猎者”的小说也可能使用“猎人”标签。泛意化词汇是指如“风云”“传奇”等含义宽泛、指代模糊的词汇。复合式词汇则是指有由简单概念组合成的复合概念,部分复合式词汇在组合后并不能清晰表达单一主题的复合概念,如“青楼宫廷”“骑士与剑”等,对其他用户而言,并不能明确感知被组合的概念之间的关系。4)网络流行词泛滥。网络文学标签中存在大量网络流行词,虽然符合用户阅读习惯,但由于网络流行语本身存在的时效性短、表述不规范、审美趣味低等问题,也间接影响了用户设置的标签质量。与此同时,还促使部分作者利用标签炒作、卖噱头,故意设置猎奇标签吸引用户关注等问题。近年来热点的网络流行词,如“网红”,已成为诸如晋江文学城在内的部分网站的热点标签。起点中文网上则存在“猥琐”等负面标签。5)生僻标签利用率低造成冗余。标签分类具有明显的“长尾”特性,高使用率的标签仅占极小的部分,大部分标签利用率普遍较低。这是大众分类法无可回避的弊端。

4网络文学标签规范化趋势及手段

对大众分类法实现根本意义的规范控制,有赖于语义信息分析处理技术的发展,即通过挖掘标签的内部语义信息,对同义词、近义词、关联词进行自动聚类,建立起标签之间的等级层次关系,同时也能达成标签规范性自动修正的目的。而在此之前,网络文学网站依然可以通过适当干预热门标签的筛选展示环节,引导用户改善现有标签的规范性问题。1)同一集团旗下网站、同类型网站增强标签通用性。目前,标签一致性程度最高的网络文学网站为阅文集团旗下的起点中文网和创世中文网,两者检索页面显示的热门标签几乎完全一致。此外,同属阅文集团的起点女生网,虽然是女频网站,但与起点中文网的标签热门重合度也很高。经比较,三者在基础分类页面、标签展示页面、标签设置页面均有一定的相似性,筛选热门标签时对同义词的取舍也具有突出的一致性。2)标签展示系统增加筛查机制和淘汰机制。虽然无法直接干预用户自定义标签,但在热门标签展示环节,网站可以对展示出来的标签进行外在条件上的控制,如对词长设置上限、将新生的热门标签与原有标签进行比较,排除近义词,同时对使用频率较低的标签下架处理。3)融合基础分类与标签分类。网站可以将基础分类与标签分类的结果进行对应,长期处于热门状态、并相对稳定的标签可以直接设置为基础分类的选项,不仅完善了分类项,还能对标签词量进行控制。同时对完成基础分类的作品,在标签设置环节,对其备选的热点标签根据其基础分类进行调整,引导用户尽选择规范标签。这一手段本质上是将大众分类法与传统的知识分类方法进行融合。更为高效的处理方法是将经过规范化的受控词汇与标签进行自动关联影射。

作者:卢忆 单位:南京大学信息管理学院