健康信息网络资源描述分析

健康信息网络资源描述分析

1研究对象与方法

选取4组健康信息相关网站作为比较对象,通过查看其网页的元数据标签的使用状况,对结果进行对比统计分析。

1.1研究对象

1.1.1受试网站

根据2013年中国搜索引擎市场用户访问量份额数据及百度数据中心2013年搜索引擎点击量统计数据,选取以下网站作为研究对象:中文综合性搜索引擎(百度、360好搜、搜狗)记为第1对照组(简称组1),英文综合性搜索引擎(Google,Bing,Hotbot)记为第2对照组(简称组2),中文医药健康信息网站(39健康网、360良医、好大夫在线)记为第3对照组(简称组3),英文医药健康信息网站(MedicineNet,Medscape,Medhunt记为第4对照组(简称组4)。

1.1.2检索词

根据2013年生物医药行业的热门关键词数据,选取干细胞(stemcell)、H7N9、葛兰素史克(GlaxoSmithKline)、转基因(transgene)、雾霾(smog)作为检索词。

1.2研究方法

分别在4组12个网站主页的检索框中输入检索词,在检索结果页面选取前10个有效网页(不包括死链接、重复网页、广告推广链接),共计中文网页300个、英文网页300个。在浏览器选项菜单中选择“工具”的“查看源代码”,打开网页源代码,确定头文件(HEAD)部分,查看Keywords、Description及Title标签,根据检索词出现的情况赋予不同权重,没有标签或者标签中没有检索词记作0,标签页中出现部分检索词记作0,标签页中出现完整检索词记作1。将4组调查对象的统计数据录入Excel表格,应用SPSS13.0进行整理和统计学分析,采用一般性统计描述和卡方(X2)检验,以P<0.05为差异有统计学意义。

2结果与讨论

2.1组1与组2的对比分析

中文搜索引擎的Key-words标签总分值82分,即描述完整的标签82个,占54.67%;Title标签的总分值139分,即描述完整的标签139个,占92.67%;Description标签的总分值95分,即描述完整的标签95个,占63.33%。英文搜索引擎的Key-words标签的总分值64分,即描述完整的标签仅64个,占42.67%;Title标签的总分值125分,即描述完整的标签125个,占83.33%;Description标签的总分值67分,即描述完整的标签67个,占44.67%。中英文搜索引擎的Title标签使用情况均比较最好,中文搜索引擎的Keywords、Ti-tle、Description3个标签的使用情况总体优于英文搜索引擎,差异具有统计学意义。

2.2组3与组4的对比分析

组3的调查结果见表4。中文医药健康信息网站的Keywords标签总分值84分,即描述完整的标签84个,占56%;Title标签的总分值134分,即描述完整的标签134个,占89.33%;Description标签总分值116分,即描述完整的标签116个,占77.33%。英文医药健康信息网站Keywords标签的总分值11分,即描述完整的标签仅11个,占7.33%;Title标签的总分值67分,即描述完整的标签67个,占44.67%;Description标签的总分值68分,即描述完整的标签68个,占45.33%。中英文医药健康信息网站Title标签和Description标签使用情况均比较好,但英文医药健康信息网站使用Keyword标签的比例仅11%。总体上看,中文医药健康信息网站使用Key-words、Title、Description3个标签的情况优于英文医药健康信息网站,差异具有统计学意义。

2.3中文网站与英文网站的对比分析

通过2.1及2.2部分的调查结果,中文网站组1和组3的标签使用情况优于英文网站组2和组4,Title标签的使用状况整体最优。相关研究表明,很多国际著名的搜索引擎并没有完全支持“MetaDescription”、“MetaKeywords”、“MetaTagRefresh”等重要的元数据标签,一些中文搜索引擎如新浪、搜狐、网易等也不支持这些元数据标签。调查发现部分网页存在标签不完整的现象,组4中该情况相对较多,部分网页标签内容为空值,部分网页标签缺失。相关研究表明,在搜索引擎新一轮的算法更新中,淡化了Meta标签的Keywords和Description两部分在排名因素中的权重。这可能是一些网页忽略Meta标签质量的一个重要原因。

2.4组1与组3的对比统计

组1和组3中3个标签的使用状况整体上较好。组1的Title、Keyword标签使用情况优于组3,Description标签的完整性组3优于组1。Title标签和Description标签的差异具有统计学意义,Keywords标签的差异不具有统计学意义。

2.5组2与组4的对比统计

组2的Keyword标签和Title标签完整性明显优于组4。这两项统计分析结果P<0.05,差异具有统计学意义;Description标签,P>0.05,差异无统计学意义。

2.6搜索引擎和医药健康信息网站的对比

从2.4及2.5部分的调查结果,组1和组3综合类搜索引擎网站的标签使用状况整体上优于医药健康信息资源网站组2和组4。这可能是由于医药概念所具有的独特的多样性所致,简单地说,它的形式包括主题词、副主题词、类名、款目词、自由词等多种专业及非专业类型。也就是说可能是由于在检索时使用的词汇形式与Meta标签中标引的形式不同,导致了医药健康信息资源网站的得分偏低。在对健康信息资源进行描述过程中,使用的概念形式不同必定会影响到信息资源被用户获取和利用的效果。

3结论与展望

通过对中英文搜索引擎、医药健康信息资源网站使用标签情况进行对比分析,下面针对发现的问题提出建议。

3.1完善Meta标签

完善Meta标签并不是为了提升网页在检索列表中的排名,从商业的角度来说,“排名并不代表一切,流量和转换是首要目标”。从用户的检索行为看,用户是通过浏览检索结果列表中每个页面的描述信息来确定是否点击进入继续浏览。绝大多数搜索引擎显示150个左右字符的Meta描述标签,向用户传递该网站包含的信息。Meta标签是评定网页质量的一个重要的因素。加强Meta描述标签的完善,检索结果列表中的描述信息能够准确全面地概括出网页及网站的内容信息,使用户可以更快更准确地获取所需信息,这才是最重要的目的。

3.2使用自由词形式表达医药概念

医药概念表达形式的多样性,导致了医药信息资源组织的复杂性。一些知名的医药专业数据库为提高查全率和查准率,使用受控词表对数据库资源进行组织和标引,可以避免词的多样性对检索效率的影响。但对于数量庞大的网络信息资源来说,这种标引几乎是不可能的。本文调查网站的用户有很大一部分并非医学专业人员,对健康词汇熟悉程度有限。因此,在使用元数据标签对健康信息网络资源进行描述的过程中,对于医药概念表达形式的选择,应尽量从非专业背景的用户角度出发,选择常用的自由词形式,增加网页文本的可读性。如网页的Title标签内容为“抗坏血酸的副作用”,那么“Keywords”及“Description”应该使用“维生素C”、“VC”或“维他命C”等被用户广泛使用的自由词形式来进行标引。

4结语

由于受网站选取、检索词选取等方面的影响,同时涉及赋值原则的设定及语种差异等方面的作用,文中对健康信息网络资源描述的调查分析具有一定的局限性,在后续的研究中将进一步改进和完善。

作者:沈涌 王静 仝爽 陈焱 单位:吉林大学公共卫生学院 吉林大学档案馆 哈尔滨医科大学公共卫生学院