广东省新闻网

当前位置: 广东省新闻网 > 心理访谈 >

历史文献的量化分析:青少年物质滥用和抑郁症|社论前沿我要特价

时间:2018-10-01 17:22来源:{www.wzyma.com} 作者:{万众源码} 点击:
文献研究法通过阅读、分析相关历史文献对研究对象的本质和规律进行归纳、总结,为新的研究提供理论基础和实践经验。本期推送的文章Text mining for identifying topics in the literatures about adolescent substance use and depression,以青少年物质滥用

  文献研究法通过阅读、分析相关历史文献对研究对象的本质和规律进行归纳、总结,为新的研究提供理论基础和实践经验。本期推送的文章“Text mining for identifying topics in the literatures about adolescent substance use and depression”,以青少年物质滥用和抑郁症为背景,运用自然语言处理(NLP)技术对有关历史文献量化分析,提供了新的文献研究思路。

  青少年物质滥用(substance use),如酒精、烟草和毒品等,会对给青少年带来终生的消极影响,如成年期物质滥用障碍、更大的福利依赖、失业和较低的生活满意度等。大量的研究致力于探讨与青少年物质滥用有关的风险和保护因素。家庭内部互动和同伴关系是青少年物质滥用的关键社会因素。青少年抑郁症也是一个重要的社会问题,已有研究表明青少年抑郁症会增加自杀、药物滥用的可能性,并对成年后的精神和身体健康产生负面影响。许多青少年倾向于同时出现物质滥用和抑郁症,已有一些研究对两者之间的关系进行了探讨:遗传和环境脆弱性因素,如家庭和社会影响,同时与物质滥用和精神紊乱有关;慢性压力在物质滥用和精神疾病之间起到桥梁作用。更好地理解青少年物质滥用的源头及其与抑郁症之间的关系有助于开展预防工作。

  目前已有大量有关青少年物质滥用或抑郁症的文献,虽然一般文章都会给出相关文献综述并总结研究发现,但是提取、理解这一大类文献的有用信息仍是一件费时费力的事情。文本挖掘可以作为一种替代方法对整个数据集进行广泛理解,并探索研究问题的动态发展趋势。

  主题模型是一种用于文本挖掘的广泛使用的概率模型,其目标是确定文档中提到的主题,并揭示文档集合中的潜在主题。该算法已被用于帮助组织和理解科学文章、药物安全数据库和社交媒体等等。 作者首先运用主题模型对有关青少年物质滥用和抑郁症的文章进行文本挖掘,以发现隐藏的文本模式。然后进行了趋势分析和层次聚类分析,以探索主题比例的动态变化、对相似主题聚类分析。

  在数据预处理阶段,背景(background)、目的(aim)、方法(method)、结果(result)、结论(conclusion)、停顿词(stop words)和数字(numerical digits)等一般性词汇被忽略。另外,青少年(adolescent(s))也从数据集中删除,以避免由于这些词几乎存在于所有摘要中而导致的模型误差。

  LDA(Latent Dirichlet Allocation)一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从一个参数α的Dirichlet先验分布采样得到的多项式分布,主题到词服从一个参数为β的Dirichlet先验分布采样得到的多项式分布,参数α和β根据经验先验给定。本文通过Mallet工具运用Gibbs采样算法求解模型,设置参数α和β分别为0.1和0.01,分别尝试了主题数为5、20、50时的三种情况,对结果差异性进行了对比。

  作者给每篇文章以最大概率分配了一个主题,分别绘制了青少年物质滥用和抑郁症两种情况下的20个主题与对应文献数目的条形图;同时对每个主题从2000年到2014年的发展趋势进行了动态分析。为探索主题之间的关系,文章以主题-词的0-1矩阵数据进行分层聚类分析。

  文章对主题数为20时的主题结果进行了细致分析。图1为文献的主题分布情况;表1列出了每个主题对应的出现概率最大的10个词汇。对青少年物质滥用,5个最受欢迎的主题为T1、T6、T11、T18和T19,分别对应物质滥用、一般性研究、抽烟、脑研究以及家庭和同伴网络。这一结果表明,许多研究试图探索青少年物质滥用的危险因素,并运用认知模型研究物质滥用的危害。对青少年抑郁症,5个最受欢迎的主题分别为代表抑郁症的T5和T9、代表精神紊乱的T3、我要特价代表抑郁症治疗的T4、代表一般性研究的T6。同理可得,对两方面重叠的文献,T1、T3、T6、T7和T17为最受欢迎的研究主题,表明许多研究关注于物质滥用和抑郁症之间的相互关系,并涉及到性和暴力因素对两者关系的影响。

  根据趋势分析结果,T9、T12、T17和T18表现出显著的线表现出显著的线绘出了最热门和最冷门研究主题的发展趋势。

  20个主题分层聚类结果。T17和T19聚为一类,代表与青少年物质滥用或抑郁症相关的危险因素;T0、T7、T10和T11聚为一类,代表健康护理计划;T3、 T4、T5和T14聚为一类,代表抑郁症。

  文献综述对于理解一个主题的现状是至关重要的,它为进一步研究提供了可能性方向。当文档数量很大时,文本挖掘不失为一种可行的信息检索方式。除了检索出已知话题外,LDA还发现了其他相关话题,如影响青少年物质滥用的风险因素、青少年物质滥用与抑郁症的相互关系及干预方案。在进一步讨论中,文章着重分析了重叠的样本文献。

  对重叠的样本文献,最受欢迎的研究线,即性和暴力。随后作者筛选了涉及到主题T7的文献深入分析:性经历和暴力同时与青少年物质滥用和抑郁症相关;青少年抑郁症性可能在性倾向和酒精使用之间起到中介作用;儿童时期的性侵犯会增加抑郁症和药物滥用的风险。这些研究表明,性和暴力在青少年物质滥用和抑郁症中发挥着重要作用,而本研究滥用的主题模型发现了这个有意义的问题。

  另一个隐含在重叠文献中的重要主题为T17,即儿童到青少年期的发展。目前的纵向研究探讨了物质滥用与抑郁症之间的相互关系,并讨论了调节因素(如性格)的影响;青少年饮酒会增加晚期抑郁的风险;青少年抑郁症增加了后期药物滥用的风险和对酒精和尼古丁的依赖。这些文献为预防计划提供了启示,物质滥用预防计划应针对患有早期精神症状的青少年。

  随着文献数量显著增加,文献挖掘成为研究人员识别相关研究、提取信息、生成假设等一系列问题的重要研究方法。本文展示了主题模型在社会研究中的具体应用,识别出了样本文献的相关主题,并选择了关于特定主题的文献深入研究。另外值得注意的是,LDA模型采用的是词袋(bag of words)的方法,即将每一文档看作是一个词频向量而没有考虑词与词之间的顺序;LDA模型也没有分析出不同主题之间的关系,为获得更有价值的结论,一些扩展性研究(如本文中的聚类和趋势分析等)是必要的。

  受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片