2021年11月26日中国自然语言处理学生研讨会中国自然语言处理学生研讨会(The China Student Symposium on Natural Language Processing, CSSNLP )是为自然语言处理研究领域内的中国青年学者提供的一个学术交流平台。第二届中国自然语言处理学生研讨会(CSSNLP 2021)于2021年11月26日在线上举办。复旦大学数据智能与社会计算实验室(Fudan DISC)魏忠钰老师接受邀请在第二届中国自然语言处理学生研讨会担任特邀嘉宾进行报告《言行结合的议员建模方法研究》。本届大会由中国中文信息学会(CIPS)青年工作委员会主办,智源社区承办,由PaperWeekly、MLNLP(机器学习算法与自然语言处理)社区提供媒体支持。相关研究报告为中美友好互信合作计划支持课题成果之一。议员建模背景议员建模是计算政治学的重要研究课题,旨在通过量化的方法对议员行为进行刻画。国会(Congress)是美国的最高立法机构,采取参议院(Senate)、众议院(House)两院制。议案一般经过一个或多个议员发起、委员会审议、全院大会审议等程序,经两院投票通过后交由总统签署,最终形成法律。对议案的点名投票(Roll Call Vote)是一种清晰直接的立场表达方式,投票数据也因此常被用于议员建模。议员对于议案的投票包括赞成(Yea)、反对(Nay)和弃权(Not Vote)三种立场。本次报告的主要内容当前议员建模研究很大程度上依赖于投票数据,学者们基于议员的历史投票行为对其政治立场进行学习和估计。但基于投票的数据的建模方法存在两个局限性。第一,缺乏对建模结果的证据支撑,没有途径获取议员行为背后的动机和缘由,无法捕捉其政治观点。第二,缺乏对一般性话题的泛化能力,模型无法对议员在大众话题的立场进行推理。本次报告介绍了基于投票行为的议员建模以及我们课题组针对这些问题提出的结合投票行为和公开言论的议员建模框架。基于投票行为的议员建模理想点模型(ideal point model)是议员投票预测中的经典模型。其思想是将议员和议案投射到同一个政治空间,通过距离来刻画议员对议案的偏好。通过距离相关的效用函数来表示议员支持或反对议案的概率,通过MLE求解议员和议案在此空间中的理想点。然而这种方法只使用的历史投票信息进行拟合,无法泛化到新的议案上进行预测。为了解决这个问题,一些学者在理想点模型的基础上扩充议案文本的信息,使用文本回归、主题模型等方法学习议案在贝叶斯理想点模型当中的参数,使得新的议案也能被表示在当前空间中,并且有一定的可解释性(因为语言也是政治倾向的一种表现形式)。但是这种依赖于历史投票记录的方法很难用于新议员的投票预测,没有相关的历史信息可以学习到他们的理想点,因此大部分工作都是在相同的议员集合上进行训练和测试,模型的应用存在一定的局限性。结合议员关系和投票行为的议员建模01 引入议员背景信息和网络关系之前的工作仅依赖于投票数据本身,没有利用复杂的背景信息,在泛化上存在一定局限性。我们提出了一个通用的、能利用大量背景信息的基于深度学习的框架,主要包括基于图卷积神经网络的议员表示学习、基于长短时记忆网络的议案表示学习、基于三元组损失函数的联合表示学习、基于投票结果分布的投票结果预测四个部分。我们根据爬取得到的议案发起人信息构建了议员的关系网络,使用图卷积网络对议员表示进行更新。02 使用三元组损失 根据距离进行排序采样(议案,赞成议员,反对议员)的三元组并用三元组损失对议员和议案两种实体的表示在同一空间中进行联合学习,使得我们能够通过直接计算议员和议案之间的欧式距离来得到议员对议案的态度偏好,距离越近代表其态度越正向,反之亦然。根据这个距离对所有议员进行排序,再结合每个议案的投票立场比例就能得到各议员的预测立场。对于各个投票立场的比例预测,我们提出了基于 semantic GCN 的模块进行预测。03 议员投票预测数据集构建为了对投票行为进行全面的探究,我们从美国国会官网上收集了1993年到2018年的议案、议员以及投票记录数据,包含215,857条议案, 2,347个议员和2,234,082条投票记录。其中议员信息包含ID、党派、所属州等,议案信息包括标题、描述等文本信息及发起人列表。投票记录是议员对议案的投票结果,包含支持、反对、弃权三种立场。本数据集已公开。04 实验(1)整体实验结果我们在构建的投票数据集上对模型的性能进行了验证,每5年的数据作为单独的一个实验集合,其中前4年作为训练集,最后一年作为测试集。选择点名投票任务中最经典的理想点模型(Clinton et al., 2004)和基于议案文本的理想点模型(Gerrish et al., 2012)进行对比,并对模型中的模块使用不同的算法进行对比。实验结果表明使用图卷积神经网络将议员的关系信息引入到模型是有效的,基于联合表示学习和排序思想的预测能够达到最好的效果。除此之外,LSTM+party在建模议员时只使用党派信息就能达到很有竞争力的效果,说明了党派信息对于投票的重要性。(2)党派立场与投票结果相关性分析为了探讨议员的个人投票行为与党派投票行为的关系,我们定义了三个指标:党派内部一致性(即针对所有文本,党派内部议员的立场与党派主要立场一致的人数占总人数的比例的平均值)、议员偏离度(即某个议员偏离党派立场的次数占其总投票次数的比例)和议案偏离度(即对于某个议案偏离党派主要立场的议员人数占参与该议案投票人数的比例)。我们对前5% 最经常违背党派总体立场的议员(这部分议员的投票结果最难预测)的投票结果进行预测,结果依然表明了我们模型的优势。对议案偏离度的政策领域进行分析,我们发现关于动物,食物,运动的那些与个人更有关而与党派利益关系较小的政策领域,其偏离度比较高。言行结合的议员建模以及投票行为预测01 结合投票行为和公开言论进行议员建模投票仅仅是议员进行立场表达的一种方式,对于议员的形象刻画并不全面。一方面,投票可能受到党派的压力影响,并不能反映全面的立场;另一方面,我们也很难从投票中获知议员立场背后的原因和动机,投票相同的议员在具体的观点和言论上有所差异,而过去的方法学习到的议员表示并不能体现议员之间的这种细微差别。近年来,政治人物越来越多地使用社交媒体表达政见。2012年美国总统大选时,社交媒体被用于拉票、筹款和转移舆论焦点;川普上台后,更是被认为“推特治国”,推特成为了议员发表观点、建立声誉的重要平台。观察议员在投票场景下的行为和在推特上的言论,我们可以发现两者存在信息互补的关系。投票是清晰明确的立场表达方式,但范围限定于议案文本,缺乏与观点相关的上下文信息;而推特言论能够呈现详细观点,展现全面态度,但语言本身有更多噪音,表达的立场更模糊。这样的观察给了我们启示:挖掘议员在推特上的言论,并与点名投票数据相结合,为议员的行为模式提供一个完整画像。除此之外,对于没有投票记录的新议员,其言论也能作为背景信息,缓解其投票预测的冷启动问题。我们观察到议员在推特上发言时会使用框架(Framing)策略,即讨论话题时不直接表达支持\反对的立场,而是通过强调事物的某一方面(例如图中的生命、权利)来引导读者去偏向自己的立场。在堕胎禁令上投支持票的议员在推特上更强调保护生命,而投反对票的议员则注重于维护女性做选择的权利。推特话题标签(Hashtag)是一种表达观点的简短文本(例如#life, #theyfeelpain),之前的研究和我们的数据分析表明,大部分话题标签是有极性的(即发布某个标签就已经带有一定的立场)。因此我们尝试从话题标签的使用入手描绘议员在推特上的言论立场,提出了一个话题标签使用预测任务(即给定一个话题标签的描述和一个议员,预测议员是否会使用这个标签),与之前的投票预测任务进行联合学习。02 基于关系图卷积网络的议员表示学习框架为了结合两个平台的信息,我们将整个立法场景视作一个跨平台信息的异质图,包含议员、议案和推特话题标签三种节点,以及节点之间的6种关系。使用议员的背景信息初始化议员表示,使用议案和话题的文本初始化议案和话题标签的表示。使用关系图卷积神经网络更新节点的表示,将投票预测和话题标签使用预测视作一种关系预测任务。使用多任务框架进行联合学习,除了投票预测的交叉熵损失、话题标签使用预测的交叉熵损失之外,我们还使用了无监督的近邻损失来使得社交网络上相互关注的议员表示更加接近,没有关注的议员更加疏远。03 双平台数据集构建为了实现对议员言论的建模,我们构建了议员推特数据集。从国会官网爬取议员的推特账号后进行推文的爬取,最终获得735个议员的账号,平均每个账号发布了3,071条推文;为了减小噪音,保留了使用次数超过100次的话题标签,获得了194,040条议员-话题标签使用的标签。我们的投票数据来源于Voteview网站和IJCAI 2020工作创建的数据集, 保留了2009年到2018年的数据进行实验。通过议员的唯一标识ID将议员的推特账号和投票名称对应。本数据集已公开。04 实验(1)整体实验结果我们按照任期对数据集进行划分, 分别进行了届内测试(in-session, random)和跨届测试(out-of-session, time-based), 以探究模型预测新议员投票行为的潜力。实验结果表明融合议员言论信息能够提高点名投票预测的性能,并且在新议员的预测上也表现良好。(2)议员表示对学习到的议员表示进行进一步探究,将仅使用投票行为学习到的议员表示和我们学习到的议员表示对比分析,我们发现我们学习到的表示能够在一定程度上反应议员在推特上的言论差异。(3)议员言行一致吗我们计算了议员使用话题标签的极化程度Hashtag Valence(Conover et al., 2011)和投票行为的极化程度DW-NOMINATE(Lewis and Poole, 2003)分数的第一维的相关性,发现议员们的言行总体是较为一致的。进行错误分析时我们发现某些议员在个别议案中存在着言行不一致的行为,根据溢出效应(Spell et al., 2020),这可能是一种为了获取选民支持而采取的策略,会给我们的模型造成干扰,导致错误的预测。总结在这次报告中,魏老师带我们回顾了基于投票行为的议员建模方法和针对其局限性提出的引入议员关系的表示学习框架,并且结合议员的公开言论进一步刻画更全面的议员形象,构建了相应的数据集进行研究。社会科学、政治学是一个交叉学科的宝藏,NLP技术在其中有很大的应用空间。面对现有的研究,解决数据少、任务杂的问题是一个不错的切入点。报告相关下载:报告讲义下载:https://pan.baidu.com/s/16UXzQjv1DWpfU-1dmQhgDQ 提取码:3uta议题数据集:-disc.com/resource/public/publication/25/25-yang-ijcai-2020-data.zip议员推特数据集:-disc.com/resource/public/publication/41/twitter_dataset.txt相关推送:重磅推荐→人工智能算法预测美国议员的议案投票倾向性参考文献:[1] Clinton, J. , & Rivers, J. D. . (2004). The statistical analysis of roll call data. American Political Science Review.[2] Gerrish, S. , & Blei, D. M. . (2011). Predicting Legislative Roll Calls from Text. Proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28 - July 2, 2011. Omnipress.[3] Gerrish, S. M. , & Blei, D. M. . (2012). How they vote: issue-adjusted models of legislative behavior. Advances in Neural Information Processing Systems, 4, 2753-2761.[4] Yang, Y. , Lin, X. , Lin, G. , Huang, Z. , & Wei, Z. . (2020). Joint Representation Learning of Legislator and Legislation for Roll Call Prediction. Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence.[5] Mou, X., Wei, Z., Chen, L., Ning, S., He, Y., Jiang, C., & Huang, X. (2021). Align Voting Behavior with Public Statements for Legislator Representation Learning. ACL/IJCNLP.[6] M.D. Conover, Ratkiewicz, J. , Francisco, M. , Goncalves, B. , & Menczer, F. . (2011). Political Polarization on Twitter. Proceedings of the Fifth International Conference on Weblogs and Social Media, Barcelona, Catalonia, Spain, July 17-21, 2011. DBLP.[7] Lewis, J. B. , & Poole, K. T. . (2003). Measuring bias and uncertainty in ideal point estimates via the parametric bootstrap. SSRN Electronic Journal.[8] Spell, G., Guay, B.M., Hillygus, S., & Carin, L. (2020). An Embedding Model for Estimating Legislative Preferences from the Frequency and Sentiment of Tweets. EMNLP.
下一篇:Toontrack 正式发布 Beatstation