智源人工智能算法大赛现已正式启动!本次比赛由北京智源人工智能研究院主办,清华大学、北京大学、中科院计算所、旷视、知乎等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。


▶▷ 任务描述
比赛将提供知乎上的问题、话题、用户画像和用户回答记录等数据。希望选手可以预测某个专家是否会接受某个用户就某个问题向他发出的回答邀请。
为了协助选手更好地搭建模型,本次比赛提供了 10 万个话题数据、180 万个问题和 475 万个回答数据、190 万个脱敏的用户画像和回答记录数据,以及 1000 万条邀请数据。
▷▶ 数据集
比赛将提供知乎的问题信息、用户画像、用户回答记录,以及用户接受邀请的记录,要求选手预测这个用户是否会接受某个新问题的邀请。
1. 问题信息。包括<问题id、问题创建时间、问题的话题、问题的文本、问题的描述等>;
2. 用户的回答。包括<回答id、问题id、作者id、回答的文本、回答时间、点赞数、收藏数、感谢数、评论数>等;
3. 用户人画像数据。包括<用户id、性别、活跃频次、关注话题、长期兴趣、盐值>等;
4. <topic、token(词)、单字 64维embedding> 数据;
5. 最近一月的邀请数据包括<问题id、用户id、邀请时间、是否回答>。。

▶▷ 任务描述
为应对当前虚假新闻泛滥的现状,将虚假新闻带来的危害最小化,我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点,我们设立了三个子任务:
Task 1:虚假新闻文本检测:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。
Task 2:虚假新闻图片检测:虚假新闻图片是指虚假新闻中的配图。在虚假新闻中,新闻配图往往也包含着丰富的信息,有助于虚假新闻的判别。具体任务为:给定一张图片,要求参赛者判断该图片是虚假新闻图片还是真实新闻图片。
Task 3:虚假新闻多模态检测:随着多媒体技术的发展,新闻当中通常都包含着文本与图片等多模态信息,不同模态之间既存在着增强关系,同时也包含着互补信息。如何充分利用多模态信息进行虚假新闻检测仍是一项具有挑战的工作,为此,我们设立虚假新闻多模态检测子任务以促进该领域研究。具体任务为:给定一条新闻的多模态内容,包括文本、配图、用户特征等,要求参赛者判断该新闻属于虚假新闻还是真实新闻。
▷▶ 参考论文清单
为便于参赛选手了解已有方法,主办方整理了参考论文清单:
除了首批发布的数据外,其余 8 道赛题将于未来两个月内陆续发布。北京智源人工智能研究院副院长、清华大学计算机系教授唐杰表示:“本次智源的数据算法大赛,一方面促进了数据共享,提升数据使用效率,另一方面以赛代训,提升了广大学生和工程人员的技术水平,很有意义。”
人工智能正以前所未有的速度改变这个世界,也在改变我们探索自然,连接彼此,生产内容,制造产品的方式。业内人士普遍认为,依托北京智源人工智能研究院强大的科研实力和数据开放计划,2019 智源人工智能算法大赛将成为促进学科交叉,推动算法进展,发掘潜力人才的重要活动。
来源 | BAAI