2017六合彩开奖记录 六合最快开奖结果 香港六合彩公司开奖结果六合彩第期开什么 六合彩今天特码—今天特码结果—今天特码资料—今天出什么特码—今天开什么特码—【权威特码~最新消息】

热门资讯

Login





知乎机器学习挑战赛颁礼 深度神经网络已成 NLP 主流

2017-09-28 07:54

  据悉,本次获团队由知乎根据各参赛队伍所提交的模型在验证数据集上的表现而最终筛选确认。令人惊喜的是,所有获的 7 支队伍,都无一例外地使用了各种结构的深度神经网络(Deep Nerual Network,DNN);而传统的文本分类方法,例如支持向量机(Support Vector Machine,SVM)或者朴素贝叶斯(Naive Bayes)等方法,则使用较少。这也间接印证了,在一定程度上,曾经一度沉寂的深度神经网络技术,现在已经成为 NLP 领域的主流。

  第三名的 YesOfCourse 团队将 tag precition 过程成了一个 Recall-Rarank 的两步问题;使用大量的神经网络模型来进行召回,并且将神经网络对标签的预测得分作为 GBRank 的特征输入,并且使用 Pairwise 的方式来对标签的排序进行优化,选择排序后的前 5 个标签作为模型的输出。从 YesOfCourse 团队提交的说明中看出,使用 Recall + Rerank 模型得到的结果,相对于 Non-Linear NN Ensemble 的结果,有千分之二以上的提升;同时,YesOfCourse 还尝试使用了多种 Loss Function 和多种 attention 机制来模型间的差异性。

  9 月 2 日,知乎在总部举办颁礼,现场还有特别环节「基于人工智能的自然语言处理」主题沙龙。沙龙邀请了创新工场人工智能工程院副院长王咏刚老师,东南大学计算机学院教授、博士生导师漆桂林教授、大学计算机系黄民烈副教授、知乎高级副总裁李大海等机器学习和自然语言处理领域的资深专家,和大家现场探讨当前人工智能及 NLP 领域的进展。

  第一名的 init 团队,在数据增强方面进行了富有创意的工作。init 团队在进行模型训练的时候,通过 delete 和 shuffle 机制来避免训练结果的过拟合,同时模型的差异性。init 团队在提交的评审材料中提到,仅仅通过数据增强机制,训练出来的多模型结果通过等权重的 bagging 方式得到的结果已经能够获得优于第二名结果的表现;

  第二名的 Koala 团队,在进行神经网络训练的时候,使用了逐层 boosting 的方法,来提升单个神经网络模型的表现;根据其描述,这个优化可以使多层神经网络的表现提升 1.5 个百分点左右;

  漆桂林对王咏刚老师的发言表示赞同,他也认为深度学习并不是唯一一条径,并认为符号和数值计算的结合,或许是另外一种方向。知识很重要,而知识如何和数值计算结合到一起,更是一件很难的事情。发言最后,漆桂林教授鼓励现场的年轻人要有更高远的目标,多探索不一样的径。

  在嘉宾对谈沙龙环节,王咏刚一开始便语出惊人,“我觉得人工智能其实是一个很功利的领域,真的是成王败寇”。王永刚认为正是计算机的功利化造成现在深度学习的火爆,但如果回到理论界冷静思考,未来人工智能还有很长的要走,并明确“从形而上的角度来讲,我绝对不会认为这是唯一的线”。

  除此之外,在对问题进行建模时,所有参赛队伍都将问题成了「文本多分类」或者「文本标签预测」的问题,并应用了集成学习的思想,利用多个模型的相互补充来提高成绩。而在训练过程中,大多数团队都选用了交叉熵(Cross Entropy)作为损失函数。同时选手们还针对自己对问题的理解对问题进行了非常多的优化,出现了一些很有亮点的优化方法。例如:

  黄民烈对大家追捧机器学习持有不同的看法,他认为现在说深度学习网络已经取得突破还为时尚早。很多高校和企业并没有大公司充足的资源和语料,这种情况下会发现,还是传统的方法更好用。就像李大海说的那样:业界每次向前迈出一个脚步,都和真实的场景和技术的进步,以及数据息息相关。

  本次“知乎看山杯机器学习挑战赛”虽已结束,但知乎在数据上的努力并没有结束。通过“数据”,知乎将进一步促进国内机器学习领域的快速发展,希望用高质量数据集为国内技术人才的培养和技术提升带来助力。

  近期,首届“知乎 看山杯机器学习挑战赛”历经3 个月的激烈角逐,顺利落下帷幕,来自全球各地的7支优秀算法团队脱颖而出荣获三甲。其中来自邮电大学模式识别实验室的 init 团队问鼎冠军。

  作为中文互联网最大的知识社交平台,知乎累积了非常多的高质量文本语料和其他各种各样的数据,这也引发了知乎的思考: 能不能部分数据,为 AI 在国内的发展提供一些助力? “知乎看山杯机器学习挑战赛”应运而生。

Search