MXNet 在去年 11 月成为 Amazon AWS 的官方开源平台。在今天的 AAAI 2017 上,亚马逊 AWS 机器学习总监 Alex Smola 做了主题分享,介绍了如何利用 MXNet 构建一个可拓展的深度学习框架。雷锋网旗下AI科技评论对此做了全程报道。
Alex Smola 是 MXNet 主要作者李沐在 CMU 的博士导师,后者在 Smola 加入亚马逊期间一直在做 MXNet 开发和 AWS 上深度学习的应用,这也难怪在 Smola 演讲最开始的感谢名单上,第一个名字就是李沐。
那么,作为亚马逊的官方开源平台,MXNet 又是如何实现「又快又好」的目标呢?
Smola 指出,要构建一个这样集高效与个性化于一体的框架,首先不可避免地要涉及潜变量模型的设计。潜变量模型是一种结构方程模型,区别于显变量,指的是不能被直接观测、需要通过间接数据体现的指标。而它具有以下两种表现形式:
Smola 根据不同模型的预测结果,对复杂度进行比较,结果显示,DNN 与 LSTM 具有较低的分数,说明模型的复杂度较低。
虽然「预测」这个词指的是未来的事情,但是 Smola 以 Bruce Willis 的《虎胆龙威》为例强调,在实际训练过程中,开发者很可能犯这样的错误,即用过去的数据预测过去的事情。为了解决这一问题,Smola 表示需要将用户的专业度及兴趣,还有电影的新颖度及感染力考虑在内。
[attach]224[/attach]
而从电影的评分来看,如果电影在当时提名了金球奖或者获得了其他电影奖项,那么该电影在短期内的评分会小幅上升,但在数月后又会恢复平均水平。这就说明,在进行数据预测的时候,系统需要剔除异常量以提高准确性,而这也是让预测模型变得更加高效好用的一个方法。
那么,一个好用的深度网络需要满足哪些条件?Smola 提及了如下几点:
[attach]225[/attach]
首先,价格更低的 GPU 显然更具有竞争力,且网络的运行速度更慢。
其次,运行速度也受到以下两个因素的影响:
「在进行卷积神经网络训练的过程中,采用 MXNet 只需要 50 行代码,而 caffe 则需要 1000 行。」
那么在多 MXNet 上运行 Google Inception v3 模型时,它的表现又是如何呢?Smola 表示,从单个机器增加到 47 个机器的过程中,在超过 10 个机器的时候,V 的运行速度可以达到 TensorFlow 的两倍,而从图表上也能看到,在 100 个 GPU 时,Tensorflow 的运行速度明显放缓。
说了这么多 MXNet 的优点,不过这条上升的运行曲线并不是「一帆风顺」的。如果将坐标轴的比例尺放大,就会发现在 GPU 之间进行同步的时候,运行速度会出现短时间的下降。
最后,Smola 还介绍了两个基于亚马逊平台的开发工具,并在现场进行了操作演示。
欢迎光临 云萌主云应用官方论坛 (https://yunmengzhu.com/) | Powered by Discuz! X3.4 |