当前位置:首页 > 宠物品种 > 正文

宠物猫品种识别resnet,猫咪品种识别器

大家好,今天小编关注到一个比较意思的话题,就是关于宠物品种识别resnet的问题,于是小编就整理了2个相关介绍宠物猫品种识别resnet的解答,让我们一起看看吧。

  1. 如何理解卷积神经网络中的类别不均衡问题?
  2. 阿里发布了第一颗自研芯片含光800,它能跟其他巨头芯片厂商掰手腕么?

如何理解卷积神经网络中的类别不均衡问题?

人工智能就是个垃圾,我们跑起来了的,不教他比猪还笨。教他需要大数据支持。这个是有钱人的故事而已。就等于我生了个儿子,这个儿子非常聪明喜欢学习,但是他需要去好多学校学习知识,结果儿子没有成材,爸爸饿死了。

本文以两种典型的不均衡为例,系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法,在三个常用数据集上用统一标准做了实验结果展示,得出了综合性的结果,富有参考和指导意义。

在这篇论文中,我们系统地研究了卷积神经网络中类别不均衡会给分类性能带来的影响,并且对比了常用于解决该问题的一些方法。类别不均衡是一个普遍的问题,虽然这个问题在分类机器学习中被广泛地研究,然而在深度学习领域很少有可用的系统性研究。在我们的研究中,我们用了三个复杂度依次递增的基准测试集来研究类别不均衡对性能的影响,并对用来解决这个问题的几种方法做了广泛对比,这三个数据集分别是:MINIST,CIFAR-10 以及 ImageNet,这 4 种常用解决方法分别是:过***样(oversampling,相当于插值),下***样(downsampling,相当于压缩),两阶段训练(two-phase training),以及阈值化(threholding),阈值化可以补偿先验的类别概率。因为全局准确率在不均衡的数据中是很难确定的,所以我们的主要评价指标是 ROC 曲线下面的面积(ROC AUC)。从我们的实验可以得出以下结论:(i) 不均衡数据会给分类性能带来损害;(ii) 解决不均衡数据问题的方法中,占主导地位的是过***样,它几乎存在于所有的分析场景中; (iii) 过***样应该被用在那些需要完全消除不均衡的情况中,而下***样在只需要从一定程度消除不均衡的情况中的效果可能更好;(iv) 与一些传统的机器学习模型不同的是,过***样也不一定会造成卷积神经网络的过拟合;(v) 当对被正确分类的例子的总数感兴趣的时候,为了补偿先验类别概率,就应该使用阈值化方法。

宠物猫品种识别resnet,猫咪品种识别器
(图片来源网络,侵删)

1 简介

卷积神经网络(CNN)在很多机器学习应用领域都被越来越重视,目前在最近为计算机视觉贡献了很多当前最先进的技术成果,包括目标检测、图像分类、图像分割等等。卷积神经网络也被广泛地应用在自然语言处理和语音识别领域,在这些领域里,CNN 要么替代传统技术,要么帮助改善传统机器学习模型 [1]。卷积神经网络在模型中***了自动特征提取器和分类器,这是它和传统机器学习技术之间最大的不同。这个特性让卷积神经网络能够学习分层表征 [2]。标准的卷积神经网络由全连接层、多个包含卷积层、激活函数层以及最大池化层的模块组成 [3,4,5]。卷积神经网络本质上就是很复杂的,所以训练和测试网络的时候需要很大的计算量,这通常都是借助于现代的 GPU 来解决的。

在现实生活的应用中,基于深度学习的一个常见问题是:在训练集中,一些类的样本量远大于其他类。这种差别被称为类别不均衡。在以下领域中有很多这种例子:比如计算机视觉 [6,7,8,9,10],医疗诊断 [11,12],欺诈检测 [13] 以及其他领域 [14,15,16],在这些领域中这个问题非常重要,某个类别(比如癌症患者)的样本频率可以比其他类别(比如非癌症患者)小 1000 倍。已经确定的是,类别不均衡问题可以给传统分类器 [17] 带来严重的性能损害,包括多层感知机在内 [18]。它既影响了在训练模型阶段的收敛,也影响到在测试集上的泛化能力。尽管这个问题也同样影响着深度学习,但是,并没有关于这个问题的可用的系统性研究。

宠物猫品种识别resnet,猫咪品种识别器
(图片来源网络,侵删)

应对不均衡问题的方法在传统机器学习模型上已经有了一些研究成果 [19,17,20,18]。最直接最通用的就是使用一些***样方法,这些方法直接对数据本身(而不是针对模型)进行处理,以提升数据的均衡性。最广泛使用的,也被证明是比较鲁棒的一种方法就是过***样(oversampling)[21]。另一个就是下***样(downsampling)。一个比较朴素的版本就是简单地把多数类中的样本随机移除 [17],这个方法被称为随机多数下***样(random majority downsampling)。类别不均衡问题也可以在分类器的层面处理。在这种情况下,学习算法应该被修正,例如,给误分类的样本引入不同的权重系数 [22],或者具体地调节先验类别概率 [23]。

之前的研究证展示了深度神经网络中与敏感学习(cost sensitive learning)相关的一些结果 [24,25,26]。用于神经网络训练的新的损失函数也被开发出了 [27]。最近,有人提出了一种用于卷积神经网络的新方法,就是分两阶段去训练网络,首先在均衡数据上训练神经网络,然后再微调输出层 [28]。尽管在深度学习方面还没有对不均衡性进行系统性的分析,也没有可用的能够处理这种问题的方法,但是基于直觉、一些中间测试结果以及在传统机器学习上可用的一些系统性结果来看,研究者们***用的一些方法可能正在解决这个问题。根据我们对文献的调研,深度学习中使用最广泛的方法是过***样。

本文剩下的内容组织如下:第 2 节总结了解决不均衡问题的一些方法;第 3 节描述了我们的实验设置,给出了关于比较方法、数据集和所用测试模型的细节内容;第 4 节展示了实验结果和比较方法;最后,在第 5 节总结了整篇论文的工作。

宠物猫品种识别resnet,猫咪品种识别器
(图片来源网络,侵删)

2 解决不均衡问题的方法

阿里发布了第一颗自研芯片含光800,它能跟其他巨头芯片厂商掰手腕么?

先从芯片这事儿说起,都说中国“缺芯”,小小的芯片,牵动很多人的神经。

没有芯片,电脑不能运转,字节不会跳动,网络不会链接,雷达、通信都变成眼瞎耳聋,机械化装备失控后也将变得腿脚不灵。

芯片产业是典型的“大投入,大收益;中投入,没收益;小投入,大亏损”,不达到一定规模和体量,很难有明显效果。而阿里巴巴这个互联网巨头,在去年云栖大会上宣布成立一家独立运营的半导体公司——平头哥,正式进军“芯”领域。公司的名字也很耐人寻味,平头哥是蜜罐的别名,它被誉为“世界上最无所畏惧的动物”,这个名字也是马云执意要叫的(内部曾经打算叫蜂鸟),研发芯片确实不容易,需要有平头哥的勇气和毅力。

9月25日,达摩院院长张建锋在云栖大会上现场展示了阿里巴巴第一颗自研芯片——含光800,张建峰称它为“全球最强的AI芯片”。

在业界标准的ResNet-50测试中,含光800推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比为500IPS/W,是第二名的3.3倍。

含光800的性能如何?张建峰说道,(阿里巴巴)有足够的能力,去做传统硬件公司能做到的,也能做他们不能做到的。他们能做到的是硬件,而阿里则有软件有算法,能做到软硬件的协同创新。硬件层面***用了自研的芯片架构,通过推理加速等技术,能够有效地解决芯片性能瓶颈问题,张建峰开心的表示,这是阿里巴巴第一次用了自己的硬件架构,集成了阿里算法到芯片里面去,也是互联网公司研发的第一款大的芯片。软件层面则集成了来自达摩院的先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

目前,含光800已开始应用在阿里巴巴内部核心业务中。云栖大会的现场演示了城市大脑的应用场景,实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms,也就是说只要原来1/10的硬件就能干通用GPU干的事情。拿出手机淘宝,看到商品拍一拍,就能在淘宝上找到类似产品,拍立淘商品库每天需要处理超过10亿张商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩到5分钟。

含光800还将通过阿里云对外输出AI算力,未来阿里客户也可以选择基于含光800的AI云服务,相比传统GPU算力,性价比提升100%。

到此,以上就是小编对于宠物猫品种识别resnet的问题就介绍到这了,希望介绍关于宠物猫品种识别resnet的2点解答对大家有用。