深度学习工作基础奖

关于“图像识别深度学习:借助神经网络控制自主移动机器人”主题的科学工作,Organon Informationssysteme GmbH的一名员工于2018年2月2日获得了Friedrich Dessauer基金会奖。

人类大脑的非凡能力和成就是人工智能研究的巨大挑战,也是了解大脑功能的持续动力,类似地,使用人工神经网络在快速计算机系统上进行模拟。自1943年第一个神经元模型的研究以来,人工神经网络的数学和编程概念已经稳步发展。引入人工智能的新技术,例如,机器学习(自适应算法),以及深度学习(这是一类人工神经网络优化方法),加上计算机硬件的巨大性能改进,如今能够成功或创新以前被认为是乌托邦甚至是不可能的。这显示了你。 GoGo锦标赛赢得了AlphaGo计划,对抗世界上最好的人类球员。

由于现有系统的有限能力和灵活性,过去基于图像数据执行导航的移动自治系统的开发已成为主要挑战。新的人工智能技术的开发以及复杂和昂贵的硬件资源的使用满足了这些挑战,其中大部分资源仅供有足够财务资源的小圈子专家使用。

基于自行开发的机器人车辆和使用标准硬件组件的实际应用,包括带有图形卡的消费者桌面和Rapsberry Pi,科学工作展示了计算机如何自主学习定位自己并在环境中导航视觉感知。

由于大量的计算,深度神经网络的构建和训练是非常耗费资源的。因此,必须使用相应的高性能硬件。这些计算在神经网络的图形中的每个节点的前向和后向步骤中发生,是高度可并行化的,这使得使用强大的GPU(图形处理单元)特别合适。具有数百个内核的GPU与处理并行算术任务时具有4-8个内核的当前CPU相比具有明显的优势。

已经有许多使用图形卡进行神经学习的框架。为了实现工作目标的主题,由于良好的文档和提供的源代码,以及所涵盖的模型,TensorFlow和编程语言Python,这些框架被选择用于深度学习概念的实际实现。

对于目前硬件中的神经网络学习,选择该方法来测试已发布的神经网络模型,这些模型具有良好的识别能力,因为它们能够在动态系统中进行图像识别,并且在选择之后,可以控制在此工作中开发的机器人车辆的解决方案。实行。为此,在标准硬件上测试了其结构与预期数据记录不变的模型以及具有自己的训练数据的适应模型的模型的可操作性和性能。最后,通过机器人车辆的实际应用,实现了人工神经网络深度学习的理论概念和模型。

借助AlexNet和Inception模型,我们选择了最近两个最佳架构,并对基础工作进行了评估。为了确定物体的位置,在这种情况下是足球,在图像上并且使用它来控制机器人的导航,图像被细分为单独的区段。然后将这些段中的每一个用于评估。具有最高检测概率的片段包含足球。如果该段位于或者如果在若干段中存在很高概率,则在右侧或左侧区域中的机器人车辆在相应方向上导航。如果段在中间以较高的检测概率聚类,则不会启动方向改变,而是继续沿此方向改变。在测试中已经实现了良好的识别率,在12个图像部分中进行了分割。这些图像部分的尺寸相应为160×160像素,机器人车辆的相机分辨率为640×480。

使用人工神经网络的对象识别和定位需要系统和计算能力,这对于市场上的移动可部署平台而言是具有挑战性的。由于Raspberry Pi 3 Model B只有一个TensorFlow端口,它是单板计算机(SBC)最强大的代表之一,因此可用于此处执行的项目。 Raspberry Pi是已建立硬件的核心单元,其整个组件都通过Python程序进行控制。

由于机器人车辆是内部开发的系统,因此在硬件的实际开发之前,必须创建详细的规划,其中包括所有组件的基本适用性的定义和设计以及它们与用于人工神经网络的移动使用项目的交互。 。由于缺乏资源,特别是缺乏使用Raspberry Pi的GPU的能力,因此在Raspberry Pi上处理单个图像需要大约3秒的每个图像和每个评估i.d.R.必须评估多个图像片段,这会降低导航速度。因此,实现了客户端/服务器解决方案,其中图像被传输到功能强大的计算机。在那里,评估图像中的12个片段<每段70毫秒,因此可以对图像进行足够快速的评估以实现平滑导航。

通过这项工作可以证明,用于图像识别的深度卷积神经网络中的深度学习方法可以使机器人车辆能够在独立学习的模式的基础上以与人类相似的方式在视觉上感知其环境中的物体。对象定位空间中的对象并自主导航。尽管硬件资源相对有限,但可以成功实现预期目标。简单实用的应用程序无法隐藏在人工神经网络中借助自学方法开辟新应用的无法想象的可能性。

检查图像识别中深度学习的基本概念和模型,其成功在很大程度上依赖于使用线性代数和统计方法的复杂数学概念,这是一个挑战,并且由于令人信服的想法,令人印象深刻。曾经用机器人车辆创建的应用程序当然可以进一步扩展以用于将来的应用,这仍然是非常有趣的。