姓名:芦凯 学号:17011210546
转载自:习悦智能公众号,原文链接:https://mp.weixin.qq.com/s/_-FYWQvey9VXsfYiPSZn5w
【嵌牛导读】GITHUB最新开源项目精选
【嵌牛鼻子】GITHUB,开源项目,人工智能
【嵌牛提问】github最新开源项目有哪些?
【嵌牛正文】
1 基于手机的实时语义分割
项目简介:
该项目受到MobileNets和U-Net的启发,提出了一种架构叫做MobileUNet,用于实现头发部分的语义分割。作为一个典型的U-Net架构,本文的网络包含编码器及解码器,其中的卷积单元基于MobileNet中的思路,是depthwise结构的。编码器将输入图片缩小至32分之一的尺寸大小,之后解码器将其恢复至原来的二分之一。最终,网络输出和输入图像等尺寸的预测结果。项目可以在手机或其他安卓移动设备端实时运行,精度和速度都还不错。
项目采用的数据集为LFW,可以获得0.89的IoU。除了U-Net模型之外,作者还尝试了PSPNet模型,但是效果不佳。作者认为可能是全局的上下文信息对于头发的识别来说没有重要的辅助作用。作者在不同的手机上测试了性能,最终iPhone 7 胜出。
项目环境:
Keras 2、TensorFlow
项目地址:
https://github.com/akirasosa/mobile-semantic-segmentation
2 黑白图片自动上色
项目简介:
使用神经网络对图片进行风格化渲染是计算机视觉领域的热门应用之一,如为自己的照片赋予梵高的油画风格。彩色渲染也是对图片的风格处理方法之一,可以将黑白老照片变成现代化的彩色照片。现在很多彩色上色工作都由人工手工完成,通过photoshop对图片进行层层处理,动辄需要花费几个月的时间,比如,对一张脸进行上色处理,需要设计20层图层,工作量真大可以想象。
人工智能的发展为黑白图片自动上色带来了可能。Reddit社区用户Amir Avni提出了一种基于深度学习的上色机器人,其效果可媲美大师级着色水平。其技术核心在于,将自动着色转换为发现灰度与彩色之间的特征联结。我们知道,在黑白图像中,图片为单通道的,每个像素值代表了亮度,取值区间为0-255,代表了由白色到黑色的灰度区间。而彩色图像包含3个通道,即RGB红绿蓝通道,取值区间同样为0-255.通过深度学习构建深层神经网络,学习灰色图像与彩色图像对应的关系。
项目环境:
Floyd开放云平台
项目链接:
https://blog.floydhub.com/colorizing-b&w-photos-with-neural-networks/
3
用Tensorflow构建游戏AI
项目简介:
DeepMind 开放的 AlphaGo将强化学习(reinforce learning)带向了大众视野,基于强化学习教会机器人自动下象棋、让计算机自己学着玩经典游戏 Atari等。强化学习起初看似非常有挑战性,但其实要入门并不困难。本项目作者基于 Keras创建一个简单机器人,并教会它玩 Catch 游戏。Catch 是一个非常简单的街机游戏,游戏规则也很简单:水果从屏幕的顶部落下,玩家必须用一个篮子抓住它们;每抓住一个水果,玩家得一分;每漏掉一个水果,玩家会被扣除一分。
项目中采用了黑白色简化版的游戏界面,小人用底部的白色方框表示,水果用正方形的白色小方块表示。所谓强化学习,即系统在一次次尝试中,吸收成功或失败的经验,自己学习成长,属于无监督学习的一种,没有明确的标签指示。在此项目中,同样不提供哪些是属于正确的行为,而是给予相应的处罚和奖励。在 Catch 游戏中,只有在水果掉到篮子里或是撞到地板上时你才会获得奖励。
项目环境:
Tensorflow、Keras
项目链接:
https://medium.freecodecamp.org/deep-reinforcement-learning-where-to-start-291fb0058c01
4 人脸照片的自动补全
项目简介:
内容识别填充是一个强大的工具,设计师和摄影师可以用它来填充图片中不想要的部分或者缺失的部分。在填充图片的缺失或损坏的部分时,图像补全和修复是两种密切相关的技术。有很多方法可以实现内容识别填充,图像补全和修复。
该项目基于Raymond Yeh 和 Chen Chen 等人的一篇论文,“基于感知和语境损失的图像语义修补( Semantic Image Inpainting with Perceptual and Contextual Losses)”。论文介绍了如何使用 DCGAN 网络来进行图像补全。图像补全包含三个步骤:将图像理解为一个概率分布的样本;学习如何生成伪图片;找到最适合填充回去的伪图片。
项目环境:
Tensorflow
项目链接:
http://bamos.github.io/2016/08/09/deep-completion/bamos/dcgan-completion.tensorflow
5 自动生成照片文本描述
项目简介:
图像对于很多人来讲一目了然,然而对于盲人等存在视觉障碍的人群来说,文本描述能够帮助他们了解、想象一幅图片中的内容。此外,基于照片的文本描述还具有照片管理、分类等多种功能。
早在2015年,谷歌Brain团队发布了图片描述模型,该模型结构与NeuralTalk2相仿,但是用了一些trick使得性能精度更高。本项目中作者本着入门的目的,展示了一个基于Torch的图片描述模型。
项目环境:
Torch
项目链接:
https://github.com/karpathy/neuraltalk2