2015-7-21 收集资料

WHO behind the malign and attack on ELM, GOAL of the attack and ESSENCE of ELM:O网页链接和O网页链接

“Mining of Massive Datasets” 官网O网页链接，英文好的同学也可以直接看最新的英文版材料，包括斯坦福大数据相关课程资料以及两个版本的英文ebook，官网已经无私放出斯坦福大学“web挖掘”课程精华，聚焦大规模数据挖掘。内容包括分布式文件系统、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。试读：O【试读】《大数据：互联网大规模数据挖掘与分布式处理（第2版）》.pdf

论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型，并从模型、语料、参数三方面分析生成词向量的要点。论文地址：O网页链接中文导读：O网页链接补充一个 Strategies for Training Large Scale Neural Network Language ModelsO网页链接

我发表了文章 <IJCAI-15文本摘要论文5篇>OIJCAI-15文本摘要论文5篇Multi-Document Abstractive Summarization Using ILP based Multi-Sentence Compression, Siddhartha Banerjee, The Pennsylvania State University.O网页链接Reader-Aware Multi-Document Summ

[ICML15] Universal Value Function ApproximatorsO网页链接DeepMind出品。先对少量目标学习值函数，再推广到整个目标空间。在吃豆游戏上实验，学会若干次吃掉某一个豆后，可推广到吃掉另一个豆，看来要吃完所有豆，DeepMind还有很长的路要走……

【新机器学习应用的意外后果和负面影响】《The Unintended Consequences and Negative Impact of New Machine Learning Applications》by Guy LebanonO网页链接

【教程+代码:非参数贝叶斯统计/狄利克雷过程/组合随机过程特征/聚类】"Nonparametric Bayesian Statistics(MLSS2015)"、"Clusters and features from combinatorial stochastic processes"、"Machine learning crash course part II: clustering" by Tamara BroderickO网页链接

【视频:NAACL2015】O网页链接

【视频:NAACL2015最佳论文《Retrofitting Word Vectors to Semantic Lexicons》】《Retrofitting Word Vectors to Semantic Lexicons》[CMU]O网页链接更多NAACL2015视频请参阅O爱可可-爱生活

【SVD教程】《Singular Value Decomposition Tutorial》by Kirk BakerO网页链接云:O网页链接

深入对话DeepMind创始人O网页链接

深入探索 IBM 数据分析和预测软件 – PASW Modeler O网页链接

K-means算法及文本聚类实践 | 一起大数据无处不在的聚类 O网页链接

【论文:面向LDA的增量变分推断】《Incremental Variational Inference for Latent Dirichlet Allocation》C Archambeau, B Ermis (2015)O网页链接

NVIDIA Deep Learning Course |O网页链接免费的，有人想注册看看不。将介绍Caffe、Theano和Torch三大主流DL框架。

从Twitter上看到Dato的SFrame和SGraph会直接BSD开源（目前是AGPL）O网页链接。这是目前唯一的的优化外存计算的DataFrame，单机处理TB级别数据。靠压榨单机极限处理百分之八十的问题，才可以用更少的机器处理分布式机器学习。这才是DataFrame 的未来@Gossip_useR @Jay_Dato机器学习

edX上的“Scalable Machine Learning”将于下周一（6月29日开课）O网页链接，今早收到邮件提醒，week0的资料已经放出，主要包括课程的大致介绍，环境的设置，以及与另一门Spark课程“Introduction to Big Data with Apache Spark”O网页链接的关系，感兴趣的同学可以关注。

近日，阿里巴巴无线事业部推出首个重量级Android开源项目，名为Dexposed，是一个Android平台下的无侵入运行期AOP框架。旨在解决像性能监控、在线热补丁等移动开发常见难题：O网页链接，项目主页：O网页链接

《一个数据科学家的这些年》O网页链接

大规模机器学习技术百度夏粉视频O网页链接

We are data: the future of machine intelligenceO网页链接

本来觉得lda已经没有什么意思了，最近发现实际场景用好也非常重要且有趣。以前太慢，工业级成功案例并不多，现在速度不再是约束，希望lda在大规模应用中发挥出它的优势，特别是无监督学习独特的优势，直到它成为最有用的十个机器学习算法之一，取代svd在协同推荐中角色。适合推动这个发展的人不多。。
在CF中的主要角色已经从传统的MF转化到基于特征的分解模型(svdfeature, fm)和匹配模型，通过特征获得更简单的定制，在这点上是LDA的短板。不过反过来说，因为定制不容易，所以容易发论文。

论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型，并从模型、语料、参数三方面分析生成词向量的要点。论文地址：O网页链接中文导读：O网页链接我感觉不是数据越小简单模型越好，而是数据越稀疏简单模型越好。一个大规模数据如果平均每个对象出现次数非常少，应该还是简单模型好。//@鲁东东胖: //@董力xp: 1. 语料比模型选择更重要2.语料领域比规模更重要3.数据越小，简单模型越好4.对具体任务，一般50维以上提升变小5.模型迭代次数选择很重要。

Visual Studio 2015正式版完美公布，如果你错过了昨晚的发布会，小编已经为你准备好了精华提炼完整版，赶紧戳链接了解详情，不然你今天就Out啦~O每一位攻城狮都不能错过的Visual Studio 2015正式版 #VS2015#下载地址：O网页链接

适合码农看的机器学习介绍，长文慎入：Machine Learning for Developers by Mike de WaardO网页链接

一个新的近似最近邻Python库： a new out-of-memory ANN search toolO网页链接

关于multi-armed bandit的有意思介绍：Efficient experimentation and the multi-armed banditO网页链接

DeepMind: inside Google's super-brain (Wired UK)O网页链接

Visual Studio 2015 是一个超级棒的跨平台移动应用开发工具，对Cordova，Xamarin , C++的跨平台支持都非常好。让你通过一个工具完成了iOS ,Android ,Windows 三个平台的应用。#VS2015#@微软中国MSDN 奏事介么牛X！！赶紧用起来，下载地址：O网页链接

Tumblr定向广告用户建模: 性别和商业兴趣(标签,关键词;半监督神经语言模型Semi-supervised skip-gram) O网页链接

编译器词法分析Lex、C语言标准I/O库前身、对C语言发展有重要贡献的Mike Lesk 1996年文章：信息检索的七个时代从V.Bush1945到2010, 65岁的一生: 童年45-55 在校生60s 成年70s 成熟80s 中年危机90s 成就00s 退休10sO网页链接

编译器词法分析Lex、C语言标准I/O库前身、对C语言发展有重要贡献的Mike Lesk在PNAS15发表评论文章：有多少论文不是原创的O网页链接1）文章提到arXiv的抄袭 2）文章说浙大为发表在Science或Nature论文奖励3万美元引用约三千了 JPA Ioannidis 2005O网页链接//@JYaoTheGunner: 结合Why Most Published Research Findings Are False食用风味更佳……

引用过万提出Gibbs采样和证明模拟退火收敛性PAMI84模式识别兄弟Geman(哥Donald; 弟Stuart,博导Chernoff) PNAS15计算机视觉系统的图灵测试, 问答方式而不是检测和定位的准确性O网页链接

Hinton机器学习课程 1)本科(课件在coursera): mini-batch梯度下降动量法自适应学习率序列建模训练RNN的难点 Dropout 噪音作为正则化子语义哈希 2)研究生: 变分贝叶斯的起源基于能量的模型深度神经网络识别对象词和文档建模协同过滤前馈网络和RNN等价性非线性维度约简O网页链接

【针对大数据/数据挖掘/数据科学工具共同使用情况的调查(挖掘)】《Which Big Data, Data Mining, and Data Science Tools go together?》O网页链接

【Maxout Networks的(交互式)介绍】《Maxout Networks》O网页链接

【基于Chainer实现的多层感知机验证码识别】O网页链接

【基于Spark的并行随机学习算法开发框架Splash】by Yuchen ZhangO网页链接GitHub:O网页链接

【大规模机器学习技术】本报告将向大家分享了大规模机器学习和数据挖掘方面的话题和研发成果，将以广告大数据上的点击率预估，介绍大规模机器学习与传统机器学习问题的区别，大规模机器学习面临的问题，大规模机器学习的过程，并介绍最新的大规模机器学习技术。O网页链接

【深度学习对抗样本的误解与事实】《Deep Learning Adversarial Examples – Clarifying Misconceptions》by Ian Goodfellow [Google]O网页链接提供的译文《深度学习对抗样本的八个误解与事实》O网页链接

最新对Nvidia Maxwell架构提供多GPU支持的0.9版发布【Nervana Systems的开源深度学习框架neon发布】值得关注！GitHub:O网页链接文档:O网页链接报道《Nervana open-sources its deep-learning software, says it outperforms Facebook, Nvidia tools》O网页链接横向评测结果O爱可可-爱生活

[视频]《General Sequence Learning using Recurrent Neural Networks》O网页链接Alec Radford讲的用RNN做文本序列分析(学习) 云:O网页链接Alec Radford的Passage:O爱可可-爱生活 clip.mn上的标注版本：O网页链接

【Airbnb的大规模数据科学研发】《At Airbnb, Data Science Belongs Everywhere: Insights from Five Years of Hypergrowth》O网页链接 "Data Isn’t Numbers, It’s People"

【视频:概率与偏见——缩小机器学习与概率编程的差距】《Probability and Prejudice: Bridging the Gap Between Machine Learning and Programming Languages》by Neil TorontoO网页链接

【高效实验和多臂老虎机】《Efficient Experimentation And The Multi-Armed Bandit》O网页链接

【Kaggle犯罪预测竞赛NB方案(top 33%)】《Machine learning to predict San Francisco crime》O网页链接

【论文:面向GPS定位数据做用户鉴别的时空技术】《Spatio-Temporal Techniques for User Identification by means of GPS Mobility Data》L Rossi, J Walker, M Musolesi (2015)O网页链接

【Spotify推深度个性化推荐服务Discover Weekly】《Spotify launches Discover Weekly personalised ‘mixtape’ playlist》“We’re just getting started when it comes to deep personalisation, lots more to come.”O网页链接

《How to Generate a Good Word Embedding?》论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型，并从模型、语料、参数三方面分析生成词向量的要点。论文地址：O网页链接中文导读：O网页链接

【论文:核插值可扩展结构化高斯过程 (KISS-GP)】《Kernel Interpolation for Scalable Structured Gaussian Processes (KISS-GP)》A Wilson, H Nickisch (ICML2015)O网页链接相关介绍文章《Kernel Interpolation for Scalable Structured Gaussian Processes》O网页链接

【《语音与语言处理》第三版(草稿)】《Speech and Language Processing, 3rd edition draft》by Jurafsky and MartinO网页链接北美最受欢迎的NLP教材之一的Jurafsky and Martin出新版啦

《爱可可老师今日视野(15.07.21)》（分享自@简书）O网页链接

【幻灯:归纳半监督学习及其NLP应用】《Inductive Semi-supervised Learning with Applicability to NLP》O网页链接

【基于Python/Flask的在线文本分析工作流】O网页链接

【基于表达式构建的神经网络框架penne】"Python Easy Neural Network Extruder"O网页链接

【熵、幂率与经济学】《Entropy, Power Laws, and Economics》by Tom Carter (2007)O网页链接云:O网页链接

【PyStruct实例:基于CRF链的OCR】《OCR Letter sequence recognition》O网页链接PyStruct请参阅O爱可可-爱生活

【Pandas与Spark DataFrames的比较】《6 Differences Between Pandas And Spark DataFrames》O网页链接

《LDA算法漫游指南》新书已经上架（最专业的算法分析，最具实用价值的算法应用）：O网页链接想起了当年@rickjin出品《LDA数学八卦》的盛况O网页链接你还在从PRML抠狄利特雷，多项式分布，吉布斯采样吗？这本全括了《LDA算法漫游指南》强烈推荐！挺好的，能加上lightlda 就更好了。

【开源:基于Chainer实现的Deep Q-Networks】"DQN-chainer"O网页链接自动游戏视频《Deep Q-Network Nature ver. Pong》:O网页链接云:O网页链接

【Kaggle竞赛技巧与总结(汇总)】《Kaggle Competition Tips And Summaries》O网页链接

【论文+代码:CNN用于图像识别/目标检测的深入分析(比较)】《Return of the Devil in the Details: Delving Deep into Convolutional Nets》K Chatfield, K Simonyan, A Vedaldi, A Zisserman (BMVC2014)O网页链接项目主页(代码+模型数据):O网页链接 Lasagne下应用该文数据的实例：O网页链接云(转换后的训练模型数据):O网页链接

【开源:基于Numpy/Scipy/Theano/Matplotlib的sklearn-theano】O网页链接GitHub:O网页链接相关文章《使用sklearn-theano来做object detection目标检测 (OverFeat)》O网页链接

【"Methods for Improving Bayesian Optimization for AutoML】"Machine Learning for Automated Algorithm Design, 自动机器学习，自动进行算法选择和参数调整，paper:O网页链接code:O网页链接

最后编辑于：2017.11.27 03:09:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 210,978评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 89,954评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,623评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,324评论 1赞 282
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,390评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,741评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,892评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,655评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,104评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,451评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,569评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,254评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,834评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,725评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,950评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,260评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,446评论 2赞 348

2015-7-21 收集资料

推荐阅读更多精彩内容