WHO behind the malign and attack on ELM, GOAL of the attack and ESSENCE of ELM:O网页链接和O网页链接
“Mining of Massive Datasets” 官网O网页链接,英文好的同学也可以直接看最新的英文版材料,包括斯坦福大数据相关课程资料以及两个版本的英文ebook,官网已经无私放出 斯坦福大学“web挖掘”课程精华,聚焦大规模数据挖掘。内容包括分布式文件系统、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。试读:O【试读】《大数据:互联网大规模数据挖掘与分布式处理(第2版)》.pdf
论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型,并从模型、语料、参数三方面分析生成词向量的要点。论文地址:O网页链接中文导读:O网页链接 补充一个 Strategies for Training Large Scale Neural Network Language ModelsO网页链接
我发表了文章 <IJCAI-15文本摘要论文5篇>OIJCAI-15文本摘要论文5篇Multi-Document Abstractive Summarization Using ILP based Multi-Sentence Compression, Siddhartha Banerjee, The Pennsylvania State University.O网页链接Reader-Aware Multi-Document Summ
[ICML15] Universal Value Function ApproximatorsO网页链接DeepMind出品。先对少量目标学习值函数,再推广到整个目标空间。在吃豆游戏上实验,学会若干次吃掉某一个豆后,可推广到吃掉另一个豆,看来要吃完所有豆,DeepMind还有很长的路要走……
【新机器学习应用的意外后果和负面影响】《The Unintended Consequences and Negative Impact of New Machine Learning Applications》by Guy LebanonO网页链接
【教程+代码:非参数贝叶斯统计/狄利克雷过程/组合随机过程特征/聚类】"Nonparametric Bayesian Statistics(MLSS2015)"、"Clusters and features from combinatorial stochastic processes"、"Machine learning crash course part II: clustering" by Tamara BroderickO网页链接
【视频:NAACL2015】O网页链接
【视频:NAACL2015最佳论文《Retrofitting Word Vectors to Semantic Lexicons》】《Retrofitting Word Vectors to Semantic Lexicons》[CMU]O网页链接更多NAACL2015视频请参阅O爱可可-爱生活
【SVD教程】《Singular Value Decomposition Tutorial》by Kirk BakerO网页链接云:O网页链接
深入对话DeepMind创始人O网页链接
深入探索 IBM 数据分析和预测软件 – PASW Modeler O网页链接
K-means算法及文本聚类实践 | 一起大数据 无处不在的聚类 O网页链接
【论文:面向LDA的增量变分推断】《Incremental Variational Inference for Latent Dirichlet Allocation》C Archambeau, B Ermis (2015)O网页链接
NVIDIA Deep Learning Course |O网页链接免费的,有人想注册看看不。将介绍Caffe、Theano和Torch三大主流DL框架。
从Twitter上看到Dato的SFrame和SGraph会直接BSD开源(目前是AGPL)O网页链接。这是目前唯一的的优化外存计算的DataFrame,单机处理TB级别数据。靠压榨单机极限处理百分之八十的问题,才可以用更少的机器处理分布式机器学习。这才是DataFrame 的未来@Gossip_useR@Jay_Dato机器学习
edX上的“Scalable Machine Learning”将于下周一(6月29日开课)O网页链接,今早收到邮件提醒,week0的资料已经放出,主要包括课程的大致介绍,环境的设置,以及与另一门Spark课程“Introduction to Big Data with Apache Spark”O网页链接的关系,感兴趣的同学可以关注。
近日,阿里巴巴无线事业部推出首个重量级Android开源项目,名为Dexposed,是一个Android平台下的无侵入运行期AOP框架。旨在解决像性能监控、在线热补丁等移动开发常见难题:O网页链接,项目主页:O网页链接
《一个数据科学家的这些年》O网页链接
大规模机器学习技术 百度 夏粉 视频O网页链接
We are data: the future of machine intelligenceO网页链接
从Twitter上看到Dato的SFrame和SGraph会直接BSD开源(目前是AGPL)O网页链接。这是目前唯一的的优化外存计算的DataFrame,单机处理TB级别数据。靠压榨单机极限处理百分之八十的问题,才可以用更少的机器处理分布式机器学习。这才是DataFrame 的未来@Gossip_useR@Jay_Dato机器学习
本来觉得lda已经没有什么意思了,最近发现实际场景用好也非常重要且有趣。以前太慢,工业级成功案例并不多,现在速度不再是约束,希望lda在大规模应用中发挥出它的优势,特别是无监督学习独特的优势,直到它成为最有用的十个机器学习算法之一,取代svd在协同推荐中角色。适合推动这个发展的人不多。。
在CF中的主要角色已经从传统的MF转化到基于特征的分解模型(svdfeature, fm)和匹配模型,通过特征获得更简单的定制,在这点上是LDA的短板。不过反过来说,因为定制不容易,所以容易发论文。
论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型,并从模型、语料、参数三方面分析生成词向量的要点。论文地址:O网页链接中文导读:O网页链接 我感觉不是数据越小简单模型越好,而是数据越稀疏简单模型越好。一个大规模数据如果平均每个对象出现次数非常少,应该还是简单模型好。//@鲁东东胖: //@董力xp: 1. 语料比模型选择更重要2.语料领域比规模更重要3.数据越小,简单模型越好4.对具体任务,一般50维以上提升变小5.模型迭代次数选择很重要。
Visual Studio 2015正式版完美公布,如果你错过了昨晚的发布会,小编已经为你准备好了精华提炼完整版,赶紧戳链接了解详情,不然你今天就Out啦~O每一位攻城狮都不能错过的Visual Studio 2015正式版#VS2015#下载地址:O网页链接
适合码农看的机器学习介绍,长文慎入:Machine Learning for Developers by Mike de WaardO网页链接
一个新的近似最近邻Python库: a new out-of-memory ANN search toolO网页链接
关于multi-armed bandit的有意思介绍 :Efficient experimentation and the multi-armed banditO网页链接
DeepMind: inside Google's super-brain (Wired UK)O网页链接
Visual Studio 2015 是一个超级棒的跨平台移动应用开发工具,对Cordova,Xamarin , C++的跨平台支持都非常好。让你通过一个工具完成了iOS ,Android ,Windows 三个平台的应用。#VS2015#@微软中国MSDN 奏事介么牛X!!赶紧用起来,下载地址:O网页链接
Tumblr定向广告用户建模: 性别和商业兴趣(标签,关键词;半监督神经语言模型Semi-supervised skip-gram) O网页链接
编译器词法分析Lex、C语言标准I/O库前身、对C语言发展有重要贡献的Mike Lesk 1996年文章:信息检索的七个时代 从V.Bush1945到2010, 65岁的一生: 童年45-55 在校生60s 成年70s 成熟80s 中年危机90s 成就00s 退休10sO网页链接
编译器词法分析Lex、C语言标准I/O库前身、对C语言发展有重要贡献的Mike Lesk在PNAS15发表评论文章:有多少论文不是原创的O网页链接1)文章提到arXiv的抄袭 2)文章说浙大为发表在Science或Nature论文奖励3万美元 引用约三千了 JPA Ioannidis 2005O网页链接//@JYaoTheGunner: 结合Why Most Published Research Findings Are False食用风味更佳……
引用过万提出Gibbs采样和证明模拟退火收敛性PAMI84模式识别兄弟Geman(哥Donald; 弟Stuart,博导Chernoff) PNAS15计算机视觉系统的图灵测试, 问答方式而不是检测和定位的准确性O网页链接
Hinton机器学习课程 1)本科(课件在coursera): mini-batch梯度下降 动量法 自适应学习率 序列建模 训练RNN的难点 Dropout 噪音作为正则化子 语义哈希 2)研究生: 变分贝叶斯的起源 基于能量的模型 深度神经网络识别对象 词和文档建模 协同过滤 前馈网络和RNN等价性 非线性维度约简O网页链接
【针对大数据/数据挖掘/数据科学工具共同使用情况的调查(挖掘)】《Which Big Data, Data Mining, and Data Science Tools go together?》O网页链接
【Maxout Networks的(交互式)介绍】《Maxout Networks》O网页链接
【基于Chainer实现的多层感知机验证码识别】O网页链接
【基于Spark的并行随机学习算法开发框架Splash】by Yuchen ZhangO网页链接GitHub:O网页链接
【大规模机器学习技术】本报告将向大家分享了大规模机器学习和数据挖掘方面的话题和研发成果, 将以广告大数据上的点击率预估,介绍大规模机器学习与传统机器学习问题的区别,大规模机器学习面临的问题,大规模机器学习的过程,并介绍最新的大规模机器学习技术。O网页链接
【深度学习对抗样本的误解与事实】《Deep Learning Adversarial Examples – Clarifying Misconceptions》by Ian Goodfellow [Google]O网页链接 提供的译文《深度学习对抗样本的八个误解与事实》O网页链接
最新对Nvidia Maxwell架构提供多GPU支持的0.9版发布【Nervana Systems的开源深度学习框架neon发布】值得关注!GitHub:O网页链接文档:O网页链接报道《Nervana open-sources its deep-learning software, says it outperforms Facebook, Nvidia tools》O网页链接横向评测结果O爱可可-爱生活
[视频]《General Sequence Learning using Recurrent Neural Networks》O网页链接Alec Radford讲的用RNN做文本序列分析(学习) 云:O网页链接Alec Radford的Passage:O爱可可-爱生活 clip.mn上的标注版本:O网页链接
【Airbnb的大规模数据科学研发】《At Airbnb, Data Science Belongs Everywhere: Insights from Five Years of Hypergrowth》O网页链接 "Data Isn’t Numbers, It’s People"
【视频:概率与偏见——缩小机器学习与概率编程的差距】《Probability and Prejudice: Bridging the Gap Between Machine Learning and Programming Languages》by Neil TorontoO网页链接
【高效实验和多臂老虎机】《Efficient Experimentation And The Multi-Armed Bandit》O网页链接
【Kaggle犯罪预测竞赛NB方案(top 33%)】《Machine learning to predict San Francisco crime》O网页链接
【论文:面向GPS定位数据做用户鉴别的时空技术】《Spatio-Temporal Techniques for User Identification by means of GPS Mobility Data》L Rossi, J Walker, M Musolesi (2015)O网页链接
【Spotify推深度个性化推荐服务Discover Weekly】《Spotify launches Discover Weekly personalised ‘mixtape’ playlist》“We’re just getting started when it comes to deep personalisation, lots more to come.”O网页链接
《How to Generate a Good Word Embedding?》 论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型,并从模型、语料、参数三方面分析生成词向量的要点。论文地址:O网页链接中文导读:O网页链接
【论文:核插值可扩展结构化高斯过程 (KISS-GP)】《Kernel Interpolation for Scalable Structured Gaussian Processes (KISS-GP)》A Wilson, H Nickisch (ICML2015)O网页链接 相关介绍文章《Kernel Interpolation for Scalable Structured Gaussian Processes》O网页链接
【《语音与语言处理》第三版(草稿)】《Speech and Language Processing, 3rd edition draft》by Jurafsky and MartinO网页链接 北美最受欢迎的NLP教材之一的Jurafsky and Martin出新版啦
《爱可可老师今日视野(15.07.21)》( 分享自@简书)O网页链接
【幻灯:归纳半监督学习及其NLP应用】《Inductive Semi-supervised Learning with Applicability to NLP》O网页链接
【基于Python/Flask的在线文本分析工作流】O网页链接
【基于表达式构建的神经网络框架penne】"Python Easy Neural Network Extruder"O网页链接
【熵、幂率与经济学】《Entropy, Power Laws, and Economics》by Tom Carter (2007)O网页链接云:O网页链接
【PyStruct实例:基于CRF链的OCR】《OCR Letter sequence recognition》O网页链接PyStruct请参阅O爱可可-爱生活
【Pandas与Spark DataFrames的比较】《6 Differences Between Pandas And Spark DataFrames》O网页链接
《LDA算法漫游指南》新书已经上架(最专业的算法分析,最具实用价值的算法应用):O网页链接 想起了当年@rickjin出品《LDA数学八卦》的盛况O网页链接 你还在从PRML抠狄利特雷,多项式分布,吉布斯采样吗?这本全括了 《LDA算法漫游指南》 强烈推荐! 挺好的,能加上lightlda 就更好了。
【开源:基于Chainer实现的Deep Q-Networks】"DQN-chainer"O网页链接自动游戏视频《Deep Q-Network Nature ver. Pong》:O网页链接云:O网页链接
【Kaggle竞赛技巧与总结(汇总)】《Kaggle Competition Tips And Summaries》O网页链接
【论文+代码:CNN用于图像识别/目标检测的深入分析(比较)】《Return of the Devil in the Details: Delving Deep into Convolutional Nets》K Chatfield, K Simonyan, A Vedaldi, A Zisserman (BMVC2014)O网页链接项目主页(代码+模型数据):O网页链接 Lasagne下应用该文数据的实例:O网页链接云(转换后的训练模型数据):O网页链接
【开源:基于Numpy/Scipy/Theano/Matplotlib的sklearn-theano】O网页链接GitHub:O网页链接相关文章《使用sklearn-theano来做object detection目标检测 (OverFeat)》O网页链接
【"Methods for Improving Bayesian Optimization for AutoML】"Machine Learning for Automated Algorithm Design, 自动机器学习,自动进行算法选择和参数调整,paper:O网页链接code:O网页链接