AutoML 的优点可归纳为三大要点: 通过自动执行的重复性任务来 提高工作效率。这使得数据科学家能够更多地关注问题而不是模型。 自动化 ML 管道还有助于 避免 可能因手动...
AutoML 的优点可归纳为三大要点: 通过自动执行的重复性任务来 提高工作效率。这使得数据科学家能够更多地关注问题而不是模型。 自动化 ML 管道还有助于 避免 可能因手动...
所谓分子对接就是两个或多个分子之间通过几何匹配和能量匹配而相互识别的过程。在药物分子产生药效反应的过程中,药物分子与靶酶相互结合,首先就需要两个分子充分接近,采取合适的取向,...
药物研究及计算机辅助药物分子设计 药物研发和开发的历史与现状 现代药物研究可以归纳为如下几个阶段:20世纪40~60年代,主要药物研究是从大量合成的化合物或天然产物中筛选药物...
利用计算机集群,使机器学习算法更好地从大数据中训练出性能优良的大模型是分布式机器学习的目标。为了实现这个目标,一般需要根据硬件资源与数据/模型规模的匹配情况,考虑到计算任务、...
数据挖掘流程 (一)数据读取 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成的任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,...
特征选择主要的两个功能: 减少特征数量,降维,使模型泛化能力更强,减少过拟合。 增强对特征和特征值之间的理解 去掉取值变化小的特征(Removing features wit...
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。 极大似然估计提供了一种给定观察数据来评估模型参数的方法,...
前言 Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。 对于输入数据不敏感 -->是统计学家到数据科学家必备工具之一 计算复杂度不高 --> 也在工业界中...
资产证券化与区块链有一个很好的结合点,区块链被人们认识主要起源于比特币,比特币的本质是数字货币,区块链的本质在于它是一个分布式账本,而货币系统本身即是一个账本,这是他们能够天...
首先我们介绍一种用于分词的基础算法,该算法是一个最短路径搜索图的算法,算法本身可以使用的场景很多,比如旅行商问题,物流配送问题,等等。这里主要介绍其在分词场景中的应用。拓展在...
在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。不过这些应用,都是由多到少的生成。这里我们介绍另外一种应...
贝叶斯模型实现拼音汉字混合识别模型 HMM模型实现拼音汉字混合识别 HMM由两个部分组成,马尔可夫链和一般随机过程。其中马尔可夫链用来描述状态的转移,在模型中用转移概率矩阵来...
FP-Growth算法实现词距离计算 对于句式非常整齐,有很强的规律性。而对于这种句式的挖掘,有一类算法非常擅长,那就是频繁模式的数据挖掘算法。 N-Gram算法实现词距离计...
决策树算法实现自动摘要 决策树其实可以分为分类树和回归树两类,分类树是指输出每个样本的类别,而回归树则是值输出数值结果。在应用中,决策树通常是基于一套规则来将数据分门别类,在...
基于互信息和左右信息熵实现短语抽取 信息熵是对于分布纯净度的一个度量,这个值随着分布的纯净增加而降低。基于信息熵的这一特性,用于衡量两个词是不是经常组合在一起的情况,若两个词...
TF-IDF算法实现关键词抽取 TF-IDF(term frequency-inverse document frequency)是一种用于咨询检索与资讯探勘的常用加权技术。...