240 发简信
wlu
IP属地:江苏
  • 120
    kaggle:gbdt 和 random forest 和xgboost

    通常决定一个机器学习模型能不能取得好的效果,以下三个方面的因素缺一不可。 1.理论模型(站在vc-dimension的角度) 2.实际数据 3.系统的实现(主要基于xgboo...

  • 120
    Apache Geode with Spark

    在一些特定场景,例如streamingRDD需要和历史数据进行join从而获得一些profile信息,此时形成较小的新数据RDD和很大的历史RDD的join。Spark中直接...

  • Dremel made simple with Parquet

    Dremel made simple with ParquetBy @J_Wednesday, 11 September 2013 [ ](https://blog.twit...

  • 120
    Debezium for PostgreSQL to Kafka

    In this article, we discuss the necessity of segregate data model for read and write a...