240 发简信
IP属地:香港
  • 只是看起来很努力,是别人写过的一篇文章

    你很努力,但也只是看起来而已

    01 在朋友圈,经常可以看到别人晒努力:“任务太多,今晚要奋战到半夜了。”“忙碌了一天,连一口饭也没有吃。”“最近写论文,每天熬夜,熬得黑眼圈都出来了。” …… 乍一看,大家...

  • 120
    程序员的日常 | 我在帝都的时间流水

    时间的箭头一直向前,不停歇。转眼间,毕业参加工作快两年—— 21个月。不知为什么,工作后每周过得都很快,甚至感觉每周就像一天,循环往复,让人感叹匆匆,却又无能为力。 90后2...

  • 当我27岁, 我在想什么?

    今年,我27岁。 虽然我的身份证是1991年,但是却是虚假的,其实,我是1990年出生的,所以,我27岁了。但是,我从来不会告诉别人。 你看,人到了27岁,连一岁都必须瞒着,...

  • 我有个疑问:
    官网原文
    A DataFrame is a Dataset organized into named columns. It is conceptually equivalent to a table in a relational database or a data frame in R/Python, but with richer optimizations under the hood. DataFrames can be constructed from a wide array of sources such as: structured data files, tables in Hive, external databases, or existing RDDs. The DataFrame API is available in Scala, Java, Python, and R. In Scala and Java, a DataFrame is represented by a Dataset of Rows. In the Scala API, DataFrame is simply a type alias of Dataset[Row]. While, in Java API, users need to use Dataset<Row> to represent a DataFrame.
    其中两句:
    DataFrame is represented by a Dataset of Rows
    A DataFrame is a Dataset organized into named columns
    意思是不是DataFrame是DataSet的子集,而不是DataSet是DataFrame的特例?

    RDD、DataFrame和DataSet的区别

    spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFram...

  • @掂吾掂 这里hdfs配置是namenode上也运行datanode,yarn也是。不过spark配置Master上没有运行Worker节点,因为发现如果这样做了,Master会很慢,提交作业有时也会失败。

    Spark on Yarn集群搭建详细过程

    由于最近学习大数据开发,spark作为分布式内存计算框架,当前十分火热,因此作为首选学习技术之一。Spark官方提供了三种集群部署方案: Standalone, Mesos,...

  • 120
    Spark on Yarn集群搭建详细过程

    由于最近学习大数据开发,spark作为分布式内存计算框架,当前十分火热,因此作为首选学习技术之一。Spark官方提供了三种集群部署方案: Standalone, Mesos,...