最近有一项工作,保存 Excel 格式的电子表格至 postgresql 的数据表,要求使用 Java 编写一段代码把这事办了。
如果 Java 不是问题,那么关于这事的一个简单想法是:首先,Excel 格式有点复杂了,改成 CSV 格式。之后,第一步就是打开CSV文件;第二步读取指定列;第三步写数据库。
但 java 真的是个问题,无他只因不会。关于 Java ,有个网站 Java Tutorials Learning Paths 内容很好,只是有点老 Java 8 版本。另外 Head First 系列有 Java 版,这个更老 Java 5. 这本我有,可以留言。
我看 Java 的主要特性,如虚拟机、一次编译到处运行什么的都无所谓。重点是 Java 是基于类的面向对象语言,这点与 C++ 类似,与 Js 不同。但是 Java 比 C++ 彻底,或者说更纯粹,浓郁的90年代现代化的感觉。
Unix 一切皆文件,Windows 一切皆视窗,Java 一切皆对象。
对象 Object 是什么?
==对象是类的实例或数组。== 但要注意的是 Java 中,所有类的基类名为 class Object,即 java.lang.Object ,此对象非彼对象。
好,知道了什么是对象,约等于我们学会了 Java,接下来的问题就简单了。
怎么打开 CSV 文件?
JDK 中没有原生库支持 CSV 操作。习惯 Python 的,可能有点不爽了。但这也不是什么大事,Apache Commons CSV 库也很标准。
下面是一个解析 Excel CSV File 文件的例子:
Reader in = new FileReader("path/to/file.csv");
Iterable<CSVRecord> records = CSVFormat.EXCEL.parse(in);
for (CSVRecord record : records) {
String lastName = record.get("Last Name");
String firstName = record.get("First Name");
}
这个例子很简单,对于只学习了 5 分钟 Java 的人,也能看懂。
但我还是想问一下 FileReader 类到底是什么?
FileReader 类是为了方便读取字符文件而存在的。这种便利来自于构造器假设了字符编码与字节缓冲器的尺寸。若要自定义这些参数,需在 FileInputStream 上构造 InputStreamReader 。是不是很神奇?刚才还是完全理解的,现在又好像什么都不懂了。
这需要先了解一下 Java 是怎么处理 IO 的。这里,Java 引入了 I/O Stream 这一概念,用来抽象描述 IO 操作。所以,流可以表示不同的源与目的,包括磁盘上的文件,设备,其它程序,内存数组等,同时支持多种数据类型。这有点 Unix 中文件的意思。流的本质是数据序列。关于数据序列是如何而来这样的细节对于消费者是不应该去关心的。
字节流是最基础的一类流。程序使用字节流完成 8-比特字节的输入与输出。所有字节流类始于 InputStream 与 OutputStream,它们同为抽象类。
这里又有了新问题,什么是抽象类?
抽象类是被 abstract 修饰声明的类。
- 抽象类可以不包含抽象方法。
- 包含抽象方法的类必为抽象类。
- 抽象类可继承不可实例。
当一个抽象类被继承时,其子类通常提供父类所有抽象方法的实现。若不如此,子类也需用 abstract 修饰声明。
接口中的方法,若匪经 default 或 static 修饰声明,则意为抽象,因此 abstract 未见于接口方法。
虽然 Python 中所有类的基类也名为 class Object ,但它确实没有抽象类,也没有接口。而 python 的 metaclasses java 似乎也没有。也许应该用 C++ 或 C# 来类比。可是谁又会那些呢。
参见 python java 类定义对比。
一段字节流的示例代码:
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
public class CopyBytes {
public static void main (String[] args) throws IOException {
FileInputStream in = null;
FileOutputStream out = null;
try {
in = new FileInputStream("xanadu.txt");
out = new FileOutputStream("outagain.txt");
int c;
while ((c = in.read()) != -1) {
out.write(c);
}
} finally {
if (in != null) {
in.close();
}
if (out != null) {
out.close();
}
}
}
}
这个例子很简单,对于只学习了 5 分钟 Java 的人,真的能看懂。
这段示例中,花费最多时间的部分目的在于一次一字节的读取输入流写入输出流。
这段示例中,花费最多代码的部分目的在于帮助避免严重的资源泄漏,因为当不在需要时正确的关闭流是非常重要的。
这段代码看起来像是一个正常的程序,但它实际代表着一种低阶 I/O ,这是应该避免的。因为 xanadu.txt 文件包含的是字符数据,因此最好的方法是使用字符流 character streams ,这是一种为更复杂的数据类型而准备的流。字节流仅应用于最基础的 I/O 。
既然如此,为何还要讲 byte streams ?因为,其它的所有流类型都构建在字节流之上。
所有字符流类始于 Reader 与 Writer,它们同为抽象类。这两个名字挺有意思,是因为对于人类来说,字符与字节相比有了意义,才称为读者与作者吗?
一段字符流的示例代码:
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
public class CopyCharacters {
public static void main(String[] args) throws IOException {
FileReader inputStream = null;
FileWriter outputStream = null;
try {
inputStream = new FileReader("xanadu.txt");
outputStream = new FileWriter("characteroutput.txt");
int c;
while ((c = inputStream.read()) != -1) {
outputStream.write(c);
}
} finally {
if (inputStream != null) {
inputStream.close();
}
if (outputStream != null) {
outputStream.close();
}
}
}
}
这个例子很简单,对于只学习了 5 分钟 Java 的人,真的能看懂。
有没有既视感? Character Streams 与 Byte Streams 的示例代码相似度很高。找茬是个有意思的游戏。
字符流使用字节流完成物理 I/O ,字符流处理字符与字节之间的转换。
前文提到的 InputStreamReader 与 OutputStreamWriter 是两个通用目的 byte-to-character 的桥接流。也是 FileReader 与 FileReader 的父类。