为什么poi3.8 jar包免费下载版本去除了close操作

POI3.8组件研究(九)----让POI架起Java与Office之间的桥梁 - topMan'blog - ITeye技术网站
博客分类:
本文将阐述如何用POI来读取/写入完整的Excel文件。
  约定:POI项目2.0版现在已经接近正式发行阶段,开发进度迅速,不断有新的功能集成到原有的系统,同时也有对原有系统的修改。
  为了保证本文的及时性,本文将按照最近的1.9开发版说明。虽然编译最近的发行版源代码也能正常运行,但现在的代码和2.0的发行版会有一些出入。
  一、Excel基础
  Microsoft Excel 97文件格式也被称为BIFF8,最近版本的Excel只对该格式作了少量的改动。增加对新格式的支持除了增加项目的复杂性之外,唯一的效果也许只是不得不使每个用户升级代码,没有什么实际的好处。
  因此,在下文说明中,凡是提到Excel 97格式的地方其实都是指Excel从97到XP的格式。
  二、HSSF概况
 POI项目实现的Excel 97文件格式称为HSSF??也许你已经猜到,HSSF是Horrible SpreadSheet
Format的缩写,也即“讨厌的电子表格格式”(微软使某些原本简单的事情过分复杂,同时又过分简单地处理了某些原本需要灵活性的事情,让人不胜佩
  也许HSSF的名字有点滑稽,就本质而言它是一个非常严肃、正规的API。通过HSSF,你可以用纯Java代码来读取、写入、修改Excel文件。
 前面一篇文章提到了POIFS,那么HSSF和POIFS又有什么关系呢?就象其他POI的API一样,HSSF建立在POIFS的基础上,因此在
HSSF内的有些代码和前文的某些代码很相似。不过,当我们编写基于HSSF API的代码时,一般不需要了解POIFS API的细节。
 HSSF为读取操作提供了两类API:usermodel和eventusermodel,即“用户模型”和“事件-用户模型”。前者很好理解,后者比
较抽象,但操作效率要高得多。usermodel主要有org.apache.poi.hssf.usermodel和
org.apache.poi.hssf.eventusermodel包实现(在HSSF的早期版本
中,org.apache.poi.hssf.eventusermodel属于eventmodel包)。
  usermodel
包把Excel文件映射成我们熟悉的结构,诸如Workbook、Sheet、Row、Cell等,它把整个结构以一组对象的形式保存在内存之中。
eventusermodel要求用户熟悉文件格式的底层结构,它的操作风格类似于XML的SAX
API和AWT的事件模型(这就是eventusermodel名称的起源),要掌握窍门才能用好。
  另外,eventusermodel的API只提供读取文件的功能,也就是说不能用这个API来修改文件。
  三、通过usermodel读取文件
  用HSSF的usermodel读取文件很简单。首先创建一个InputStream,然后创建一个HSSFWorkbook:
  InputStream myxls = new FileInputStream("workbook.xls"));
  HSSFWorkbook wb   = new HSSFWorkbook(myxls);
  有了HSSFWorkbook实例,接下来就可以提取工作表、工作表的行和列,例如:
  HSSFSheet sheet = wb.getSheetAt(0);    // 第一个工作表
  HSSFRow row   = sheet.getRow(2);    // 第三行
  HSSFCell cell  = row.getCell((short)3); // 第四个单元格
  上面这段代码提取出第一个工作表第三行第四单元格。利用单元格对象可以获得它的值,提取单元格的值时请注意它的类型:
  if (cell.getCellType() == HSSFCell.CELL_TYPE_STRING) {
  ("单元格是字符串,值是: " + cell.getStringCellValue());
  } else if (cell.getCellType() == HSSFCell.CELL_TYPE_NUMERIC) {
  ("单元格是数字,值是: " + cell.getCellValue());
  } else () {
  ("单元格的值不是字符串或数值。");
  如果搞错了数据类型,程序将遇到异常。特别地,用HSSF处理日期数据要小心。Excel内部以数值的形式保存日期数据,区别日期数据的唯一办法是通过单元格的格式(如果你曾经在Excel中设置过日期格式,应该明白这是什么意思)。
 因此,对于包含日期数据的单元格,cell.getCellType()将返回HSSFCell.CELL_TYPE_NUMERIC,不过利用工具函
数HSSFDateUtil.isCellDateFormatted(cell)可以判断出单元格的值是否为日期。
isCellDateFormatted函数通过比较单元格的日期和Excel的内置日期格式得出结论??可以想象,按照这种判断方法,很多时候
isCellDateFormatted函数会返回否定的结论,存在一定的误判可能。
  本文附录包含了一个在Servlet环境中利用HSSF创建和返回Excel工作簿的实例。
  四、通过usermodel写入文件
  写入XLS文件比读取XLS文件还要简单。创建一个HSSFWorkbook实例,然后在适当的时候创建一个把文件写入磁盘的OutputStream,但延迟到处理结束时创建OutputStream也可以:
  HSSFWorkbook wb = new HSSFWorkbook();
  FileOutputStream fileOut
  = new FileOutputStream("workbook.xls");
  wb.write(fileOut);
  fileOut.close();
  创建工作表及其内容必须从相应的父对象出发,例如:
  HSSFSheet sheet = wb.createSheet();
  HSSFRow row   = sheet.createRow((short)0);
  HSSFCell cell  = row.createCell((short)0);
  cell.setCellValue(1);
  row.createCell((short)1).setCellValue(1.2);
  row.createCell((short)2).setCellValue("一个字符串");
  row.createCell((short)3).setCellValue(true);
 如果要设置单元格的样式,首先要创建一个样式对象,然后把它指定给一个单元格??或者把它指定给多个具有相同样式的单元格,例如,如果Excel表格中
有一个摘要行,摘要行的数据必须是粗体、斜体,你可以创建一个summaryRowStyle样式对象,然后把这个样式指定给所有摘要行上的单元格。
  注意,CellFormat和CellStyle对象是工作簿对象的成员,单元格对象只是引用它们。
  HSSFCellStyle style = workbook.createCellStyle();
  style.setDataFormat
  (HSSFDataFormat.getBuiltinFormat("($#,##0_);[Red]($#,##0)"));
  style.setFillBackgroundColor(HSSFColor.AQUA.index);
  style.setFillPattern(HSSFCellStyle.BIG_SPOTS);
  someCell.setCellStyle(style);
  someOtherCell.setCellStyle(style);
  版本较新的HSSF允许使用数量有限的Excel公式。这一功能目前还是“Beta级质量”,正式使用之前务必仔细测试。指定公式的方式类如:someCell.setCellFormula(SUM(A1:A2:);。
  当前,公式中已经可以调用所有内建的函数或操作符,但逻辑操作符和函数(例如IF函数)除外,这部分功能目前还在开发之中。
  五、通过eventusermodel读取文件
  通过eventusermodel读取文件要比使用usermodel复杂得多,但效率也要高不少,因为它要求应用程序一边读取数据,一边处理数据。
 eventusermodel实际上模拟了DOM环境下SAX处理XML文档的办法,应用程序首先要注册期望处理的数据,eventusermodel
将在遇到匹配的数据结构时回调应用程序注册的方法。使用eventusermodel最大的困难在于你必须熟悉Excel工作簿的内部结构。
 在HSSF中,低层次的二进制结构称为记录(Record)。记录有不同的类型,每一种类型由org.apache.poi.hssf.record包
中的一个Java类描述。例如,BOFRecord记录表示Workbook或Sheet区域的开始,RowRecord表示有一个行存在并保存其样式信
  所有具有CellValueRecordInterface接口的记录表示Excel的单元格,包括
NumericRecord、LabelSSTRecord和FormulaRecord(还有其他一些,其中部分已被弃置不用,部分用于优化处理,但一
般而言,HSSF可以转换它们)。
  下面是一个注册事件处理句柄的例子:
  private EventRecordFactory factory = new EventRecordFactory();
  factory.registerListener(new ERFListener() {
  public boolean processRecord(Record rec) {
  (got BOF Record);
  }, new short[] {BOFRecord.sid});
  factory.processRecords(someInputStream);
  六、HSSF电子表格结构
 如前所述,HSSF建立在POIFS的基础上。具体地说,Excel 97+文件是OLE 2复合文档( OLE 2 Compound
Document),底层的OLE 2复合文档保存了一个总是命名为Workbook(Excel 95除外,HSSF不支持Excel 95)的流。
  然而,宏和图片并不保存在Workbook流,它们有自己独立的流,有时甚至会放到OLE 2 CDF文件之内的另一个目录。理想情况下,宏也应该被保留,不过目前POI项目中还没有合适的API来处理宏。
  每一个流之内是一组记录,一个记录其实就是一个字节数组,可分为记录头、记录体两部分。记录头指明了记录的类型(也即ID)以及后继数据的长度,记录体被分割成多个字段(Field),字段包含数值数据(包括对其他记录的引用)、字符数据或标记。
  Excel工作簿的顶级结构:
  Bla.xls {
  OLE2CDF headers
  "Workbook" stream {
  Workbook {
  Static String Table Record..
  Sheet names… and pointers
  Sheet {
  NUMBER RECORD (cell)
  LABELSST Record (cell)
  … images, macros, etc.
  Document Summary
  Summary
  七、通过HPSF读取文档属性
  在Microsoft Word、Excel、PowerPoint等软件中,用户可以通过“文件”→“属性”菜单给文档添加附加信息,包括文档的标题、主题、摘要、类别、关键词等,同时应用软件本身还会加入最后访问的用户、最后访问和修改/打印的日期时间等信息。
  文档的属性和正文是分开保存的。如前所述,OLE 2 CDF文件内部就象是一个容器,里面包含许多类似目录和文件的结构,而POIFS就是用来访问其中的文件的工具。这些文件也称为流,文档的属性就保存在POIFS文件系统中专用的流里面。
 以一个Word文档为例:虽然在资源管理器中你只看到一个叫做MyFile.doc的文档,其实在这个文档的内部,又包含了一个
WordDocument、一个SummaryInformation和一个DocumentSummaryInformation文档;通常还会有其他
的文档,这里暂且不管。
  你能够猜出这些文档(流)分别包含什么内容吗?不错,WordDocument包含了你在Word里面编
辑的文本,文档的属性保存在SummaryInformation和DocumentSummaryInformation流里面。也许将所有属性保存在
单个文档里面看起来太简单了,所以Microsoft决心要使用两个流,为了使事情更复杂一点,这两个流的名字前面还加上了八进制的\005字符??这是
一个不可打印的字符,因此前面就把它省略了。
  Microsoft定义的标准属性有一个好处,它们并不在乎主文档到底是什么类型??不管是Word文档、Excel工作簿还是PowerPoint幻灯。只要你知道如何读取Excel文档的属性,就知道了如何读取其他文档的属性。
  读取文档属性其实并不复杂,因为Java程序可以利用POI项目的HPSF包。HPSF是 Horrible Property Set Format的缩写,译成中文就是“讨厌的属性集格式”。HPSF包是POI项目实现的读取属性工具,目前还不支持属性写入。
 对于读取Microsoft定义的标准属性,通过HPSF提供的API可以很方便地办到;但如果要读取任意属性集就要用到更一般化的API,可以想象它
要比读取标准属性的API复杂不少。本文只介绍读取标准属性的简单API,因为对大多数应用程序来说这已经完全足够了。
  下面就是一个读取OLE 2 CDF文档的标题(title)属性的Java程序:
  import java.io.*;
  import org.apache.poi.hpsf.*;
  import org.apache.poi.poifs.eventfilesystem.*;
  * 读取OLE 2文档标题的示例程序,
  * 在命令行参数中指定文档的文件名字。
  public class ReadTitle
  public static void main(String[] args) throws IOException
  final String filename = args[0];
  POIFSReader r     = new POIFSReader();
  r.registerListener(new MyPOIFSReaderListener(),
  "\005SummaryInformation");
  r.read(new FileInputStream(filename));
  static class MyPOIFSReaderListener
  implements POIFSReaderListener
  public void processPOIFSReaderEvent(POIFSReaderEvent event)
  SummaryInformation si =
  si = (SummaryInformation)
  PropertySetFactory.create(event.getStream());
  catch (Exception ex)
  throw new RuntimeException
  ("属性集流\"" + event.getPath() +
  event.getName() + "\": " + ex);
  final String title = si.getTitle();
  if (title != null)
  System.out.println("标题: \"" + title + "\"");
  System.out.println("该文档没有标题.");
 main()方法利用POIFS的事件系统从命令行指定的OLE
2文档读取名为\005SummaryInformation的流,当POIFSReader
遇到这个流时,它把控制传递给MyPOIFSReaderListener的processPOIFSReaderEvent()方法。
  processPOIFSReaderEvent()到底有什么用呢?它通过参数获得一个输入流,该输入流包含了文档标题等属性。为了访问文档的属性,我们从输入流创建一个PropertySet实例,如下所示:
  si = (SummaryInformation) PropertySetFactory.create(event.getStream());
  这个语句其实包含三个步骤的操作:
  ◆ event.getStream()从POIFSReader传入的POIFSReaderEvent获得输入流。
以刚才获得的输入流为参数,调用PropertySetFactory的静态方法create()。正如其名字所暗示
的,PropertySetFactory是一个工厂类,它有一台“机器”能够把一个输入流转换成一个PropertySet实例,这台机器就是
create()方法。
把create()方法返回的PropertySet定型(cast)成为SummaryInformation。PropertySet提供了按照一般
办法读取属性集的各种机制,SummaryInformation是PropertySet的子类,即SummaryInformation类在
PropertySet类的基础上增加了操作Microsoft标准属性的便捷方法。
  在这个处理过程中,可能引起错误的因素很多,因此我们把这部分内容放入了一个try块,不过这个示例程序只按照最简单的方式处理了异常,在实际应用中,最好能够对可能出现的不同异常类型分别处理。
  除了一般的I/O异常之外,还有可能遇到HPSF特有的异常,例如,如果输入流不包含属性集或属性集非法,就会抛出NoPropertySetStreamException异常。
  有一种错误不太常见,但也不是绝无可能\005SummaryInformation包含一个合法的属性集,但不是摘要信息属性集。如果出现这种情况,则定型成SummaryInformation操作会失败,引发ClassCastException异常。
  获得SummaryInformation实例之后,剩下的事情就很简单了,只要调用getTitle()方法,然后输出结果。
 除了getTitle()之外,SummaryInformation还包含其他一些便捷方法,例如getApplicationName()、
getAuthor()、getCharCount()、和getCreateDateTime()等。HPSF的JavaDoc文档详细说明了所有这些
  八、文档摘要信息
  遗憾的是,并非所有的属性都保存在摘要信息
属性集之中。许多(但不是全部)OLE
2文件还有另一个属性集,称为“文档摘要信息”,对应的流是\005DocumentSummaryInformation。这个属性集保存的属性包括文
档的类别、PowerPoint幻灯的多媒体剪辑数量,等等。
  要访问文档摘要信息属性集,程序的处理过程也和上例相似,只是注册
的目标应该改成\005DocumentSummaryInformation有时,你可能想要同时注册到摘要信息和文档摘要信息这两个流。其余的处理方
式和前面的例子差不多,你应该把包含文档摘要信息的流传递给PropertySetFactory.create(),但这次工厂方法将返回一个
DocumentSummaryInformation对象(而不是前面例子中的SummaryInformation对象)。
如果同时注册到了两个流,注意检查返回值的具体类型,或者使用Java的instanceof操作符,或者使用专用的
isSummaryInformation()和isDocumentSummaryInformation()方法。记住,create()方法返回的
总是一个PropertySet对象,因此你总是可以对create()返回对象调用isSummaryInformation()和
isDocumentSummaryInformation()方法,PropertySet类之所以要提供这两个方法,是因为属性集可能是自定义的。
  如果你想要处理自定义的属性集,或者要从标准的属性集读取用户定义的属性,必须使用一个更一般化的API,前面已经提到,这个API要复杂得多,本文不再讨论,请参见HPSF的HOW-TO文档和POI的文档。
 结束语:本文探讨了HSSF的应用以及如何输出到Excel文件,另外还涉及了HPSF以及如何读取属性集文档摘要信息。POI是一个功能非常强大的项
目,许多主题本文尚未涉及,例如如何用HSSF Serializer将XML文档转换成Excel格式等,这一切仍有待您去研究了。
  九、附录
  实例:利用Servlet创建和返回一个工作簿。
  package org.apache.poi.hssf.usermodel.
  import java.io.*;
  import java.net.*;
  import javax.servlet.*;
  import javax.servlet.http.*;
  import org.apache.poi.hssf.usermodel.*;
  public class HSSFCreate extends HttpServlet {
  public void init(ServletConfig config)
  throws ServletException {
  super.init(config);
  public void destroy() {
  /** 处理HTTP GET 和POST请求
  * @param request:请求
  * @param response:应答
  protected void processRequest(HttpServletRequest request,
  HttpServletResponse response)
  throws ServletException, IOException {
  response.setContentType("application/vnd.ms-excel");
  HSSFWorkbook wb = new HSSFWorkbook();
  HSSFSheet sheet = wb.createSheet("new sheet");
  // 创建一个新的行,添加几个单元格。
  // 行号从0开始计算
  HSSFRow row   = sheet.createRow((short)0);
  // 创建一个单元格,设置单元格的值
  HSSFCell cell  = row.createCell((short)0);
  cell.setCellValue(1);
  row.createCell((short)1).setCellValue(1.2);
  row.createCell((short)2).setCellValue("一个字符串值");
  row.createCell((short)3).setCellValue(true);
  // 写入输出结果
  OutputStream out = response.getOutputStream();
  wb.write(out);
  out.close();
  /** 处理HTTP GET请求
  * @param request:请求
  * @param response:应答
  protected void doGet(HttpServletRequest request,
  HttpServletResponse response)
  throws ServletException, IOException {
  processRequest(request, response);
  /** 处理HTTP POST请求
  * @param request:请求
  * @param response:应答
  protected void doPost(HttpServletRequest request,
  HttpServletResponse response)
  throws ServletException, IOException {
  processRequest(request, response);
  /** 返回关于Servlet的简单说明
  public String getServletInfo() {
  return "示例:在Servlet中用HSSF创建Excel工作簿";
针对Excel转换为Html,CVS文件
http://svn.apache.org/repos/asf/poi/trunk/src/examples/src/org/apache/poi/ss/examples/html/ToHtml.java
example shows how to display a spreadsheet in HTML using the classes for spreadsheet display.
http://svn.apache.org/repos/asf/poi/trunk/src/examples/src/org/apache/poi/ss/examples/ToCSV.java
example demonstrates one
way to convert an Excel spreadsheet into a CSV file.
longgangbai
浏览: 4562008 次
来自: 上海
受益了,多谢!
MQTT集合了轻量级、低能耗、Pub/Sub模式以及专门针对不 ...
看了很多有关锁的文章,读完您的这篇,算是大彻大悟了转: /kf/382.html最近由于项目需要实现,在上传的word附件里面动态的添加文字辨识,来区分版本,所以本人做了 一些研究,由于安全性考虑项目都是部署在linux上的,所以一些依赖windows dll组件的实现方案全部被我放弃了,再说了,那些方案也不安全,因为我这是合同系统,有第三方的组件是很危险的.但是 除了dll组件之外的方案,都不尽人意,最好的poi以前只是勉强读取之类的,想要坐到修改里面的内容,并且不影响里面格式,还是挺困难的.经过一番艰难险阻,最终成功找出了一个方案,虽然只是支持2007以上版本,我觉得也够用了 毕竟现在都2012年了,ie6也马上下台了,html5,javascript2,nodejs,nosql,各种技术不断雀跃,我们要是在固步自封,不知道天朝合适能成为天堂,不扯了,下面是代码:[java]
import java.io.F import java.io.FileOutputS
import org.apache.poi.POIXMLD import org.apache.poi.openxml4j.opc.OPCP import org.apache.poi.xwpf.usermodel.ParagraphA import org.apache.poi.xwpf.usermodel.XWPFD import org.apache.poi.xwpf.usermodel.XWPFP import org.apache.poi.xwpf.usermodel.XWPFR
public class TestPoi {
* @param args
public static void main(String[] args) {
//获得word的pack对象
OPCPackage pack = POIXMLDocument.openPackage("files//11.docx");
//获得XWPFDocument对象
XWPFDocument doc = new XWPFDocument(pack);
//输出doc body中包含的元素个数
System.out.println(doc.getBodyElements().size());
//输出pack中包含的的part个数,这里就是word文档的页数
System.out.println(pack.getParts().size());
//获得第一个段落对象
XWPFParagraph paragraph = doc.getParagraphs().get(0);
//段落的格式,下面及个设置,将使新添加的文字向左对其,无缩进.
paragraph.setIndentationLeft(0);
paragraph.setIndentationHanging(0);
paragraph.setAlignment(ParagraphAlignment.LEFT);
paragraph.setWordWrap(true);
//在段落中新插入一个run,这里的run我理解就是一个word文档需要显示的个体,里面可以放文字,参数0代表在段落的最前面插入
XWPFRun run = paragraph.insertNewRun(0);
//设置run内容
run.setText("finish");
run.setFontFamily("宋体");
run.setBold(true);
//因为不支持直接保存会原有对象,或者我不会,只能新保存一个文件,然后将原来的删除,将新的文件重命名回原文件名.
File oldFile = new File("files//11.docx");
File newFile = new File("files//22.docx");
FileOutputStream fos = new FileOutputStream(newFile);
doc.write(fos);
fos.flush();
fos.close();
pack.close();
System.out.println(oldFile.delete());
System.out.println(newFile.renameTo(oldFile));
} catch (Exception e) {
e.printStackTrace();
}import java.io.Fimport java.io.FileOutputSimport org.apache.poi.POIXMLDimport org.apache.poi.openxml4j.opc.OPCPimport org.apache.poi.xwpf.usermodel.ParagraphAimport org.apache.poi.xwpf.usermodel.XWPFDimport org.apache.poi.xwpf.usermodel.XWPFPimport org.apache.poi.xwpf.usermodel.XWPFRpublic class TestPoi { /**
* @param args
*/ public static void main(String[] args) {
//获得word的pack对象
OPCPackage pack = POIXMLDocument.openPackage("files//11.docx");
//获得XWPFDocument对象
XWPFDocument doc = new XWPFDocument(pack);
//输出doc body中包含的元素个数
System.out.println(doc.getBodyElements().size());
//输出pack中包含的的part个数,这里就是word文档的页数
System.out.println(pack.getParts().size());
//获得第一个段落对象
XWPFParagraph paragraph = doc.getParagraphs().get(0);
//段落的格式,下面及个设置,将使新添加的文字向左对其,无缩进.
paragraph.setIndentationLeft(0);
paragraph.setIndentationHanging(0);
paragraph.setAlignment(ParagraphAlignment.LEFT);
paragraph.setWordWrap(true);
//在段落中新插入一个run,这里的run我理解就是一个word文档需要显示的个体,里面可以放文字,参数0代表在段落的最前面插入
XWPFRun run = paragraph.insertNewRun(0);
//设置run内容
run.setText("finish");
run.setFontFamily("宋体");
run.setBold(true);
//因为不支持直接保存会原有对象,或者我不会,只能新保存一个文件,然后将原来的删除,将新的文件重命名回原文件名.
File oldFile = new File("files//11.docx");
File newFile = new File("files//22.docx");
FileOutputStream fos = new FileOutputStream(newFile);
doc.write(fos);
fos.flush();
fos.close();
pack.close();
System.out.println(oldFile.delete());
System.out.println(newFile.renameTo(oldFile));
} catch (Exception e) {
e.printStackTrace();
} }}注释写了很明白了,因为poi的文档相当于没有,里面的每个函数,我都是自己试出来的,没办法,不知道为什么他们不维护api,就算是试验阶段,也应该写出来,要不然就扔出来一个jar,谁知道你是干什么的.代码很简单,就是实现了在word文档的第一行插入"finish"字样,这里是插入不会影响同一行的文字,我没有找到直接保存修改的功能,只能saveas一个新文件,然后重命名回去.如果有童鞋知道怎么实现,还望给我回复.
最新教程周点击榜
微信扫一扫PO2与POI3差异研究(基于POI3.8)用于解决JAVA环境下EXCEL2003.EXCEL2007.EXCEL2010的兼容性问题 -
- ITeye技术网站
摘&&& 要
我司系统是WEB项目,JAVA/WEBLOGIC/LINUX环境,会在前端客户机上会安装一个公司开发的EXCEL插件,用于与后台系统进行交互,近期在操作EXCEL时发现EXCEL2003和EXCEL2007之间的一系列兼容性问题,本文即对POI操作EXCEL的兼容性问题进行的探讨。
本文首先对现有问题的现象进行了描述,然后再对POI结构、POI版本差异作了概述,最后提供了一套解决方案。
阅读本文,默认读者已经了解了POI的具体使用,本文不具体介绍POI的API。
1 现有问题:
目前以EXCEL为基础进行数据制作,在前端客户机上会安装一个公司开发的EXCEL插件,用于与后台系统进行交互,近期发现EXCEL版本之间的一系列兼容性问题:
1、 涉及到EXCEL2007文件的后台操作,会导致后台错误。
org.apache.poi7.poifs.filesystem.OfficeXmlFileException: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF)
2、 涉及EXCEL导出的部分,若文件内容是EXCEL2007,却使用.XLS,为后缀名的文件。那么使用EXCEL2003打开会导致乱码现象。
3、 目前使用后台创建的EXCEL文件,无论客户安装的是什么版本的OFFICE,后台都是用EXCEL2003(POI2)文件格式创建的。
2 问题原因:
报表平台现有系统在后台处理Excel都是使用apache的POI2.x进行解析处理,但是poi2.x是和jdk1.4兼容的,且poi2.x只能处理excel2003及以前的老版本excel文件,客户机器上安装的往往是较新版的office2007,要处理excel2007就必须使用poi3.5以上的版本,poi3.5及以上的版本适用jdk1.5版及以上,并支持excel2007的处理。
3 POI2.x与POI3.x的区别:
3.1 什么是POI
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案读和写的功能。现在较新较稳定的POI版本是3.7,即常说的POI7,最新的POI3.8已经出了beta2版本,支持EXCEL2010的操作。
3.2 如何使用POI
完整的POI3.8 beta2包含如下类库:
poi-3.8-beta2-.jar
poi-examples-3.8-beta2-.jar
poi-excelant-3.8-beta2-.jar
poi-ooxml-3.8-beta2-.jar (Office Open XML)
poi-ooxml-schemas-3.8-beta2-.jar
poi-scratchpad-3.8-beta2-.jar
另需要一些配套包的支持(目前公司资产LIB库中已经存在的)
dom4j-1.6.1.jar
stax-api-1.0.1.jar
xmlbeans-2.3.0.jar (必须使用2.3或以上的版本)
commons-logging-1.1.jar
junit-3.8.1.jar
log4j-1.2.13.jar
POI3.8的具体API及实现方法不在本文详述。
3.3 POI结构及版本区别:
1、 首先,相对于POI2.X及以下版本,POI3.X支持较高版本的Office操作,在本文中关注的是能够对EXCEL2007进行操作,并可兼容操作EXCEL2003。
部分类图如下:
如上图,POI2.x的结构只有类图中左半部分,POI3.x新增了以XSSF前缀的EXCEL文件操作对象,用于对OOM格式的EXCEL操作。
POI3完整具体结构和作用如下:
  结构:
  HSSF - 提供读写Microsoft Excel格式档案的功能。
  XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。
  HWPF - 提供读写Microsoft Word格式档案的功能。
  HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
&&& HDGF - 提供读写Microsoft Visio格式档案的功能。
2、其次,另一个重要区别就是,excel2007文件格式与之前版本不同,之前版本采用的是微软自己的存储格式。07版内容的存储采用XML格式(OOM)。
4 现有问题解决方案:
4.1 解决方案要求:
1、 解决目前EXCEL2003和EXCEL2007兼容性问题。
2、 提供后续EXCEL版本,如EXCEL2010的可扩展性。
4.2 算法(实现逻辑)
1、 兼容性:
如(图1)所示,我们可以看到,操作EXCEL2003的对象(HSSF为前缀)与操作EXCEL2007的对象(XSSF为前缀)共用一套接口,在遇到未知版本的EXCEL文件时,可以通过POI提供的方法判断文件头来获取版本信息,构造具体版本的Workbook实例。再返回统一的接口达到兼容性要求。
创建兼容性Workbook的工厂方法代码如下:
public static Workbook createCommonWorkbook(InputStream inp)
throws IOException, InvalidFormatException {
// 首先判断流是否支持mark和reset方法,最后两个if分支中的方法才能支持
if (!inp.markSupported()) {
// 还原流信息
inp = new PushbackInputStream(inp,;
// EXCEL2003使用的是微软的文件系统
if (POIFSFileSystem.hasPOIFSHeader(inp)) {
return new HSSFWorkbook(inp);
// EXCEL2007使用的是OOM文件格式
if (POIXMLDocument.hasOOXMLHeader(inp)) {
// 可以直接传流参数,但是推荐使用OPCPackage容器打开
return new XSSFWorkbook(OPCPackage.open(inp));
throw new IOException("不能解析的excel版本");
}
通过传入的文件流,获取到通用的Workbook接口,就可以进行一系列不同的业务操作了,实际上到这一步EXCEL2003与EXCEL2007的兼容性问题已经基本解决了,简单吧?具体实例请阅读本文最后的DEMO,此处不详述。
当然,HSSFWorkbook(EXCEL2003)会与XSSFWorkbook(EXCEL2007)有很多差异,通用接口只能满足这两者的交集部分。
如下图:
(图2)
若接口不能完全满足要求,可以通过判断Workbook类型,强制转换成其对应版本的对象,分别作两套或多套方法来处理。这是为满足兼容性值得牺牲,也是必须牺牲的部分。根据实际操作经验,接口能满足绝大部分EXCEL的基本操作,不能满足需要的情况非常少见。具体功能差异未作深究,感兴趣的读者可自行对比API。
伪码如下:
Workbook wb = createCommonWorkbook(不确定的版本的EXCEL文件流);
if (wb instanceof HSSFWorkbook) {
HSSFWorkbook hwb = (HSSFWorkbook)
EXCEL2003的处理部分
} else if (wb instanceof XSSFWorkbook) {
XSSFWorkbook xwb = (XSSFWorkbook)
EXCEL2007的处理部分
throw new IOException("不能解析的excel版本");
2、 扩展性:
我们在兼容性部分已经创建了获取兼容Workbook的工厂方法,若遇到其它版本,如EXCEL2010的需求,在工厂方法里添加一个创建EXCEL2010的Workbook条件就行了。
修改createCommonWorkbook方法,伪码如下:
public static Workbook createCommonWorkbook(InputStream inp)
throws IOException, InvalidFormatException {
if (输入文件的文件头为EXCEL2010格式) {
return new EXCEL2010Workbook(inp);
throw new IOException("不能解析的excel版本");
}
既然版本都是固定的,那么再提供一个版本枚举类,不就可以更方便管理不同的EXCEL版本了吗,如果将枚举的VALUE值定义为文件后缀名,也一并解决了不同版本的EXCEL文件后缀名不同的恼人问题,真是一举多得呢。后续即使有更高的Office版本,如EXCEL2010,也只需要添加一个工厂条件,再添加一个枚举项即可实现无缝升级了。
枚举类属性如下:
// KEY:版本号
// VALUE:文件后缀名
/** EXCEL2003版本 */
EXCEL_, ".xls"),
/** EXCEL2007版本 */
EXCEL_, ".xlsx");
/** 后续添加扩展添加的EXCEL2010版本 */
EXCEL_, ".xlsx");
再创建一个根据Workbook取得版本信息的工具方法,如下:
public static ExcelVersionTypeEnum checkExcelVersion(Workbook wb)
throws IOException {
if (wb instanceof HSSFWorkbook) {
return ExcelVersionTypeEnum.EXCEL_2003;
} else if (wb instanceof XSSFWorkbook) {
return ExcelVersionTypeEnum.EXCEL_2007;
throw new IOException("不能解析的excel版本");
}
}
以后获取版本信息或后缀名就方便了:
ExcelVersionTypeEnum ev =CompatibleExcelUtil.checkExcelVersion(wb);
String suffix = ev.getValue();
源码如下:
public class Test {
public static void main(String[] args) {
String path2007 = "d:\\2007.xlsx";
String path2003 = "d:\\2003.xls";
Test.Demo(path2003);
public static void Demo(String filePath){
InputStream is =
try {
is = new BufferedInputStream(new FileInputStream((new File(filePath))));
//调用工具类,获取兼容的Workbook接口(兼容性)
Workbook wb = CompatibleExcelUtil.createCommonWorkbook(is);
//获取首个单元格值(具体业务处理)
Sheet sheet = wb.getSheetAt(0);
sheet.getRow(0);
Row row = sheet.getRow(0);
Cell cell = row.getCell(0);
//调用工具类,返回版本枚举
ExcelVersionTypeEnum ev =CompatibleExcelUtil.checkExcelVersion(wb);
//控制台打印信息
System.out.println("EXCEL版本号:" + ev);
System.out.println("文件后缀名:" + ev.getValue() + "(即使此DEMO中文件后缀名不规范,此处也能正确识别)");
System.out.println("首个单元格值:" + cell.getNumericCellValue());
} catch (Exception e) {
e.printStackTrace();
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
运行结果:
在D盘创建EXCEL2003格式文件《2003.xls》首个单元格值为2003。运行Test.Demo(path2003);
得到以下结果:
在D盘创建EXCEL2003格式文件《2007.xlsx》首个单元格值为111。运行Test.Demo(path2007);
得到以下结果:
把2007.xlsx改后缀名为2007.xls,运行Test.Demo("d:\\2007.xls");
得到以下结果:
oushengwei
浏览: 8020 次
CompatibleExcelUtil 代码可否贴出来?
请注明出处。

我要回帖

更多关于 poi3.8 jar包下载 的文章

 

随机推荐