'MS문서색인'에 해당되는 글 1건

  1. 2007.09.15 lucene에서 마이크로소프트 문서 색인
반응형
* Jakarta POI 이용
POI는 http://jakarta.apache.org/poi 에서 찾을 수 있다. POI는 MS의 OLE2 복합문서 포맷을 기반으로 한 다양한 문서 포맷을 다룰수 있는 API를 제공한다. 다음의 두 함수는 word 파일을 Open한 InputStream으로 부터 Text를 추출하는 함수들이다. 다음 함수들을 보면 매우 간단하게 Word 문서의 Text를 추출 가능하다는 것을 알수 있다.

public String[] getWordDocumentString(InputStream is){
  String[] returnValue=new String[5];
  try{
   WordDocument wd=new WordDocument(is);
   StringWriter docTextWriter =new StringWriter();
   wd.writeAllText(new PrintWriter(docTextWriter));
   docTextWriter.close();
   returnValue[0]=docTextWriter.toString();
   System.out.println("Extracted word string:"+returnValue[0]);
  } catch (Exception e){
   e.printStackTrace();
  }
  return returnValue;
 }

 public String[] getWordDocumentString2(InputStream is){
  String[] returnValue=new String[5];
  try{
   WordExtractor we=new WordExtractor(is);
   returnValue[0]=we.getText();
   System.out.println("Extracted word string:"+returnValue[0]);
  } catch (Exception e){
   e.printStackTrace();
  }
  return returnValue;
 }

그외에 TextMining.org에서도 MS 워드 문서의 Text를 추출 가능하다.
 String text=new WordExtractor().extractText(InputStream is) 의 한줄로 가능하다..
반응형
Posted by alias
,