반응형
* Jakarta POI 이용
POI는 http://jakarta.apache.org/poi 에서 찾을 수 있다. POI는 MS의 OLE2 복합문서 포맷을 기반으로 한 다양한 문서 포맷을 다룰수 있는 API를 제공한다. 다음의 두 함수는 word 파일을 Open한 InputStream으로 부터 Text를 추출하는 함수들이다. 다음 함수들을 보면 매우 간단하게 Word 문서의 Text를 추출 가능하다는 것을 알수 있다.
public String[] getWordDocumentString(InputStream is){
String[] returnValue=new String[5];
try{
WordDocument wd=new WordDocument(is);
StringWriter docTextWriter =new StringWriter();
wd.writeAllText(new PrintWriter(docTextWriter));
docTextWriter.close();
returnValue[0]=docTextWriter.toString();
System.out.println("Extracted word string:"+returnValue[0]);
} catch (Exception e){
e.printStackTrace();
}
return returnValue;
}
public String[] getWordDocumentString2(InputStream is){
String[] returnValue=new String[5];
try{
WordExtractor we=new WordExtractor(is);
returnValue[0]=we.getText();
System.out.println("Extracted word string:"+returnValue[0]);
} catch (Exception e){
e.printStackTrace();
}
return returnValue;
}
그외에 TextMining.org에서도 MS 워드 문서의 Text를 추출 가능하다.
String text=new WordExtractor().extractText(InputStream is) 의 한줄로 가능하다..
POI는 http://jakarta.apache.org/poi 에서 찾을 수 있다. POI는 MS의 OLE2 복합문서 포맷을 기반으로 한 다양한 문서 포맷을 다룰수 있는 API를 제공한다. 다음의 두 함수는 word 파일을 Open한 InputStream으로 부터 Text를 추출하는 함수들이다. 다음 함수들을 보면 매우 간단하게 Word 문서의 Text를 추출 가능하다는 것을 알수 있다.
public String[] getWordDocumentString(InputStream is){
String[] returnValue=new String[5];
try{
WordDocument wd=new WordDocument(is);
StringWriter docTextWriter =new StringWriter();
wd.writeAllText(new PrintWriter(docTextWriter));
docTextWriter.close();
returnValue[0]=docTextWriter.toString();
System.out.println("Extracted word string:"+returnValue[0]);
} catch (Exception e){
e.printStackTrace();
}
return returnValue;
}
public String[] getWordDocumentString2(InputStream is){
String[] returnValue=new String[5];
try{
WordExtractor we=new WordExtractor(is);
returnValue[0]=we.getText();
System.out.println("Extracted word string:"+returnValue[0]);
} catch (Exception e){
e.printStackTrace();
}
return returnValue;
}
그외에 TextMining.org에서도 MS 워드 문서의 Text를 추출 가능하다.
String text=new WordExtractor().extractText(InputStream is) 의 한줄로 가능하다..
반응형