Another option I've used in the past is changing the underlying SAX parser that jDOM uses to TagSoup (
<a href="http://ccil.org/~cowan/XML/tagsoup/">http://ccil.org/~cowan/XML/tagsoup/</a>).  Their parser is tuned to parsing not fully XML compliant HTML.<div><br></div><div>  (*Chris*)<br><br><div class="gmail_quote">On Thu, Mar 29, 2012 at 8:47 AM, Olivier Jaquemet <span dir="ltr"><<a href="mailto:olivier.jaquemet@jalios.com">olivier.jaquemet@jalios.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Oliver,<br>
<br>
JDom is a great tool for parsing XML...<br>
<br>
... but for XHTML fragment (which may not be completely XHTML compliant ... ?)<br>
and specially for text extraction, I would strongly suggest JSoup <a href="http://jsoup.org/" target="_blank">http://jsoup.org/</a><br>
<br>
  String text = org.jsoup.Jsoup.parse(html).<u></u>text();<br>
<br>
Whatever is your html it will work like a charm (even it is an ugly copy paste wysiwyg from word or any ugly html export from whatever website)<br>
<br>
Olivier<div class="im"><br>
<br>
On 29/03/2012 15:23, Oliver Ruebenacker wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
      Hello,<br>
<br>
   I need a simple way to convert some XHTML fragments, provided as a<br>
JDOM Element, into plain text. I am willing to ignore most HTML tags<br>
and consider only the most commonly used predefined entities.<br>
<br>
   In JDOM, an entity reference has a name, a public id and a system<br>
id. I think I know what the named means, for named entities. But what<br>
about numeric entities, how do I get the code point? And what are<br>
public id and system id?<br>
<br>
   Thanks!<br>
<br>
      Take care<br>
      Oliver<br>
<br>
</blockquote>
<br>
-- <br></div>
Olivier Jaquemet<<a href="mailto:olivier.jaquemet@jalios.com" target="_blank">olivier.jaquemet@<u></u>jalios.com</a>><br>
Ingénieur R&D Jalios S.A. - <a href="http://www.jalios.com/" target="_blank">http://www.jalios.com/</a><br>
@OlivierJaquemet <a href="tel:%2B33970461480" value="+33970461480" target="_blank">+33970461480</a><div class="HOEnZb"><div class="h5"><br>
<br>
<br>
______________________________<u></u>_________________<br>
To control your jdom-interest membership:<br>
<a href="http://www.jdom.org/mailman/options/jdom-interest/youraddr@yourhost.com" target="_blank">http://www.jdom.org/mailman/<u></u>options/jdom-interest/<u></u>youraddr@yourhost.com</a><br>
</div></div></blockquote></div><br></div>