java - xalan api 的性能问题
问题描述
以下方法需要 33 秒(执行时间)来执行 10000 次迭代。 CachedXPathAPI来自org.apache.xpath.CachedXPathAPI。我正在使用 xalan-2.7.0.jar。请任何人都可以在这里帮助我如何减少执行时间。如果我们增加负载,比如说 40000 次迭代,那么执行需要 10 分钟。从 for 循环调用整个方法readXMLData
public static Hashtable<String, NodeList> readXMLData(CachedXPathAPI cashedXPath, org.w3c.dom.Document doc, String nodePath, int nodeInstance) throws Exception
{
Hashtable<String, NodeList> input = null;
try
{
NodeList rowNodes = cashedXPath.selectNodeList(doc, nodePath);
// NodeList rowNodes = XPathAPI.selectNodeList( doc, nodePath);
if (rowNodes == null)
return null;
if (rowNodes.getLength() <= 0)
return null;
Element rowNode = (Element) rowNodes.item(nodeInstance);
if (rowNode == null)
return null;
NodeList rowElements = rowNode.getChildNodes();
if (rowElements == null)
return null;
input = new Hashtable<String, NodeList>();
for (int elementIndex = 0; elementIndex < rowElements.getLength(); elementIndex++)
{
Node rowElement = rowElements.item(elementIndex);
if (rowElement.getNodeType() == Node.ELEMENT_NODE)
{
Element elem = (Element) rowElement;
String name = elem.getNodeName();
if (elem.hasChildNodes())
{
NodeList child = elem.getChildNodes();
if (child != null)
{
input.put(name, child);
}
} else if (elem.hasAttributes())
{
input.put(name, (NodeList) rowElement);
}
}
}
return input;
} catch (TransformerException ex)
{
throw new Exception("readXMLData (TransformerException): " + ex.getMessage());
} catch (Exception ex)
{
throw new Exception("readXMLData (Exception): " + ex.getMessage());
}
}
解决方案
首先,我会使用 HashMap - 但要对方法 Map<String, NodeList> (**) 进行签名。
您的方法的签名表明您可能正在做这样的事情(或者至少在循环中一遍又一遍地处理相同的 nodePath ...
readXMLData(cashedXPath, doc, nodePath, 1);
readXMLData(cashedXPath, doc, nodePath, 2);
readXMLData(cashedXPath, doc, nodePath, 3);
readXMLData(cashedXPath, doc, nodePath, 4);
readXMLData(cashedXPath, doc, nodePath, 5);
如果是这种情况,那么第一个明显的事情是selectNodeList
代码正在不必要地一遍又一遍地运行 - 它只需要为一组具有相同的行节点运行一次nodePath
。
NodeList rowNodes = cashedXPath.selectNodeList(doc, nodePath);
据推测,该调用必须命中文档的重要部分 - 它评估 XPAth 的每个匹配项,即使您只使用第一个匹配项 [因此文档中的匹配项越多,这就越浪费]。
或者,如果这不重要,我会注释掉其他所有内容,看看这是否占您总处理时间的很多。如果在其余代码上花费了大量时间 - 做同样的事情并将其分解。
要考虑的另一种选择是使用了多大/多少内存......(**)每次该方法处理rowElements
它时,它都会将来自 DOM 的一些数据保存在地图中。如果您要保留返回的内容-那么您将保留对有效临时数据结构的引用-因此内存使用量会不断增加,这可能会导致大量垃圾收集...一种解决方案-可能是增加内存应用程序可以运行的大小。另一个可能是计算出您真正需要的 DOM 并保留其中的值(例如,不是 DOM 结构,但可能是叶子内容 [但不是任何 DOM 对象 - 所以所有可以释放与 XPath 结果相关的临时结构(和 GC'd)。
推荐阅读
- amazon-web-services - 我想阻止对我的 S3 存储桶的公共访问,但授予对其对象的只读访问权限
- android - 当我们按下返回箭头时会运行什么函数?
- flask - 如何检查 url_for 是否引用现有文件?
- spring - Spring Interceptor Prehandle 如果发生错误,如何获取实际的 request.getServletPath() 而不是“错误”
- inheritance - 继承 jsonnet 库
- cordova - 如何隐藏/删除 Ionic 4 Cordova Windows 10 应用程序后退按钮?
- python - 在 Python 中打印具有相应值的数组索引
- excel - 如果数组包含某些文本(例如,如果 rRng(i,k) 包含“/2”),如何使用 select case 语句
- angular - Angular 7处理大型post http请求
- python - 如何在 JSONField 中找到最大/最小值?