opinion extraction system这说法很学术,我不知道中文怎么表达。
information retrieval system指的就搜索引擎。
首先,基于文本相关性来搜索,在NLP场景下,核心关键词的得分容易被一些废话稀释。虽然可以用stopwords来解决,但句法分析提取本体的做法会精准得多。
然后,更重要的是,咱们搞搜索上层应用的,除了文本相关性之外,很多时候会做一些基于特定规则的特殊处理。这一块很大程度是基于自身的业务,所以国内LTP也好、ICTCLAS也好,并没有给出做句法分析的通解。
例如一个视频搜索,发现query里有“new”或者“hot”,可能就要在搜索时加上时间相关的特殊规则。这些规则的制定,就是对业务的理解结合句法分析完成的。
视频搜索这例子不太好,因为设个关键词也能解决,不需要用到句法分析这种牛刀。如果搜“我要订个明天从广州飞北京的机票”,就一定要用句法分析了。首先要判定这个是买机票业务,然后抽取出句中的时间地点,然后填入对应的业务接口当中,最后呈现给用户。
其难点在于如何抽象化和运行效率问题,还有业务和工程方面无数你想到的想不到的坑。