基于组合的短语规则抽取方法使用说明

My homepage

1. 所需环境

        Linux用户,gcc(4.1.2版本或更高),g++(4.1.2版本或更高),GNU Make(3.81版本或更高)。    

2. 下载源码及论文

        CODE PAPER
        

3. 编译程序

        $ tar xzvf NiuTrans.PhraseExtractor.tar.gz
        $ cd NiuTrans.PhraseExtractor/src
        $ make
        $ cd ../    
        

4. 使用基于组合的短语抽取方法抽取规则

      抽取词汇翻译表
        $ bin/NiuTrans.PhraseExtractor --LEX \
            -src data/chinese.txt            \
            -tgt data/english.txt            \
            -aln data/alignment.txt          \
            -out data/lex

      抽取短语翻译对
        $ bin/NiuTrans.PhraseExtractor --EXTP \
            -src     data/chinese.txt         \
            -tgt     data/english.txt         \
            -aln     data/alignment.txt       \
            -out     data/extract             \
            -srclen  7                        \
            -tgtlen  7                        \
            -method  compose                  \
            -compose 2

      生成短语翻译表
        $ bin/NiuTrans.PhraseExtractor --SCORE \
            -tab    data/extract               \
            -tabinv data/extract.inv           \
            -ls2d   data/lex.s2d.sorted        \
            -ld2s   data/lex.d2s.sorted        \
            -out    data/phrase.translation.table.step1

      过滤短语翻译表
        $ bin/NiuTrans.PhraseExtractor --FILTN       \
            -in  data/phrase.translation.table.step1 \
            -out data/phrase.translation.table
         

5. 使用启发式方法抽取短语规则

      仅需将4中“抽取短语翻译对”进行简单参数变化即可,其余各步骤正常执行
        $ bin/NiuTrans.PhraseExtractor --EXTP \
            -src     data/chinese.txt         \
            -tgt     data/english.txt         \
            -aln     data/alignment.txt       \
            -out     data/extract             \
            -srclen  7                        \
            -tgtlen  7 
      

6. 短语翻译表使用

      直接作为NiuTrans的短语翻译表进行使用即可。
      

7. 技术支持

      如有任何问题,可发送邮件至liqiangneu@gmail.com