Extração de recurso de acordo de um texto

Eu estou passando por uma tarefa onde eu tenho que extrair o recurso de acordo dos substantivos no texto ... O recurso de acordo, como:

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

existe de qualquer maneira para extrair esses recursos do texto ....

3
adicionado editado
Visualizações: 1
Você realmente teria que verificar cada linha, encontrar as tags de substantivo e então ter uma lista de recursos de acordo (como você o chama) para ser checada novamente a linha encontrada na linha.
adicionado o autor Kazekage Gaara, fonte
O stanford-nlp POSgerger usa o taget Penn Treebank POS . Então, infelizmente, você só pode acessar substantivos singulares e plurais dessas tags. Você precisa procurar um conjunto de tags que tenha esses recursos suportados ou criar manualmente um analisador para pesquisar esses atributos.
adicionado o autor Kazekage Gaara, fonte
E acho que até o open-nlp usa o mesmo conjunto de tags.
adicionado o autor Kazekage Gaara, fonte
você quer dizer que eu deveria verificar cada linha do analisador ou o próprio texto .. coz os substantivos no singular e no plural eu posso extraí-los pelo marcador POS. o que acontece com os outros recursos, é possível extraí-los usando o código aberto NLP!
adicionado o autor S Gaber, fonte

1 Respostas

Se seus dados forem em inglês, como seus comentários sugerem, os substantivos nunca terão informações pessoais, por isso podemos desconsiderar isso.

O número é fácil, como já foi mencionado por outros: muitos taggers da parte da fala diferenciam os substantivos do singular e do plural.

Gênero e animacy são mais interessantes. Em inglês, essas são propriedades semânticas e não sintáticas de substantivos. Por exemplo, pegue a frase A princesa está na torre . Sabemos que princesa é feminina e animada não por causa de informação flexional, mas porque sabemos o significado da palavra. É possível construir uma ontologia obtendo um grande e velho corpus de dados e analisando os pronomes e anáforas nele. Seu algoritmo procuraria exemplos como estes:

A princesa se olha no espelho.

A princesa está na torre. Ela está triste.

Isso daria certo (de alguma forma) que princesa é o antecedente de ela mesma e ela , e inferiria as propriedades do substantivo das propriedades conhecidas de os pronomes. Claro, agora o problema se torna resolução de referência, o que não é trivial. Aqui estão algumas referências de um recente curso de palestra da Universidade de Edimburgo sobre o assunto:

  • Denis, Pascal e Baldridge, Jason, 2008. 'Modelos especializados e reranking para resolução de referência.' Em Anais da Conferência sobre Métodos Empíricos no Processamento de Linguagem Natural . ACL, 650-69.
  • Haghighi, Aria e Klein, Dan, 2010. "Resolução de referência em um modelo modular centralizado na entidade". Em Human Language Technologies: A Conferência Anual de 2010 do Capítulo Norte-Americano da Association for Computational Linguistics . Los Angeles CA, 385-93.
  • Lappin, Shalom e Leass, Herbert, 1994. 'Um Algoritmo para Resolução de Anáfora Pronominal.' Linguística Computacional 20: 535-61.
  • Ng, Vincent, 2010. 'Pesquisa de referência nuclear de frase substantiva supervisionada: os primeiros 15 anos.' Em ACL '10: Anais da 48ª Reunião da Associação de Linguística Computacional. 1396-411.
2
adicionado
Oh, bem, acho que isso seria muito mais fácil. É uma lista bastante limitada de títulos. Compile-o à mão e peça ao seu tagger que cuide deles. Não sei se existe uma implementação de código aberto existente.
adicionado o autor Tommy Herbert, fonte
obrigado Tommy Herbert, é realmente útil o que você foi explicado especialmente a Resolução Anaphora ... como sobre os nomes que não tem nenhum pronome que se conecta a ele. como podemos descobrir que é gênero e animação. E quanto aos nomes que começam com o senhor, a senhorita, a rainha, a dama, o senhor ... existe alguma abordagem para essas palavras ou código aberto que estiveram fazendo sobre essa coisa!
adicionado o autor S Gaber, fonte