System gromadzenia i przetwarzania dokumentów tekstowych celem rozpoznawania podobieństw (plagiatów) w opracowaniach akademickich

Krzysztof Rzecki

Wyszukiwanie:


tytuł, autor wszędzie

Sortowanie:

Bibliografia Publikacji Pracowników PK (50021)

Inne bazy bibliograficzne (15019)

Typy zasobów

Jednostki PK

Tematyka bazy Historia i Ludzie PK

Opcje

Krzysztof Rzecki

System gromadzenia i przetwarzania dokumentów tekstowych celem rozpoznawania podobieństw (plagiatów) w opracowaniach akademickich

typ: niepublikowana praca

Wariant tytułu		Collecting and processing text documents system for text documents similarity measurements investigation (plagiarism detection) in academic essays
Rok ukończenia pracy		2008
Jednostka wykonująca		Politechnika Krakowska Instytut Teleinformatyki

tematyka

Rodzaj pracy		naukowa
Klasyfikacja PKT		[412521] Programy i oprogramowanie użytkowe. Biblioteki programów [412700] Przetwarzanie danych. Przygotowanie danych [415200] Banki danych [412500] Oprogramowanie komputera [410000] Informatyka
Słowa kluczowe autorskie		Przetwarzanie języka naturalnego Korpus języka polskiego Lematyzacja Stop-słowa Plagiat Natural language processing Polish language corpora Lemmatization Stop-words Plagiat
Abstrakt		Zbudowano kilka różnych tematycznie korpusów z tekstami w języku polskim o łącznej wielkości przekraczającej 120 mln słów. Zaimplementowano i przetestowano algorytmy tokenizacji tekstu do postaci ... więcej Zbudowano kilka różnych tematycznie korpusów z tekstami w języku polskim o łącznej wielkości przekraczającej 120 mln słów. Zaimplementowano i przetestowano algorytmy tokenizacji tekstu do postaci umożliwiającej dalszą obróbkę. Zaimplementowano algorytmy przetwarzania tekstu (w tym nowatorskie wyznaczanie stop-słów oraz lematyzacja) pozwalających na wielopoziomowe porównywanie. Zbadano własności oraz korelacje wskaźników wyrażających podobieństwo w tekstach na różnych etapach przetwarzania (w tym nowatorski wskaźnik podobieństwa). Zgromadzono rzeczywiste prace studenckie i zbadano opracowane algorytmy. Zaprojektowano i zbudowano system gromadzenia, przetwarzania i badania dokumentów tekstowych. A number of different Polish language corpora of the total size of over 120 mln words were built. Tokenization algorithms to make texts available for future processing were implemented. Text processing ... więcej A number of different Polish language corpora of the total size of over 120 mln words were built. Tokenization algorithms to make texts available for future processing were implemented. Text processing algorithms (including innovative stop-words selection and lemmatization) enabling a multilevel text comparison were implemented. Correlations of coefficients used to calculate similarities in text documents on various processing levels (including innovative similarity coefficient) were examined. Actual students' essays were collected to examine the implemented algorithms. Computer system to collect, process and compare text documents was designed and built.

odnośniki

Kolekcja

Niepublikowane prace naukowe pracowników PK (1994-2012)