Skip to content

mikolajblaz/uw-minhash

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Autor: Mikołaj Błaż
Album: 346862
27.10.2016

W katalogu 'scripts' znajdują się skrypty, w celu pełnego wystartowania hadoopa
(łącznie z pobraniem) należy uruchomić skrypt 'run_all.sh' z argumentami 'master slaves'.
Kopiowanie do HDFS - put_to_hdfs.sh
Kompilacja i uruchomienie - compilenrun.sh



Policzenie shingli w różnych plikach - klasa 'Summary' z folderem z plikami jako jednym argumentem, np.
yarn jar Summary.jar Summary /input/books

LSH - klasa 'Similarity' z folderem z plikami jako jednym argumentem i folderem na wyjście jako drugim, np.
yarn jar Similarity.jar Similarity /input/books /output

UWAGA: żeby policzyć powyższe rzeczy na pliku z tweetami (czyli jednym pliku CSV z wieloma dokumentami wewnątrz)
należy uruchomić odpowiadające powyższym klasom klasy 'SummaryCSV' i 'SimilarityCSV' z takimi samymi argumentami.

About

Min Hashing scheme, Hadoop implementation

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published