У меня есть 2 файла, которые не могут быть отсортированы. Оба они имеют список слов в строках. Я пытаюсь сравнить оба файла и создать новый без любые повторяющиеся строки, которые совпадают между обоими файлами. Это означает, что если строка в файле A найдена в файле B, она не должна отображаться в качестве результата вывода.
Существует огромная проблема со многими вопросами и сайтами, которые говорят в своих заголовках «Удаление дубликатов», хотя на самом деле это «Объединение дубликатов и отображение уникального». Эти 2 пункта очень разные. На самом деле повторяющиеся строки не удаляются, а только объединяются.
В этом конкретном случае мне действительно нужно УДАЛИТЬ ИХ. Так что если они найдены в обоих файлах, то в результате не отображаются.
я тестировал связь
уже и это не удается. Я также протестировал несколько других случаев, таких как awk, grep, которые я видел. Правила для обоих файлов следующие:
- Они имеют разный размер (не имеют одинакового количества строк)
- Чтобы быть дубликатом, он сравнивает всю строку с каждой и всеми другими строками в другом файле.
- Файлы не могут быть отсортированы
Вот некоторая информация о файлах, они содержат список адресов электронной почты, по одному электронному адресу в строке. Конечно, поскольку они разного размера, это не означает, что все электронные письма будут одинаковыми, но они содержат друг в друге все уникальные электронные письма. Просто некоторые электронные письма могут быть в обоих файлах. В случаях, когда электронные письма находятся в обоих файлах, выходные результаты не должны отображать эти электронные письма.